NELLO ZOO DEI LARGE LANGUAGE MODELS

0

Dai primi modelli linguisitici alle reti neurali, al Transformer, ai grandi modelli linguistici fino al Deep Learning. Andrea Valdroni propone una panoramica sull’evoluzione dell’intelligenza artificiale negli ultimi trenta anni per arrivare alla questione centrale attorno a cui verte l’attuale dibattito tra gli studiosi: siamo o no davanti a una versione embrionale di intelligenza artificiale generale?

Elaborazione del linguaggio naturale. Dai primi modelli alle reti neurali

Alla base del successo delle moderne applicazioni del Natural Language Processing (NLP), ramo dell’intelligenza artificiale che si concentra sulla creazione di dispositivi in grado di comprendere e manipolare il linguaggio umano, troviamo i cosiddetti modelli linguistici, o Language Models, come vengono più comunemente indicati nella letteratura internazionale. Dal riconoscimento vocale ai traduttori automatici (pensiamo solo ad Alexa e Google Translate per citare gli esempi di maggior successo), i Language Models sono lo strumento che permette alle macchine di comprendere informazioni qualitative attraverso la trasformazione di queste in informazioni quantitative.

La finalità di questo tipo di modelli è, in generale, quella di determinare la probabilità che una certa sequenza di parole compaia all’interno di una frase, analizzando grandi moli di dati testuali che costituiscono la base delle loro previsioni. Ad una sequenza di parole viene associata una distribuzione di probabilità condizionata da stimare tramite i testi prescelti.
Diversi sono i metodi matematici e statistici impiegati a seconda del compito da svolgere, che varia notevolmente in complessità. Una vera e propria svolta nella storia recente di questo campo di ricerca è stata l’adozione di modelli basati su reti neurali artificiali (Artificial Neural Networks), sistemi artificiali di elaborazione dell’informazione ispirati ai circuiti neurali biologici nati in seguito all’introduzione nel 2013 di una famiglia di architetture chiamata Word2vec da parte di Tomas Mikolov, ricercatore di Google. Rappresentando le singole parole come vettori matematici in uno spazio di grandi dimensioni (il cosiddetto word embedding), le reti neurali artificiali hanno consentito di utilizzare modelli pre-allenati con enormi volumi di dati testuali.

Dalle reti neurali ricorrenti al Transformer

La seconda fondamentale innovazione è stata l’adozione di reti neurali ricorrenti (Recurrent Neural Networks), architetture in cui le connessioni tra i nodi formano un grafo in grado di processare sequenze di input di lunghezza variabile (per esempio parole) senza tuttavia riuscire a produrre testi sufficientemente coerenti. Questo perché, appunto, sono vincolate ad analizzare le parole in base alla sequenza in cui appaiono nella frase, aspetto questo che preclude la possibilità di individuare relazioni contestuali per le singole parole presenti nei testi forniti come input.

La svolta successiva è diretta conseguenza della generale diffusione e dei progressi nel campo del cosiddetto Deep Learning (apprendimento profondo), branca dell’intelligenza artificiale che studia complesse architetture neurali caratterizzate da strati multipli di nodi interconnessi, in grado di estrarre informazioni o “caratteristiche” di tipo superiore a partire dai dati grezzi forniti in entrata. 

Un vero e proprio cambio di paradigma, alla base dei più recenti progressi nei modelli di grandi dimensioni, è avvenuto poi nel 2017 in seguito alla pubblicazione di un articolo firmato da un team di scienziati di Google Brain e dell’Università di Toronto, dal titolo “Attention is all you need”. Questo articolo ha introdotto una rivoluzionaria tipologia di architetture neurali di tipo “profondo” chiamata Transformer. Senza entrare nel dettaglio dei complessi aspetti tecnici, l’importanza di questo strumento deriva dal fatto che, diversamente dalle Recurrent Neural Networks, esso è in grado di processare i dati senza rispettare un ordine prestabilito, ma sfruttando il meccanismo dell’Attention. L’attention una tecnica che imita quel processo cognitivo che negli esseri umani permette di concentrarsi su aspetti discreti dell’informazione ignorandone altri. Come suggerisce il titolo dell’articolo, essa è in grado di fornire un contesto per ogni parola all’interno di una determinata sequenza di input. Per esempio, se i dati in entrata sono frasi in un qualsiasi linguaggio naturale, dove naturale sta ad indicare il linguaggio ordinario utilizzato dagli appartenenti ad un certo gruppo sociale in contrapposizione ai linguaggi artificiali creati a tavolino anziché determinati storicamente, il Transformer non è limitato dal dover processare l’inizio della frase prima della parte finale della stessa, ma è in grado di identificare il contesto che conferisce un significato ad ogni parola nella frase. Questo ha permesso di sfruttare a pieno le potenzialità del calcolo parallelo, consentendo di allenare i modelli su volumi di dati enormemente più grandi che in precedenza, oltre a permettere di risolvere molti problemi legati alla potenziale ambiguità dei testi. Ne è scaturita un’esplosione di modelli di grandi dimensioni come il BERT (Bidirectional Encoder Representations from Transformers) e i vari GPT (Generative Pre-trained Transformer), pre-allenati su database come il Wikipedia Corpus and Common Crawl, pronti per essere calibrati dagli utilizzatori a seconda della funzione da svolgere.

L’ultima fase: i Large Language Models

L’anno appena terminato ha visto una fioritura senza precedenti di modelli di grandi dimensioni, con i giganti del settore intenti a competere per il ruolo di leader dell’innovazione.

Com’è facilmente intuibile, tuttavia, l’adozione di modelli del tipo appena descritto pone una serie di problemi di varia natura. Il primo e più evidente è rappresentato dal fatto che i testi che vengono scelti per “allenare” il modello plasmano il testo che il modello a sua volta produrrà. Il risultato è, fatalmente, che il testo finale rifletterà la “visione del mondo” racchiusa nei testi a partire dai quali è stato prodotto.

Una critica estesa e puntuale a questi modelli, sebbene inficiata di politicamente corretto, è presente in On the dangers of stochastic parrots: are language models too big?, articolo  firmato dalle due ex coordinatrici del gruppo di etica e intelligenza artificiale di Google, Tminit Gebru e Margareth Mitchell, e da due linguiste della University of Washington, Emily Bender e Angelina McMillan-Major. L’articolo ha causato il clamoroso licenziamento delle prime due autrici da parte del gigante della Silicon Valley. Le studiose americane si concentrano soprattutto sull’impatto ambientale dei modelli (l’addestramento di un modello della famiglia dei Transformer comporta l’emissione di circa 284 tonnellate di CO2) e sulla limitatezza dei punti di vista offerti da essi nonostante l’allenamento su enormi database di testi (i cosiddetti “corpora”), che rischia di perpetuare stereotipi di varia natura e la marginalizzazione di minoranze.

Un altro articolo recente, pubblicato dai ricercatori di DeepMind, società attiva nella ricerca sull’intelligenza artificiale che fa capo ad Alphabet Inc. (la stessa holding che controlla Google), individua 21 potenziali rischi specifici all’interno di 6 aree di rischio così definite:

  1. Mancanza di equità e “tossicità” dei contenuti
  2. Fuoriuscite di dati sensibili e rischio che i modelli stessi, se allenati su dati privati, possano inferire informazioni sensibili
  3. Rischio che i modelli forniscano informazioni false o fuorvianti
  4. Rischio che i modelli vengano utilizzati da utenti o sviluppatori per alimentare campagne di disinformazione, frodi su vasta scala o per produrre codici per virus o sistemi d’armi
  5. Rischi insiti nell’utilizzo del modello come conversational agent, ossia un sistema che interagisce con gli esseri umani in modo simile alle chatbots, come quelli che derivano dal sovrastimare le reali capacità del sistema
  6. Rischi ambientali e derivanti dall’ineguale distribuzione dei benefici economici dei modelli sia a livello globale che della singola economia.

Le conseguenze dell’introduzione dei Transformer vanno ben al di là del progresso, pur sorprendente, delle applicazioni in ambito NLP. Il successo della rivoluzionaria architettura ha infatti contribuito a rianimare il dibattito sull’intelligenza artificiale generale, o intelligenza forte, ossia l’ipotetica possibilità di creare macchine, secondo alcuni necessariamente autocoscienti, in grado di replicare, se non di superare, l’intelligenza umana. Improvvisamente, il futuro dell’intelligenza artificiale non riguardava più soltanto robot senzienti o automobili a guida autonoma: se, infatti, i Language Models sono in grado di apprendere dai testi ed eseguire una serie di funzioni linguistiche, dobbiamo dedurne che sono in grado di comprendere un testo? Possono scrivere poesie o inventare barzellette? Siamo o no davanti ad una versione embrionale di intelligenza artificiale generale?

Il dibattito rimane in ogni caso estremamente polarizzato: buona parte degli scienziati è convinta che l’intero campo del Deep Learning non sia altro che una modellizzazione statistica, sebbene di un tipo estremamente sofisticato, e che, quindi, l’idea che si stia in qualche modo progredendo lungo la strada che porta dell’intelligenza artificiale generale sia una mera illusione: le reti neurali “profonde”, possono sì riprodurre lunghi testi coerenti, ma non sono neanche lontanamente in grado di comprendere concetti più o meno astratti alla stregua degli esseri umani. Sul fronte degli “ottimisti” va segnalato, invece, il recente contributo di Blaise Aguera y Arcas, ricercatore presso Google, secondo il quale i modelli linguistici di grandi dimensioni hanno molto da insegnarci sulla “natura del linguaggio, l’intelligenza, la socialità”. Nel suo articolo, Aguera y Arcas rigetta alcune delle tesi principali proposte dagli scettici. Tra queste, una delle più solide riguarda la condizione, necessaria per poter parlare di “comprensione”, di avere una qualche presenza fisica. Il sistema di intelligenza artificiale privo di “fisicità”, di apparati sensoriali, non sarebbe, secondo questa tesi, in grado di percepire il mondo in quella maniera che viene definita dagli scienziati “multimodale”, cioè attraverso una molteplicità di canali sensoriali, che è caratteristica degli esseri umani. Il bambino ha delle facoltà sensoriali innate che lo aiutano a sviluppare progressivamente sin dalla nascita la capacità di percepire il mondo dentro e fuori di sé e dunque di comprenderlo a vari livelli.

Aguera y Arcas risponde sostenendo che il linguaggio sarebbe in grado da solo di colmare il divario sensoriale tra umani e intelligenze artificiali, portando l’esempio della sordocecità e citando il famoso saggio del 1929 Helen Keller: “I have a color scheme that is my own… Pink makes me think of a baby’s cheek, or a gentle southern breeze. Lilac, which is my teacher’s favorite color, makes me think of faces I have loved and kissed. There are two kinds of red for me. One is the red of warm blood in a healthy body; the other is the red of hell and hate.” Inoltre, basandosi su concetti elaborati dalle scienze cognitive come l’apprendimento sequenziale e quello già citato di attenzione, sostiene che i language models abbiano una loro rudimentale capacità di comprendere il mondo attraverso sequenze di parole in relazione tra loro, pur riconoscendo che una comprensione completa del funzionamento del cervello va ben aldilà delle conoscenze scientifiche attuali.

Melanie Mitchell, Davis Professor of Complexity al Santa Fe Institute, ha confutato in modo convincente le tesi di Aguera y Arcas tramite un breve thread su Twitter che sintetizza quanto da lei elaborato in due articoli usciti a distanza di circa un anno l’uno dall’altro, rispettivamente per IA Magazine e Quanta Magazine. Sebbene fiduciosa che un giorno le macchine arriveranno a comprendere il linguaggio umano, la Mitchell è convinta che il problema principale consiste nel fatto che “comprendere il linguaggio presuppone la comprensione del mondo, e una macchina che viene esposta soltanto al linguaggio non è in grado di raggiungere tale livello di comprensione”. Per processare il linguaggio, gli esseri umani impiegano un bagaglio di conoscenze che non sono ricavabili dal testo scritto. Senza questo patrimonio cognitivo di base esiste alcun modo per l’intelligenza artificiale di comprendere il linguaggio. Inoltre, contrariamente a quanto argomentato da Aguera y Arcas, nella citazione della Keller la scienziata americana trova conferma dell’importanza della “corporeità” dell’esperienza sensoriale, senza la quale non sarebbe possibile associare tra di loro stimoli sensoriali di natura diversa come descritto dalla scrittrice citata.

Per quanto riguarda, infine, il meccanismo dell’attention, secondo la Mitchell il concetto utilizzato nell’ambito delle reti neurali, pur essendo omonimo, sarebbe molto diverso da quello relativo alla conoscenza umana. Questo aspetto viene argomentato estesamente in un altro suo pregevole articolo.

Il dibattito sulle effettive potenzialità dell’intelligenza artificiale è, quindi, più vivo che mai, alimentato non soltanto dai progressi dei modelli sviluppati nel campo del Natural Language Processing, ma anche dai risultati ottenuti nell’ambito del Reinforcement Learning (una branca dell’apprendimento automatico che mira a realizzare agenti intelligenti in grado di prendere decisioni sequenziali in un ambiente complesso con l‘obiettivo di massimizzare una certa nozione di “ricompensa”). È su questi agenti intelligenti che si basano, ad esempio, i veicoli autonomi. Quanto ai Language Models, il 2022 si prevede ricco di sviluppi, dall’utilizzo nella fase di training di “dati sintetici”, dati artificialmente creati con procedure algoritmiche, allo sviluppo di architetture di dimensioni più ridotte, come il RETRO, messo a punto da DeepMind, che si presume siano in grado di porre rimedio ad almeno alcuni dei problemi etici sollevati dai modelli più grandi.

Condividi!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *