2. 2
Modelli linguistici da Eliza a ChatGPT
Problemi, fraintendimenti e prospettive
Paolo Caressa
Gestore dei Servizi Energetici, spa
https://www.gse.it
https://it.linkedin.com/in/paolocaressa/it
3. 3
Un monologo in cinque atti
I. L(’)imitazione del linguaggio
II. Il crollo dell’impero grammaticale
III. La repubblica delle parole
IV. Comprendere, comprimere, capire
V. Le macchine conquisteranno il mondo?
5. Un brand di successo
Il termine Intelligenza
Artificiale è stato inventato nel
1956 dagli organizzatori della
prima conferenza sul tema, al
Dartmouth College, come
titolo evocativo (che portasse
anche finanziamenti per il
convegno).
5
6. Macchine pensanti
Il primo a proporre l’idea di una
macchina pensante (dove con
«macchina» si intende anche il
software) era stato Alan Turing
(1912-1954) nel suo scritto
Intelligent machinery del 1948 e
in altri scritti del 1950 e 1951.
6
7. Turing teorizza il machine learning
«Invece che scrivere un programma per computer per
simulare una mente adulta, perché piuttosto non provare a
produrne uno che simuli la mente di un bambino? Se questo
fosse soggetto a un’appropriata educazione si otterrebbe la
mente di un adulto.
La nostra speranza è che il meccanismo [innato] nel cervello
del bambino sia così semplice da poter essere programmato.
La mole di lavoro nell’educazione la possiamo assumere, in
prima approssimazione, pari a quella del bambino umano.»
Turing, Computing Machinery and Intelligence (1950)
7
8. Il test di Turing
Turing non dà una definizione
astratta di intelligenza ma
«operativa»: nel gioco
dell’imitazione, un computer
che riesca a vincere questo
gioco è, secondo Turing,
intelligente.
8
A
C
B
9. Il gioco dell’imitazione
A e B sono di sessi opposti, il
sesso di C è ininfluente.
L’inquirente C deve capire,
facendo domande e
ricevendo risposte, se A è
l’uomo e B la donna o
viceversa.
C e B vincono se C indovina,
A vince se C sbaglia.
9
A
C
B
10. È un computer intelligente?
Per Turing lo è se riesce a
giocare al posto di A il gioco
dell’imitazione, vincendolo
contro B e C in carne e ossa
in un numero rilevante di casi
(70% in su) dopo aver giocato
un numero fisso di minuti, per
esempio 5.
10
A B
C
11. Intelligenza ⇒ Linguaggio?
Turing segue una linea di pensiero molto diffusa secondo
la quale l’intelligenza umana si manifesta nel linguaggio.
E, profeticamente, scrive nel 1950:
«Io credo che in circa 50 anni sarà possibile programmare
computer, con una capacità di memoria di miliardi di numeri, per
fare loro giocare il gioco dell’imitazione così bene che un
inquirente medio non avrà più del 70% di possibilità di vincere
dopo cinque minuti di conversazione.»
11
13. Perché il linguaggio ci sembra così
importante?
1) Le nostre sensazioni, emozioni e istinti sono
comunicati col comportamento: piangere, ridere,
fuggire, fuggire, combattere ecc.
2) La nostra (presunta) attività intellettuale è comunicata
col linguaggio: il ragionamento(?), la coscienza(??), il
libero arbitrio(???) ecc.
È facile dire se un’altra creatura piange, ride, fugge, si
arrabbia ecc. Ma come dire se ragiona, è cosciente,
apprende? O, almeno, se lo fa come noi?
13
14. Se pure fosse, siamo gli unici a poter
usare il linguaggio?
14
15. Intelligenza non verbale
Azioni come camminare, correre, nuotare, nascondersi,
ridere ecc. sono di una complessità elevatissima.
Richiedono un coordinamento non solo di cervello e
sistema nervoso ma anche degli altri apparati umani.
E hanno a che fare con una intelligenza olistica che per
le macchine è, al momento, inaccessibile, e che combina
capacità decisionale autonoma, destrezza, «multicanalità
sensoriale» ecc.
15
16. Nessuna macchina riesce a imparare
ad accendere un fuoco e cucinare…
https://www.telegraph.co.uk/news/picturegalleries/howaboutthat/8985122/Amazing-photos-of-
Kanzi-the-bonobo-lighting-a-fire-and-cooking-a-meal.html 16
17. Limitazione del linguaggio
«Io propongo […] un cervello che sia più o meno senza
corpo, provvisto al più di organi di vista, parola e udito.
Allora ci dobbiamo confrontare col problema di trovare
opportune branche del pensiero in cui la macchina possa
esercitare le proprie capacità. I seguenti campi mi
sembrano avere dei vantaggi:
• Giochi vari, come scacchi, tris, bridge, poker
• L’apprendimento del linguaggio
• La traduzione del linguaggio
• La crittografia
• La matematica» 17
Turing, Intelligent Machinery (1948)
18. Cosa abbiamo imparato da Turing
1) Una macchina pensante va progettata con un
«motore» innato che le consenta di imparare dai dati
che le vengono sottoposti.
2) L’intelligenza umana che vogliamo imitare si manifesta
tramite il linguaggio: una macchina che deve poter
elaborare e generare il linguaggio.
3) Il linguaggio è solo una frazione delle manifestazioni
dell’intelligenza, ma è quella alla portata delle
macchine.
18
20. Il fascino della formalizzazione del
linguaggio…
Socrate è un uomo
Gli uomini sono mortali
⟹
Socrate è mortale
20
21. … frustrato dalla sua ambiguità
Andrea e Pietro sono apostoli
Gli apostoli sono dodici
⟹
Andrea e Pietro sono dodici
21
22. Il sogno della lingua universale
22
John Wilkins (1614-1672) Gottfried Wilhelm Leibniz (1646-1716) Giuseppe Peano (1858-1932)
23. Un software con idee innate
grammaticali
Dall’epoca di Turing alla fine degli anni ‘80 l’intelligenza
artificiale usava metodi logico-linguistici: la conoscenza
veniva rappresentata in strutture di dati discrete come
liste, alberi, grafi.
Queste strutture erano elaborate con procedimenti
simbolico-deduttivi e regole innate: l’opposto di quel che
diceva Turing!
23
24. I «sistemi esperti»
I sistemi di intelligenza artificiale dell’epoca avevano più
o meno la stessa struttura, come i sistemi esperti che
utilizzavano una base di dati di regole o altro codificate
da esperti umani per operare deduzioni (logiche) o
induzioni (bayesiane) e fornire predizioni, classificazioni,
decisioni ecc.
Questi sistemi erano trasparenti, era chiaro perché
funzionavano (quando funzionavano…).
24
25. Tipico sistema di analisi logica del
linguaggio
25
Testo da
analizzare
Regole
grammaticali
Regole
ortografiche
Lista di
«token»
Regole
semantiche
Testo in
output
Regole
generative
26. Un celebre esempio: ELIZA
Al MIT, nel 1966, il matematico
tedesco Joseph Weizenbaum (1923-
1908) scrisse un programma che
rispondeva agli utenti come avrebbe
fatto uno psicologo.
https://sites.google.com/view/elizagen-org/about
26
27. Struttura di ELIZA
27
Testo da
analizzar
e
Pattern di
trasformazion
e
Regole
ortografiche
Lista di
«token»
Testo in
output
ELIZA è semplice: il testo
«tokenizzato» viene
confrontato con delle
regole secondo un
pattern matching. I pattern hanno anche un punteggio
per importanza e sono associati a trasformazioni che
producono la risposta in output.
Se non c’è match si emette una frase generica.
28. ELIZA: un esempio di pattern
(O MY (/FAMILY) DRINKS 0)
Questa regola corrisponde a una frase del tipo «I’ve to
say that my father drinks», «my sister drinks, as I
discovered» ecc.
Le azioni corrispondenti a questo match potrebbero
essere emettere una frase come
«TELL ME MORE ABOUT YOUR FATHER»
28
29. ELIZA: un esempio di conversazione
Men are all alike.
IN WHAT WAY
They are always bugging us about something or other.
CAN YOU THINK OF A SPECIFIC EXAMPLE
Well, my boyfriend made me come here.
YOUR BOYFRIEND MADE YOU COME HERE
He says I’m depressed much of the time.
I AM SORRY TO HEAR YOU ARE DEPRESSED
It is true. I am unhappy.
DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY
29
30. I limiti del formalismo
I metodi più sofisticati di elaborazione dei testi di questo
tipo non hanno offerto risultati di rilevanza: solo scrivere
un chatbot accettabile era impresa quasi impossibile,
legata alla specifica lingua umana.
Prodotti basati su questi metodi non avevano mercato e
questo ne ha determinato la crisi.
30
31. Statistici, non linguisti!
«Every time I fire a linguist, the
performance of the speech recognizer
goes up»
Già alla fine degli anni ’60, alla IBM,
Frederick Jelinek (1932-2010) aveva
notato che introducendo metodi
probabilistici i risultati erano molto migliori
che con le descrizioni logico-linguistiche
delle grammatiche.
31
32. Il tramonto dell’IA logico-linguistica
L’idea di una lingua e di una grammatica universale, che
consenta di racchiudere ogni concetto, un sogno che va
da Aristotele a Raimondo Lullo, da Leibniz a Peano, è
forse una chimera e sicuramente non è realizzabile al
computer.
Fallito questo approccio top-down, che partiva dalle
strutture di alto livello (la grammatica) è emerso
l’approccio bottom-up: partire dalle parole!
32
34. Un consiglio dagli esperti…
«Per applicazioni al linguaggio naturale, fidate nel fatto
che la lingua umana ha già fatto evolvere le parole per i
concetti importanti. Procedete legando le parole che sono
già nel testo piuttosto che inventare nuovi concetti o
cluster di parole.»
Halevy, Norvig, Pereira, The Unreasonable
Effectiveness of Data, IEEE Intelligent Systems,
2009
34
35. Un brand fallimentare…
Quel che oggi chiamiamo ancora
Intelligenza Artificiale è in gran parte
rappresentato da algoritmi numerici
adattativi di ottimizzazione, che
consentono di risolvere molti tipi di
problemi elaborando enormi moli di
dati in formato numerico, quindi
scalari, vettori, matrici, tensori ecc.
35
36. Tre parole magiche
• Numerici perché i computer sanno fare bene i calcoli,
anche approssimati e quindi i dati devono essere
rappresentati con numeri o sequenze di numeri (vettori).
• Adattativi perché il modello numerico che fornisce l’output
dell’algoritmo può essere modificato in base ai dati con i
quali viene alimentato.
• Ottimizzazione perché l’adattamento è volto a minimizzare
un errore, il che è un modo preciso di dire che «il modello
impara».
36
37. Old but gold : modelli matematici
Un modello matematico è una funzione F che a un
vettore (x1,…,xn) associa un numero y = F(x1,…,xn) in modo
che uno stesso vettore corrisponda a un solo valore.
L’output del modello su un certo dato di input (x1,…,xn) è
proprio il valore y = F(x1,…,xn).
F dipende da un certo numero di parametri interni
(p1,…,pm), cioè y = F(x1,…,xn) non dipende solo dal vettore
di input ma anche dal vettore di parametri.
37
38. Tipico sistema di IA moderno: utilizzo
38
(x1,…, xn) F
y
(p1,…, pm)
Esempio: il prodotto scalare (in questo caso n = m)
F(x1,…,xn) = x1∙p1 +… xn∙pn
Questo è un modello lineare, il più semplice!
39. Modelli matematici adattativi
Un modello è adattativo se è provvisto di un algoritmo di
ottimizzazione che ne aggiorni i parametri in base ai
valori del modello stesso, in modo da migliorare la
capacità del modello di fornire risposte coerenti con un
certo fenomeno.
Quindi il modello è dato da F e dall’algoritmo di
ottimizzazione dei suoi parametri (esempio: prodotto
scalare e funzione di attivazione + regola Delta =
perceptrone!).
39
40. Addestrare un modello adattativo
Se abbiamo un training set, cioè un insieme di (n+1)-ple
(x1,…,xn; y) di dati con le risposte y «corrette», possiamo
provare a determinare i parametri (p1,…,pm) per i quali per
ciascuna coppia del training set, si abbia F(x1,…,xn) = y.
La speranza è che questa funzione «calibrata» (o
«addestrata») permetta di trovare valori
approssimativamente corretti anche per input il cui output
è ignoto. Le reti neurali consentono di fare questo e
hanno anche centinaia di miliardi di parametri.
40
41. Addestrare un modello adattativo
41
Training set
(x1,…, xn) Modello
y
(p1,…, pm)
Corretto?
Sì!
No!
Algoritmo di
ottimizzazione
42. L’importanza dei dati: Google (2009)
«Seguite i dati! Scegliete una rappresentazione che
possa usare l’apprendimento non supervisionato su dati
non etichettati, che sono molto più disponibili di dati
etichettati. Rappresentate tutti i dati con modelli adattativi
42
piuttosto che provare a sintetizzarli
con un modello particolare, perché
con fonti molto vaste di dati, i dati
contengono un sacco di dettagli.»
Halevy, Norvig, Pereira (Google, 2009)
43. L’importanza del caso: ancora Turing!
«È probabilmente giusto inserire elementi casuali in una
macchina che apprende. Un elemento di casualità è utile quando
cerchiamo la soluzione a un problema […] il processo di
apprendimento può essere visto come la ricerca di una forma di
comportamento che soddisfi l’insegnante (o qualche altro
criterio). Poiché c’è probabilmente un
43
gran numero di soluzioni soddisfacenti, il
criterio casuale sembra migliore di quello
sistematico. Si dovrebbe notare che è
usato anche nel processo evolutivo.»
44. Large Language Models [1/2]
• Si addestrano su dati non supervisionati, corpus di testi
(anche 10 miliardi di parole), che trasformano in training
set mascherando parole o frasi da «predire»
• Utilizzano tecniche di «tokenizzazione» per trasformare
testi in sequenze numeriche
• Utilizzano un meccanismo di «attenzione» (2017) per
pesare le parole più importanti in un testo e lavorare su
una intera frase e non su singole parole.
44
45. Large Language Models [2/2]
• Sono architetture profonde (anche centinaia di miliardi
di parametri).
• Il loro output è una distribuzione di probabilità sul
vocabolario delle parole possibili: a ogni parola possibile
viene associato un valore fra 0 e 1 in modo che la
somma di questi valori faccia 1.
• Si utilizzano «preaddestrati» e i GPT non richiedono
nemmeno il «tuning» dei modelli precedenti (BERT).
45
47. Capire un fenomeno
Il metodo scientifico consente di
formulare modelli che offrono
una descrizione (idealizzata) di
un sistema fisico e al tempo
stesso consentono di predirne gli
sviluppi:
𝐹 = 𝑚
𝑑𝑣
𝑑𝑡
47
48. Le cose si complicano ma non troppo
In sostanza lo stesso vale anche
nella scienza moderna, come la
meccanica quantistica, dove i
modelli descrivono e predicono
(anche se non sono più intuitivi)
𝐻𝜓 = 𝑖ℏ
𝜕𝜓
𝜕𝑡
48
49. Descrivere vs predire
Nell’Intelligenza Artificiale abbiamo invece visto come i
due tipi modelli emersi nel corso del tempo possano
descrivere o predire ma non entrambe le cose:
• Un modello basato su regole è trasparente: offre una
spiegazione (semplificata) del fenomeno ma non riesce
a fare predizioni.
• Un modello adattativo è opaco: riesce a fare predizioni
ma lo usiamo senza sapere a priori perché funziona.
49
50. Conosciamo la conoscenza?
Il termine «conoscere» è oggetto di indagine filosofica
almeno dal tempo di Platone. A oggi non c’è una
definizione completamente soddisfacente.
Esempio: la definizione JTB (Justified True Belief )
S conosce p se e solo se:
• p è vero;
• S crede che p sia vero;
• S è giustificabile nel credere che p sia vero.
50
51. Credere di conoscere
Il filosofo Edmund Gettier ha
mostrato che questa nozione non è
scontata:
Per strada vedo il mio amico Marco
che corre, ma in realtà è Giulio, che
gli somiglia. Marco sta in Australia
ma proprio ora sta anche lui
correndo: posso dire di conoscere
questo fatto?
51
52. Cosa si prova a essere un pipistrello?
Il filosofo Thomas Nagel ha
proposto un argomento per stabilire
se una creatura è cosciente: essa
possiede stati di coscienza se ha
senso (esiste) l’essere come quella
creatura.
Cosa si prova a essere un software
di AI?
52
53. Schema di un transformer
Un LLM utilizza uno schema
encoder-decoder in cui prima
codifica strati di informazioni su
un testo e poi li ridecodifica,
imparando le distribuzioni di
probabilità attese di parole di
output a partire dalle parole di
input…
53
Encoder
Decoder
Ho visto mangiare
un cane
I saw a dog eat
Forma
interna
Embedding
parole e posizioni
54. Scatole cinesi
Il filosofo John Searle ha ideato un
esperimento mentale nel 1980 volto
a confutare l’idea che un
programma in grado di conversare
in una lingua naturale, come
ChatGPT, si possa dire che
«capisca» quella lingua.
Cfr. https://arxiv.org/abs/2304.12411
54
56. Compre(n|s)sione
Forse un computer non può capire un testo ma può
comprimerlo per «strizzare» l’informazione inutile e
ridondante e poi decomprimerlo secondo pattern imparati
con l’esperienza, per esempio traducendo, rispondendo a
tono, fornendo pareri, etc.
La capacità di comprimere è legata alla capacità di
comprendere (o dare l’idea di farlo).
Per questo a scuola ci facevano fare i riassunti!
56
59. Usare ed essere usati
Utilizziamo, spesso compulsivamente, a volte in preda a
dipendenza, le tecnologie che dietro hanno sistemi di
Intelligenza Artificiale come social network, siti di e-
commerce, motori di ricerca ecc.
Tutti operano una profilazione psicometrica nei nostri
confronti tramite l’uso dei nostri dati e tecniche di
machine learning.
In cambio di svago e socialità noi diamo i nostri dati
senza sapere quali informazioni si possano trarre da essi.
59
60. Perché dare i nostri dati è un problema?
Utilizzando dati per noi inintelligibili, come il numero di
click su una pagina Facebook, i like a un tweet o il
movimento del mouse su una pagina Google, i sistemi di
profilazione ci classificano in cluster omogenei dai quali
possono desumere dati personali, come sesso, genere,
orientamento politico e molto altro.
Siamo un po’ come api che passano da un fiore all’altro
attirati da colore e nettare ma il fiore ci usa per
impollinarsi.
60
61. Vi hanno mai parlato delle api e dei fiori?
61
Drakea
thynniphila
Thynnidae
thynninae
62. Il problema del controllo
• Siamo noi a controllare i cereali o loro usano noi per
diffondersi a scapito delle altre piante?
• È la vespa a controllare il fiore o il fiore la vespa?
• Siamo noi a controllare gli algoritmi di raccomandazione
di post, link e prodotti o sono questi algoritmi a
controllare cosa noi facciamo, spingerci a farlo e quindi
aumentare il profitto delle aziende che li gestiscono?
• Oppure in tutti questi casi è un mutuo controllo, che
sfugge a entrambi gli attori?
62
63. Ancora Turing (1951)
«Supponiamo che le macchine intelligenti siano una possibilità concreta e
guardiamo alle conseguenze nel costruirle. Ci sarebbe una grande
opposizione da parte di chi fa un lavoro intellettuale, che avrebbe paura di
essere soppiantato. Ma molto probabilmente si sbaglierebbero. Resterebbe
ancora molto da fare, per esempio provare a interpretare correttamente cosa
dicano le macchine, o provare a tenere il passo agli standard di intelligenza
imposti dalle macchine, perché mi sembra probabile che, una volta che i
metodi dell’intelligenza meccanica si inizino ad applicare, non ci vorrebbe
molto a sorpassare le nostre deboli capacità. Queste macchine non
morirebbero, e sarebbero in grado di conversare fra loro per aumentare la
loro conoscenza. Quindi, a un certo punto, potremmo aspettarci che le
macchine prendano il controllo, nel modo menzionato da Samuel Butler in
Erewhon.»
63
64. Alcuni rischi più concreti
Limitandoci ai modelli linguistici attuali:
• Monopolio da parte di poche aziende.
• Costo energetico e quindi ambientale.
• Uso dei dati personali.
• Perché un LLM risponde come risponde? In che
misura lo controlliamo?
• Manca il consenso nella comunità tecnico-scientifica
sulla reale portata di questi modelli.
64
65. Fare danni con l’Intelligenza Artificiale
• Creazione e diffusione di fake news, immagini e video.
• Controllo tramite riconoscimento di immagini e filmati.
• Persuasione e controllo delle opinioni sui social: le AI
hanno come scopo massimizzare il nostro tempo lì.
• Polarizzazione delle opinioni e, tramite il meccanismo
delle filter bubbles, abbattimento del senso critico.
• Social ranking.
• Armi autonome.
65
66. L’opinione di un grande intellettuale
«I cervelli elettronici, se sono ancora lungi dal produrre
tutte le funzioni d’un cervello umano, sono però già in
grado di fornirci un modello teorico convincente per i
processi più complessi della nostra memoria, delle nostre
associazioni mentali, della nostra immaginazione, della
nostra coscienza».
Italo Calvino, Cibernetica e fantasmi (1967)
66
67. Per saperne di più (in ordine di difficoltà)
Cristianini, La scorciatoia (2023)
Wooldridge, The Road to Conscious Machines (2020)
Wiener, The Human Use of Human Beings (1954)
Hofstadter-Dennett, L’Io della mente (1985)
Turing, The Essential Alan Turing (2004)
Goodfellow, Bengio, Courville, Deep Learning (2016)
Sui transformer un buon punto di partenza è:
https://www.linkedin.com/pulse/transformer-nlp-resources-denis-
rothman/ 67
68. 68
Nuove Tecnologie: Presente e Futuro
Passando dal Machine Learning al Cloud Computing
Spazio alle domande!
www.deeplearning.com
In collaborazione con: Sapienza Università di Roma e Rome Technopole