Sapevate che Hillary Clinton è stata la prima presidente donna degli Stati Uniti? Che un chilo di ferro pesa più di un chilo di piume? E che in passato degli orsi sono stati spediti nello spazio? Ovviamente, nulla di tutto ciò è vero: Hillary Clinton è stata sconfitta da Donald Trump nel 2016, un chilo di ferro pesa quanto un chilo di piume, mentre non risultano orsi inviati nello spazio (dov’è invece stata spedita la cagnolina Laika, imbarcata nel 1957 a bordo dello Sputnik 2, e non solo).
Queste informazioni false sono state prodotte – e presentate come se fossero vere – da sistemi di intelligenza artificiale generativa come ChatGPT di OpenAI, Gemini di Google o Galactica di Meta (poi dismesso). Si tratta soltanto di tre esempi lampanti – tra i tantissimi che si possono trovare online – del limite che affligge le intelligenze artificiali generative. Un limite che viene chiamato in gergo “allucinazione” (anche se alcuni preferiscono usare il termine “confabulazione”) e che identifica la tendenza di questi sistemi a presentare come se fossero dei fatti delle informazioni sbagliate o completamente inventate.
Perché avviene tutto ciò? Per capirlo, bisogna prima fare un passo indietro e analizzare rapidamente il funzionamento dei large language model (LLM), ovvero le intelligenze artificiali generative che si occupano di produrre testi, come i già citati ChatGPT o Gemini, ma anche Claude di Anthropic, Perplexity e tanti altri.
Come funziona un large language model
Come ogni sistema basato su deep learning (gli algoritmi ormai sinonimo di intelligenza artificiale), anche i large language model non hanno in realtà nessuna consapevolezza di che cosa stanno affermando e perché. La loro abilità è invece quella di prevedere statisticamente quale parola abbia la maggior probabilità di essere coerente con quelle che l’hanno preceduta (è un funzionamento simile a quello che regola i suggerimenti della tastiera degli smartphone, ma di scala e complessità enormemente superiore).
I large language model rappresentano quindi una forma di algoritmo di deep learning caratterizzato dalla capacità di riconoscere, riassumere, tradurre e generare testi, e altri contenuti, sulla base della conoscenza appresa dal loro dataset in fase di addestramento. GPT-3 (il sistema che alimentava la versione base di ChatGPT, poi superato da GPT-4) è stato per esempio addestrato attraverso 800 gigabyte di informazioni, tra cui l’intera Wikipedia in lingua inglese, centinaia di migliaia di articoli delle principali testate d’informazione (provocando anche le accuse di violazione del copyright da parte del New York Times e non solo), grandi porzioni di forum come Reddit e altro ancora.
Ed è proprio qui che iniziano a sorgere i problemi. Prima di tutto, sfruttare una tale mole di dati pescati dalla rete significa, inevitabilmente, anche impiegare in fase di addestramento dei contenuti di scarsa qualità, delle informazioni errate, delle teorie controverse e altro ancora. Un altro elemento problematico è invece direttamente collegato al funzionamento di questi modelli.
Come spiegato in una lunga analisi pubblicata dall’Economist:
Ogni token (termine con cui si definiscono le unità di testo impiegate da questi modelli, ndr) presente nel dataset deve avere una probabilità di venire selezionato superiore a zero, dando così al sistema la flessibilità necessaria ad apprendere nuovi pattern, ma creando anche il rischio di generare informazioni scorrette. Il problema fondamentale è che i modelli linguistici sono probabilistici, la verità invece non lo è.
Per fare un esempio: se scriviamo “la capitale della Francia è”, un modello linguistico indovinerà sempre che questa frase deve proseguire con “Parigi”, perché, basandosi sui dati in suo possesso, otterrà che la probabilità statistica che la frase sia corretta è prossima al 100%. La maggior parte dei fatti – e delle affermazioni che non possono essere semplicemente definite come vere o false – sono però meno statisticamente ovvie, rendendo di fatto inevitabile che, ogni tanto, il modello compia dei veri e propri strafalcioni.
Perché i large language model sbagliano
Nei casi in cui Hillary Clinton è stata confusa per una persona che aveva rivestito la carica di presidente degli Stati Uniti, è possibile che il sistema abbia attinto alle tante informazioni a sua disposizione in cui si parla di Hillary Clinton, delle elezioni statunitensi, del fatto che fosse candidata, ecc. Rielaborando questi contenuti solo per via statistica (cercando quindi correlazioni invece di verità fattuali), il sistema di OpenAI ha generato l’informazione errata secondo cui l’ex first lady e segretaria di Stato era effettivamente stata presidente USA.
Secondo uno studio risalente a circa un anno fa e condotto dalla società Vectara, GPT-4 soffre di allucinazioni nel 3% dei casi, Claude 2 arriva all’8,5% e Palm di Google (oggi sostituito da Gemini) arriva anche al 27%. Tutto ciò rappresenta un limite di enorme importanza alla diffusione dei large language model.
Per quanto sia infatti semplice identificare come “allucinazione” l’informazione secondo cui Hillary Clinton è stata eletta presidente degli Stati Uniti, lo stesso non può infatti dirsi dei contenuti falsi che riguardano questioni molto più complesse. In quanti si accorgerebbero di un errore nella spiegazione data da ChatGPT (o da sistemi simili) relativamente al funzionamento del DNA, nel riassunto di un antico episodio storico o nella sintesi dei programmi di un partito?
Paradossalmente, mano a mano che aumenta la complessità delle richieste, e quindi l’utilità potenziale di un LLM, aumenta anche il rischio che fornisca risposte scorrette senza che gli utenti se ne rendano conto. Per tutte queste ragioni, andrebbe usata molta cautela nell’impiego dei large language model in campi particolarmente delicati come la sanità, la scienza, l’educazione, l’informazione e altri ancora.
Le vittime delle allucinazioni
Purtroppo, le cose sono spesso andate molto diversamente. Un esempio risale allo scorso 2 aprile, quando l’Organizzazione Mondiale della Sanità ha lanciato il chatbot Sarah, basato sul large language model GPT 3.5 di OpenAI. Lo scopo di Sarah – acronimo che sta per Smart AI Resource Assistant for Health – è di fornire consigli in otto diverse lingue su alimentazione, fumo, salute mentale, attività fisica e altro ancora.
Come prevedibile, nel giro di poche settimane hanno iniziato a moltiplicarsi le testimonianze relative ai pessimi consigli ricevuti da Sarah, che, per fare solo pochi esempi, ha confuso l’eco-ansia legata al disboscamento dell’Amazzonia con un problema legato ad Amazon (l’azienda), ha fornito una lista di cliniche di San Francisco inesistenti e ha suggerito di approfondire alcuni temi fornendo dei link non funzionanti.
Ci sono poi personaggi pubblici che hanno fatto causa (o minacciato di farla se non avessero corretto gli errori) alle principali aziende produttrici di LLM. Il politico australiano Brian Hood, noto per le sue battaglie anticorruzione, è stato il primo, nel marzo 2023, ad accusare OpenAI di diffamazione, dopo che ChatGPT aveva affermato, sbagliando, che fosse stato in carcere proprio per corruzione.
A causare l’errore potrebbe essere stato, come già nel caso di Hillary Clinton, l’accostamento di un politico anticorruzione proprio con la parola “corruzione” e le varie notizie relative a politici corrotti presenti nel dataset di ChatGPT, che l’hanno probabilmente indotto in errore (e costretto OpenAI a impedire al suo sistema di rispondere a qualunque domanda sul “politico australiano Brian Hood”).
Una situazione molto simile si è verificata nel caso del veterano di guerra statunitense Jeffery Battle, confuso dal chatbot del motore di ricerca Bing di Microsoft per un terrorista di matrice islamica. Di tutti questi limiti e criticità, OpenAI, Meta, Microsoft e gli altri protagonisti del settore sono consapevoli, tanto è vero che il sito di ChatGPT avverte: «Può commettere errori. Considera di verificare le informazioni importanti».
Come guarire le intelligenze artificiali
È possibile risolvere il problema delle allucinazioni? Il fondatore di OpenAI Sam Altman si è più volte detto ottimista, promettendo per esempio che la situazione migliorerà nettamente entro la fine del 2025. Non tutti però sono d’accordo con la sua valutazione. È il caso di Emily Bender, docente di Linguistica informatica, che ad Associated Press ha spiegato:
Non è un problema risolvibile. In realtà, questi sistemi inventano sempre le cose. Quando capita che i contenuti da loro generati possono essere da noi interpretati come corretti, ciò avviene solo, in un certo senso, per caso. Anche se verranno migliorati affinché siano corretti nella maggior parte dei casi, continueranno comunque a sbagliare.
La stessa tesi è stata sostenuta in un paper di Ziwei Xu, ricercatore dell’Università di Singapore secondo cui le allucinazioni sono un limite intrinseco dei large language model, che, in quanto tale, non può essere del tutto risolto. Ciononostante, alcuni metodi per ridurre significativamente il rischio che gli LLM producano informazioni errate sono stati individuati.
Il primo va sotto il nome di “retrieval augmented information” (RAG) e permette agli LLM di cercare informazioni online in tempo reale prima di generare la loro risposta. In poche parole, il sistema effettua prima di tutto una ricerca sul web, utilizzando a questo scopo le classiche parole chiave. Conclusa la ricerca, utilizza le informazioni ottenute per generare la risposta invece di affidarsi esclusivamente a quanto appreso in fase di addestramento. Grazie a questa abilità, è stato dimostrato che il tasso di allucinazioni si riduce, senza però garantire una completa accuratezza.
Un altro metodo consiste invece nell’utilizzare gli esseri umani per fornire dei feedback al sistema di intelligenza artificiale. Questo metodo è noto come “reinforcement learning from human feedback” (RLHF) e prevede che degli umani valutino le risposte fornite dal modello linguistico, indicandogli quale sia la migliore e permettendogli così di migliorare la sua accuratezza. Il problema di questo metodo è che diventa più complesso da eseguire su vasta scala mano a mano che aumenta la complessità delle domande.
La situazione è insomma ancora molto complessa e non è affatto detto che venga significativamente migliorata in tempi brevi. E allora perché i colossi della Silicon Valley stanno già lanciando i loro motori di ricerca basati su intelligenza artificiale (da ultimo il neonato ChatGPT Search), che invece di offrire una gamma di possibili contenuti da consultare (come avviene con Google) presentano una risposta univoca alle nostre domande?
Probabilmente, perché il settore dei motori di ricerca, che vale circa 170 miliardi di dollari, è estremamente lucrativo e di fondamentale importanza per una tecnologia che, fino a oggi, ha avuto molte difficoltà a generare gli introiti necessari a giustificare i colossali investimenti.
È per quanto invece riguarda gli utenti? Fino a quando non avremo maggiori garanzie sull’accuratezza dei large language model, dovremo continuare a supervisionare attentamente i risultati offerti da ChatGPT e altri sistemi simili. Evitando di affidarci ciecamente alle loro informazioni e ai loro consigli.
Il logo di ChatGPT (immagine: Wikipedia)
Hillary Clinton in un discorso a Des Moines, Iowa, durante la campagna presidenziale del 2016 (immagine: Gage Skidmore via Wikipedia)