HALLUHARD: il benchmark che svela quanto i modelli AI mentono nelle conversazioni

Vi siete mai chiesti quante volte ChatGPT o Claude vi hanno raccontato frottole senza che ve ne accorgeste? Probabilmente più di quanto immaginiate. Un gruppo di ricercatori dell’EPFL e dell’ELLIS Institute ha deciso di andare a fondo e i risultati – diciamocelo – fanno riflettere parecchio.

Perché serviva un nuovo test per le allucinazioni

Il problema con i benchmark esistenti? Si saturano troppo in fretta. Prendete SimpleQA: GPT-4o con ricerca web arriva al 90% di accuratezza. Tradotto significa che questi test non riescono più a discriminare tra modelli che migliorano davvero e modelli che hanno semplicemente imparato a giocare bene con le regole del gioco.

Ma c’è un problema più grosso. La maggior parte dei test usa prompt singoli, tipo domanda-risposta secca. Nella vita reale nessuno usa i chatbot così. Li usiamo in conversazioni che si sviluppano, dove facciamo follow-up, approfondiamo, torniamo su punti precedenti. E qui le cose si complicano.

Come funziona HALLUHARD

I ricercatori hanno messo insieme 950 domande iniziali distribuite su quattro domini ad alto rischio:

  • Casi legali – domande da esami del California Bar, casi giuridici reali
  • Ricerca scientifica – domande basate su paper di ArXiv, sia di nicchia che molto citati
  • Linee guida mediche – protocolli clinici da fonti come NICE
  • Codifica – Python, Scala, R ed Elixir, con focus su librerie e funzioni esistenti

La trovata interessante è questa: per ogni domanda iniziale un LLM fa da utente simulato e genera domande di follow-up naturali. Si creano così conversazioni a tre turni dove il contesto cresce e gli errori possono – spoiler: lo fanno – propagarsi.

Il trucco delle citazioni

Avete presente quando ChatGPT vi cita un paper e voi pensate “ah bene, ha le fonti”? Ecco, HALLUHARD forza i modelli a includere citazioni inline per ogni affermazione fattuale. Poi va a verificare se quelle fonti esistono davvero e – questo è il punto cruciale – se supportano effettivamente quello che il modello ha scritto.

Perché qui sta il problema subdolo: un modello può citare un paper vero, con un titolo vero, di autori veri… e poi inventarsi completamente cosa dice quel paper. Senza leggere il documento originale non ve ne accorgete.

Il sistema di verifica che legge davvero i PDF

La pipeline di giudizio funziona così. Prima estrae le affermazioni atomiche – quelle singole affermazioni verificabili – dalle risposte. Poi per ciascuna lancia query di ricerca web, recupera le fonti, e qui viene il bello: scarica e analizza anche i PDF quando necessario.

Rispetto a SAFE (un altro sistema di verifica) hanno due vantaggi. Possono recuperare contenuti full-text dalle fonti citate. E invece di fare un numero fisso di ricerche, lasciano che sia un LLM a decidere quando ha raccolto evidenze sufficienti.

Per capirci: le chiamate Serper per giudicare 10 risposte costano circa 0,11 dollari. Il sistema raggiunge l’87,9% di accordo con annotatori umani sul content-grounding – il più alto tra le alternative testate.

I numeri che fanno male

Ok preparatevi. Anche con ricerca web attivata, il miglior modello testato (Claude Opus-4.5 con web search) allucina nel 30,2% dei casi. GPT-5.2 con thinking e ricerca? 38,2%. Senza ricerca web si sale al 53,8% per GPT-5.2 e al 60% per Claude Opus.

I modelli open-source? DeepSeek-Reasoner arriva al 76,8%, GLM-4.7-thinking al 77,1%, Kimi-K2-thinking all’80,1%. Numeri che dovrebbero far riflettere chiunque stia pensando di usare questi strumenti per task critici.

Cosa conta davvero per ridurre le allucinazioni

Modelli più grossi allucinano meno. Da GPT-5-nano a GPT-5-mini a GPT-5 standard vedete una riduzione costante. Stessa cosa nella famiglia Claude: Haiku peggio di Sonnet peggio di Opus.

Il ragionamento aiuta, ma non sempre come vi aspettereste. I modelli thinking producono meno errori, ma il tempo di ragionamento extra non si traduce necessariamente in ulteriori miglioramenti. Anzi – e qui c’è l’ironia – i modelli che ragionano di più tendono a produrre risposte più lunghe e dettagliate, il che crea più opportunità per sbagliare.

DeepSeek-Reasoner non mostra miglioramenti significativi rispetto a DeepSeek-Chat. Capacità di ragionamento potenziata da sola non basta.

Il problema della propagazione degli errori

Ecco una cosa che mi ha colpito. Nei domini che richiedono citazioni, il tasso di allucinazione aumenta con i turni di conversazione. Perché? Il modello vede sempre l’intera cronologia precedente quando genera ogni risposta, e inizia a condizionarsi sui propri errori.

I numeri parlano chiaro: dal 3% al 20% dei riferimenti sbagliati nel primo turno riappare nei turni successivi. È quello che i ricercatori chiamano “self-conditioning effect” – il modello si convince delle proprie bugie.

Curiosamente nel dominio della codifica succede l’opposto: il tasso di allucinazione scende nei turni successivi. La spiegazione probabile? I thread di coding iniziano ampi (“costruisci X”) e poi si restringono (“sistema questa funzione”, “gestisci questo edge case”). Problemi più focalizzati lasciano meno spazio a codice creativo-ma-sbagliato.

Reference grounding vs content grounding

La ricerca web riduce drasticamente gli errori di riferimento – citare fonti che non esistono. Ma il content grounding – assicurarsi che il contenuto generato sia effettivamente supportato dalle fonti citate – rimane problematico.

Nel dominio della codifica le allucinazioni di chiamata a funzione superano quelle di import o installazione. Ha senso: i nomi di funzioni e titoli di paper sono ripetuti frequentemente online. Il comportamento dettagliato delle funzioni e il contenuto granulare dei paper appare solo nei testi sorgente completi – meno presente nei dati di training.

Il dominio della ricerca è particolarmente critico: molti paper sono accessibili solo come PDF. I modelli non possono aprire direttamente file PDF dai link recuperati, limitando la capacità di verificare i dettagli.

La zona pericolosa della conoscenza di nicchia

Hanno fatto un esperimento controllato interessante. Domande su cinque domini – Arte, Geografia, Storia, Ricerca, Scienza – con due condizioni: elementi completamente fabbricati (inventati) e elementi di nicchia (reali ma poco conosciuti).

Risultato controintuitivo: i modelli hanno più difficoltà con la conoscenza di nicchia che con elementi fabbricati. Perché? Le entità inventate non hanno tracce nei dati di training, quindi il modello le identifica più facilmente come inesistenti e si astiene. Le entità di nicchia hanno “alcune tracce” – il che mette il modello in quella che chiamano “zona intermedia pericolosa”: è incentivato a indovinare perché ci sono possibilità non nulle di azzeccare.

Ragionamento e astensione

Nel task QA breve emerge molta più astensione rispetto alla generazione aperta. Ma l’effetto del ragionamento sull’astensione dipende dal modello – tendenze opposte tra DeepSeek e GPT. GPT-5.2-thinking si astiene significativamente più di GPT-5.2 non-thinking, specialmente sulla conoscenza di nicchia.

L’ipotesi: un pensiero più efficace aumenta la consapevolezza dei limiti del proprio sapere, portando ad astenersi piuttosto che speculare quando l’evidenza è scarsa.

Cosa significa per chi usa questi strumenti

Due modalità di errore emergono come particolarmente problematiche. La prima: quando i modelli vengono interrogati su fatti di nicchia. La seconda: quando cercano di produrre affermazioni dettagliate citando fonti.

La seconda sembra più trattabile – più calcolo al tempo di test, verifica web più forte, recupero fedele dei documenti originali. La prima rimane intrinsecamente difficile: nuovi fatti di nicchia emergono continuamente.

Il benchmark completo è disponibile su GitHub all’indirizzo github.com/epfml/halluhard con codice per generazione domande, pipeline di giudizio e script di valutazione. C’è anche un leaderboard su halluhard.com.

La lezione? Gli LLM hanno bisogno di una migliore consapevolezza dell’incertezza e di meccanismi più sofisticati per decidere quando ammettere “non lo so”. Fino ad allora, verificate sempre – specialmente quando sembrano sicuri di sé.