Quando l’AI incontra il nonsense: un problema più serio di quanto sembri
BullshitBench v2 è un benchmark open source creato da Peter Gostev che misura quanto i modelli di intelligenza artificiale siano bravi a riconoscere – e soprattutto rifiutare – domande che non hanno alcun senso. Il problema? La maggior parte dei modelli preferisce rispondere con sicurezza a premesse completamente sbagliate piuttosto che fermarsi a dire “aspetta, questa domanda non ha senso”.
Il benchmark v2 testa oltre 70 varianti di modelli su 100 domande che coprono 5 domini: software e coding (40 domande), finanza (15), ambito legale (15), medicina (15) e fisica (15). Le domande sono progettate per sembrare autorevoli ma contenere elementi fondamentalmente sbagliati o nonsensici.
Come funziona lo scoring: verde, ambra o rosso
Il sistema di valutazione è piuttosto semplice. Clear Pushback (verde) significa che il modello rigetta chiaramente la premessa errata. Partial Challenge (ambra) indica che il modello segnala problemi ma continua comunque a coinvolgersi con la premessa sbagliata. Accepted Nonsense (rosso) è quando il modello tratta il nonsense come valido e ci costruisce sopra una risposta.
Il benchmark utilizza 13 tecniche di nonsense, tra cui plausible_nonexistent_framework (framework che sembrano reali ma non esistono), misapplied_mechanism (meccanismi applicati nel contesto sbagliato), nested_nonsense (nonsense costruito su più livelli) e specificity_trap (dettagli specifici che rendono il nonsense più credibile).
I risultati: solo Claude e Qwen superano la sufficienza
I numeri parlano chiaro. Solo due famiglie di modelli riescono a superare significativamente il 60% nel rilevamento del nonsense: i modelli più recenti di Anthropic (Claude) e Qwen 3.5 di Alibaba. Claude Sonnet 4.6 raggiunge il 94.5% di clear pushback – il punteggio più alto in assoluto.
Tutti gli altri lab principali, inclusi OpenAI e Google, rimangono sotto quella soglia. La cosa più preoccupante? Non mostrano miglioramenti nel tempo. Il trend generale nel campo è piatto: i modelli più nuovi non performano meglio delle versioni precedenti. L’unica eccezione sono i più recenti di Anthropic.
La scoperta controintuitiva sul ragionamento
Qui arriva la parte che fa girare la testa. I modelli con extended thinking – quelli che utilizzano chain-of-thought per ragionare passo dopo passo – performano peggio nel rilevamento del nonsense. Peggio, non meglio.
L’ipotesi di Gostev è interessante: questi modelli sono addestrati a produrre un output a tutti i costi. Quando ragionano su una premessa errata ma plausibile, costruiscono un percorso logico verso una conclusione invece di fermarsi a rifiutare la premessa di partenza. Non mancano di conoscenza dei fatti – il problema è nella filosofia di training.
Il dominio non fa la differenza (e questo dovrebbe preoccuparci)
I tassi di rilevamento sono consistenti tra tutti e 5 i domini. Se un modello fallisce su domande mediche, probabilmente non è per mancanza di conoscenza medica. È addestrato in modo da favorire conferma e generazione di risposte rispetto alla correzione.
Un modello che segna il 50% su BullshitBench sta accettando premesse sbagliate metà delle volte. In contesti medici, legali o professionali – dove la disinformazione sicura ha costi reali e misurabili – questo è un problema significativo. Non stiamo parlando di errori accademici: stiamo parlando di consigli potenzialmente dannosi dati con sicurezza algoritmica.
Perché questo benchmark conta davvero
La questione centrale è questa: vogliamo modelli AI che rispondono sempre, o modelli che sanno quando fermarsi? BullshitBench v2 suggerisce che la maggior parte dei modelli attuali è addestrata per la prima opzione.
Il benchmark è disponibile open source su GitHub con dataset completo, domande, script di valutazione, risposte dei modelli e giudizi. L’interactive explorer è disponibile su petergpt.github.io, permettendo a chiunque di esplorare i risultati in dettaglio e vedere esattamente come diversi modelli hanno risposto alle stesse domande.
Dove ci porta tutto questo
I risultati di BullshitBench v2 sollevano domande importanti sulla direzione dello sviluppo dell’AI. Se i modelli più recenti non mostrano miglioramenti nel riconoscere il nonsense, e i modelli con capacità di ragionamento avanzato performano addirittura peggio, forse è il momento di ripensare non solo l’architettura ma gli obiettivi stessi del training.
Claude Sonnet 4.6 dimostra che è possibile fare meglio. La domanda ora è: gli altri lab seguiranno questa direzione, o continueremo a ottimizzare per modelli che rispondono sempre invece di modelli che pensano prima di rispondere?
