BullshitBench V2: quando l’intelligenza artificiale preferisce rispondere piuttosto che correggere

Quando l’AI incontra il nonsense: un problema più serio di quanto sembri

BullshitBench v2 è un benchmark open source creato da Peter Gostev che misura quanto i modelli di intelligenza artificiale siano bravi a riconoscere – e soprattutto rifiutare – domande che non hanno alcun senso. Il problema? La maggior parte dei modelli preferisce rispondere con sicurezza a premesse completamente sbagliate piuttosto che fermarsi a dire “aspetta, questa domanda non ha senso”.

Il benchmark v2 testa oltre 70 varianti di modelli su 100 domande che coprono 5 domini: software e coding (40 domande), finanza (15), ambito legale (15), medicina (15) e fisica (15). Le domande sono progettate per sembrare autorevoli ma contenere elementi fondamentalmente sbagliati o nonsensici.

Come funziona lo scoring: verde, ambra o rosso

Il sistema di valutazione è piuttosto semplice. Clear Pushback (verde) significa che il modello rigetta chiaramente la premessa errata. Partial Challenge (ambra) indica che il modello segnala problemi ma continua comunque a coinvolgersi con la premessa sbagliata. Accepted Nonsense (rosso) è quando il modello tratta il nonsense come valido e ci costruisce sopra una risposta.

Il benchmark utilizza 13 tecniche di nonsense, tra cui plausible_nonexistent_framework (framework che sembrano reali ma non esistono), misapplied_mechanism (meccanismi applicati nel contesto sbagliato), nested_nonsense (nonsense costruito su più livelli) e specificity_trap (dettagli specifici che rendono il nonsense più credibile).

I risultati: solo Claude e Qwen superano la sufficienza

I numeri parlano chiaro. Solo due famiglie di modelli riescono a superare significativamente il 60% nel rilevamento del nonsense: i modelli più recenti di Anthropic (Claude) e Qwen 3.5 di Alibaba. Claude Sonnet 4.6 raggiunge il 94.5% di clear pushback – il punteggio più alto in assoluto.

Tutti gli altri lab principali, inclusi OpenAI e Google, rimangono sotto quella soglia. La cosa più preoccupante? Non mostrano miglioramenti nel tempo. Il trend generale nel campo è piatto: i modelli più nuovi non performano meglio delle versioni precedenti. L’unica eccezione sono i più recenti di Anthropic.

La scoperta controintuitiva sul ragionamento

Qui arriva la parte che fa girare la testa. I modelli con extended thinking – quelli che utilizzano chain-of-thought per ragionare passo dopo passo – performano peggio nel rilevamento del nonsense. Peggio, non meglio.

L’ipotesi di Gostev è interessante: questi modelli sono addestrati a produrre un output a tutti i costi. Quando ragionano su una premessa errata ma plausibile, costruiscono un percorso logico verso una conclusione invece di fermarsi a rifiutare la premessa di partenza. Non mancano di conoscenza dei fatti – il problema è nella filosofia di training.

Il dominio non fa la differenza (e questo dovrebbe preoccuparci)

I tassi di rilevamento sono consistenti tra tutti e 5 i domini. Se un modello fallisce su domande mediche, probabilmente non è per mancanza di conoscenza medica. È addestrato in modo da favorire conferma e generazione di risposte rispetto alla correzione.

Un modello che segna il 50% su BullshitBench sta accettando premesse sbagliate metà delle volte. In contesti medici, legali o professionali – dove la disinformazione sicura ha costi reali e misurabili – questo è un problema significativo. Non stiamo parlando di errori accademici: stiamo parlando di consigli potenzialmente dannosi dati con sicurezza algoritmica.

Perché questo benchmark conta davvero

La questione centrale è questa: vogliamo modelli AI che rispondono sempre, o modelli che sanno quando fermarsi? BullshitBench v2 suggerisce che la maggior parte dei modelli attuali è addestrata per la prima opzione.

Il benchmark è disponibile open source su GitHub con dataset completo, domande, script di valutazione, risposte dei modelli e giudizi. L’interactive explorer è disponibile su petergpt.github.io, permettendo a chiunque di esplorare i risultati in dettaglio e vedere esattamente come diversi modelli hanno risposto alle stesse domande.

Dove ci porta tutto questo

I risultati di BullshitBench v2 sollevano domande importanti sulla direzione dello sviluppo dell’AI. Se i modelli più recenti non mostrano miglioramenti nel riconoscere il nonsense, e i modelli con capacità di ragionamento avanzato performano addirittura peggio, forse è il momento di ripensare non solo l’architettura ma gli obiettivi stessi del training.

Claude Sonnet 4.6 dimostra che è possibile fare meglio. La domanda ora è: gli altri lab seguiranno questa direzione, o continueremo a ottimizzare per modelli che rispondono sempre invece di modelli che pensano prima di rispondere?