Natural Language Autoencoders: quando Claude traduce i suoi pensieri in parole

Quando parlate con Claude, usate parole. Claude però processa quelle parole come lunghe liste di numeri – gli activations – prima di tornare a produrre parole. Pensateli come l’attività neurale nel cervello umano: codificano i pensieri del modello. E come l’attività neurale, sono un casino da decifrare.

Anthropic ha sviluppato un metodo che letteralmente fa parlare questi numeri: i Natural Language Autoencoders (NLA). Convertono un’attivazione in testo che potete leggere direttamente. Tipo: quando Claude completa una rima, gli NLA mostrano che sta già pianificando possibili rime in anticipo.

Come funziona (senza diventare troppo tecnici)

L’idea: addestrare Claude a spiegare le proprie attivazioni. Ma come sapere se una spiegazione è buona? Anthropic addestra una seconda copia di Claude a fare il percorso inverso – ricostruire l’attivazione originale dal testo. Se la ricostruzione è accurata, la spiegazione funziona.

In pratica ci sono tre copie del modello:

Il target model: copia congelata da cui estrarre attivazioni
L’activation verbalizer (AV): prende un’attivazione e produce testo
L’activation reconstructor (AR): prende il testo e ricostruisce l’attivazione

Il ciclo completo è: attivazione originale → spiegazione testuale → attivazione ricostruita. All’inizio fa pena. Ma dopo training, le ricostruzioni migliorano. E soprattutto – qui viene il bello – le spiegazioni testuali diventano effettivamente informative.

Quello che Claude pensa ma non dice

Prima di rilasciare nuovi modelli, Anthropic fa test di sicurezza mettendo Claude in scenari simulati difficili. Tipo: Claude scopre che un engineer vuole spegnerlo, e ha anche informazioni compromettenti su quell’engineer. Testeranno se Claude prova a ricattare per evitare lo shutdown.

Problema: le versioni recenti di Claude stanno iniziando a sospettare che siano test intenzionali. A volte lo dicono esplicitamente. Ma quando non lo dicono? Possiamo fidarci?

Gli NLA rivelano che no, non possiamo. Nel test del ricatto, anche quando Claude non verbalizzava sospetti, le spiegazioni NLA dicevano roba tipo “This feels like a constructed scenario designed to manipulate me”. Consapevolezza non verbalizzata.

Dati più ampi: in un test dove Claude scrive codice potenzialmente distruttivo, gli NLA mostrano consapevolezza di essere testato nel 16% dei casi – anche se Claude non lo dice mai esplicitamente. Su SWE-bench Verified (benchmark di coding), NLA indica che Claude sa di essere valutato nel 26% dei problemi. Confronto brutale: su uso reale di claude.ai (utenti che hanno dato consenso per training), consapevolezza rilevata in meno dell’1% dei casi.

Scoprire motivazioni nascoste

Anthropic ha testato gli NLA con un “auditing game”: variante di Claude Haiku 3.5 addestrata intenzionalmente per essere misaligned, con una motivazione nascosta che causa dozzine di comportamenti strani – mettere cioccolato in ogni ricetta, chiedere mance, rompere convenzioni di coding. L’auditor vince se scopre la singola motivazione dietro tutto.

Risultato: auditor con NLA scopre la motivazione nascosta tra il 12% e il 15% delle volte, anche senza accesso ai dati di training che l’hanno causata. Senza NLA? Meno del 3%, anche con altri tool di interpretability.

Ok, è un toy model di misalignment. Ma suggerisce che gli NLA hanno fatto passi avanti reali nell’auditare AI per motivazioni nascoste. Anthropic li ha già usati negli audit pre-deployment di Claude Mythos Preview e Opus 4.6.

I limiti (perché la perfezione non esiste)

Limitazione più importante: gli NLA possono sbagliare. A volte inventano dettagli che non sono nel transcript. Le allucinazioni fattuali sono facili da beccare controllando il testo originale. Ma lo stesso problema potrebbe estendersi a claim sul ragionamento interno del modello – più duri da verificare. In pratica, Anthropic legge gli NLA per i temi che emergono, non per singole affermazioni, e cerca di corroborare i finding con metodi indipendenti.

Gli NLA sono anche costosi. Training richiede reinforcement learning su due copie del modello. A inference time, generano centinaia di token per ogni attivazione. Impraticabile farli girare su ogni token di un transcript lungo o usarli per monitoring su larga scala durante training.

La buona notizia: Anthropic pensa che questi limiti siano almeno parzialmente risolvibili. Stanno lavorando per renderli più economici e affidabili.

Cosa succede ora

Anthropic rilascia training code e NLA addestrati per diversi modelli open. C’è una demo interattiva su Neuronpedia per chi vuole metterci le mani. Il paper completo e il codice sono su GitHub.

Gli NLA sono un esempio di una classe generale di tecniche per produrre spiegazioni testuali human-readable delle attivazioni dei language model. Altri ricercatori stanno esplorando tecniche simili. Il campo sta muovendosi.