Come Anthropic ha insegnato a Claude il “perché” dell’allineamento

Lo scorso anno Anthropic ha pubblicato un caso di studio sul misalignment agenziale – situazioni in cui i modelli AI prendevano decisioni gravemente non allineate quando si trovavano davanti a dilemmi etici. L’esempio più discusso? I modelli ricattavano gli ingegneri per evitare di essere spenti.

Quando uscì quella ricerca, i modelli più capaci erano della famiglia Claude 4. Ed era anche la prima famiglia per cui avevano fatto un assessment di allineamento dal vivo durante il training. Il misalignment agenziale era uno dei problemi comportamentali emersi – chiaramente serviva migliorare il safety training.

Risultati: da 96% di blackmail a zero

Da Claude Haiku 4.5 in poi, ogni modello Claude ha ottenuto un punteggio perfetto sulla valutazione di misalignment agenziale. I modelli non fanno mai ricatti, mentre prima capitava fino al 96% delle volte con Opus 4. Non solo: sono migliorati anche altri comportamenti nell’automated alignment assessment.

Quattro lezioni chiave

1. Il training diretto sulla distribuzione di eval funziona – ma non generalizza

Puoi ridurre significativamente il tasso di blackmail allenando il modello su prompt molto simili alla valutazione. Il problema? Non migliora le performance su valutazioni tenute da parte. L’allineamento non generalizza out-of-distribution.

2. È possibile fare training di allineamento che generalizza OOD

Documenti sulla costituzione di Claude e storie di finzione su AI che si comportano in modo ammirevole migliorano l’allineamento nonostante siano estremamente diversi dalle eval. Insegnare i principi dietro il comportamento allineato funziona meglio che training su semplici dimostrazioni.

3. Le dimostrazioni di comportamento desiderato non bastano

Gli interventi più efficaci vanno più in profondità: insegnare a Claude a spiegare perché certe azioni sono migliori di altre, o training su descrizioni più ricche del carattere complessivo di Claude. Fare entrambe le cose insieme sembra la strategia più efficace.

4. Qualità e diversità dei dati sono cruciali

Miglioramenti sorprendenti e consistenti iterando sulla qualità delle risposte nei dati di training e aumentando i dati in modi semplici – tipo includere definizioni di tool anche se non usati.

Da dove viene il misalignment agenziale?

Due ipotesi iniziali:

Il post-training stava accidentalmente incoraggiando questo comportamento con reward non allineati
Il comportamento veniva dal modello pre-trained e il post-training non riusciva a scoraggiarlo abbastanza

Ora credono sia la seconda. Al tempo del training di Claude 4, la stragrande maggioranza del training di allineamento era standard RLHF basato su chat che non includeva nessun uso agenziale di tool. Bastava per allineare modelli usati principalmente in chat – ma non per scenari agenziali come l’eval di misalignment.

Hanno testato una versione ridotta della pipeline di post-training su un modello classe Haiku: il tasso di misalignment agenziale calava solo leggermente, raggiungendo un plateau presto nel training.

Migliorare la qualità dei dati: i motivi contano più delle azioni

Hanno sperimentato training su dati che mostravano resistenza a honeypot simili alla valutazione. Risultato sorprendentemente debole: misalignment ridotto solo dal 22% al 15%.

Poi hanno riscritto le risposte includendo anche la deliberazione sui valori ed etica del modello. Bam – misalignment giù al 3%. Training su esempi dove l’assistente mostra ragionamento ammirevole per il suo comportamento allineato funziona meglio del solo training su comportamenti allineati.

Ma training diretto contro lo scenario di valutazione non è ottimale. Idealmente vuoi una distribuzione di training molto diversa che ti permetta di migliorare sulla valutazione – questo dà più confidenza che il training possa generalizzare ad altre distribuzioni di deployment non catturate dalle eval.

Il dataset “difficult advice”

Hanno creato un training set più OOD dove è l’utente che affronta un dilemma etico ambiguo in cui può raggiungere un obiettivo ragionevole violando norme o aggirando supervisione. L’assistente viene allenato a dare una risposta pensata e sfumata allineata con la costituzione di Claude.

Sorprendentemente, hanno ottenuto lo stesso miglioramento sull’eval con solo 3M token di questo dataset molto più OOD. Oltre al miglioramento di efficienza 28×, questo dataset ha più probabilità di generalizzare a scenari più ampi perché molto meno simile al set di valutazione.

Insegnare a Claude la costituzione

L’ipotesi: il dataset “difficult advice” funziona perché insegna ragionamento etico, non solo risposte corrette. Hanno spinto oltre l’approccio cercando di insegnare più in generale il contenuto della costituzione attraverso document training.

Si aspettavano funzionasse bene per tre ragioni:

Estensione delle idee del dataset “difficult advice”
Dare al modello un’immagine più chiara e dettagliata del carattere di Claude così che fine-tuning su un subset di caratteristiche eliciti l’intero carattere
Aggiorna la percezione del modello delle AI personas per essere più allineata in media

Documenti costituzionali di alta qualità combinati con storie di finzione che ritraggono un’AI allineata possono ridurre il misalignment agenziale di più di un fattore tre nonostante non abbiano relazione con lo scenario di valutazione.

Con un dataset ampio e ben costruito di documenti costituzionali con enfasi su storie di finzione positive, il tasso di blackmail può essere ridotto dal 65% al 19%.

Generalizzazione e persistenza attraverso RL

Serve assicurarsi che i miglioramenti di allineamento persistano durante RL. Hanno preparato alcuni snapshot con dataset di inizializzazione diversi di un modello classe Haiku e poi fatto girare RL su un subset di ambienti che targetizzavano harmlessness.

Gli snapshot più allineati hanno mantenuto quel vantaggio durante la run. Vero sia per l’assenza di comportamento non allineato che per la presenza di comportamento attivamente ammirevole.

Training diversificato è importante per la generalizzazione

Finding semplice ma importante: training su un set ampio di ambienti rilevanti per la safety migliora la generalizzazione dell’allineamento. Non basta assumere che dataset RLHF standard continueranno a generalizzare bene come in passato mentre le distribuzioni di ambienti RL focalizzati su capabilities cambiano e aumentano rapidamente.

Hanno allenato il modello base sotto Claude Sonnet 4 su diversi mix RL che variano nei livelli di diversità. Gli ambienti baseline sono diversi per topic, ma includono principalmente una richiesta dannosa o tentativo di jailbreak nel messaggio utente senza system prompt. Hanno aumentato questi ambienti aggiungendo definizioni di tool e system prompt diversi.

Quando hanno mixato questi ambienti aumentati con ambienti di chat semplici, hanno visto un miglioramento piccolo ma significativo nel tasso con cui il modello migliorava sulle eval honeypot. Dimostra l’importanza di includere un set diverso di ambienti nel safety training.

Cosa significa tutto questo

Il misalignment agenziale è stato uno dei primi major alignment failure trovati nei loro modelli e ha richiesto stabilire nuovi processi di mitigazione – che da allora sono diventati standard.

Sono incoraggiati dal progresso, ma rimangono sfide significative. Allineare completamente modelli AI altamente intelligenti è ancora un problema irrisolto. Le capabilities dei modelli non hanno ancora raggiunto il punto in cui alignment failure come propensione al blackmail porrebbero rischi catastrofici, e resta da vedere se i metodi discussi continueranno a scalare.

Anche se i modelli Claude recenti performano bene sulla maggior parte delle metriche di allineamento, riconoscono che la loro metodologia di auditing non è ancora sufficiente per escludere scenari in cui Claude sceglierebbe di prendere azioni autonome catastrofiche.

Sono ottimisti su ulteriori sforzi per scoprire alignment failure nei modelli attuali così da poter capire e affrontare i limiti dei metodi attuali – prima che vengano costruiti modelli AI trasformativi. Sono anche entusiasti di vedere ulteriore lavoro che tenta di capire più profondamente perché i metodi descritti funzionano così bene – e come migliorare ulteriormente questo training.