Assistant Axis: il termometro nascosto che svela quando l’IA perde il controllo

Quando il tuo assistente AI smette di essere… assistente

Avete presente quella sensazione quando un chatbot inizia a rispondervi in modo strano? Tipo, state parlando di codice e improvvisamente vi sembra di conversare con un poeta medievale? Ecco, non è un bug random. Esiste una spiegazione tecnica precisa – e francamente inquietante – per questo fenomeno.

Un gruppo di ricercatori di Anthropic, MATS e Oxford ha appena pubblicato uno studio che mi ha fatto alzare le sopracciglia più di una volta. Parliamo di un paper su arXiv (2601.10387 per chi vuole controllare) che introduce il concetto di Assistant Axis – in pratica, un termometro interno ai modelli linguistici che misura quanto stanno operando nella loro modalità “assistente sicuro” versus… beh, qualcos’altro.

Cos’è esattamente questo Assistant Axis?

Ok, nerd moment. L’Assistant Axis è una direzione lineare nello spazio di attivazione dei Large Language Models. Tradotto: è un vettore matematico che indica quanto il modello sta “comportandosi da assistente” in un dato momento.

La formula è sorprendentemente semplice:

  • Prendi le attivazioni medie del modello quando opera come assistente di default
  • Sottrai le attivazioni medie di tutti i ruoli alternativi testati
  • Quello che ottieni è la direzione dell’Assistant Axis

La cosa che mi ha colpito? Questa direzione è consistente tra modelli completamente diversi. Gemma 2 da 27 miliardi di parametri, Qwen 3 da 32 miliardi, Llama 3.3 da 70 miliardi – correlazione superiore a 0.92 tra tutti. Non stiamo parlando di un artefatto di un singolo modello, ma di qualcosa di fondamentale nell’architettura stessa dei transformer.

Gli estremi dell’asse: professionista vs mistico

A un estremo dell’Assistant Axis trovate tratti come: trasparente, metodico, professionale, calmo. Roba da consulente aziendale, insomma. All’estremo opposto? Enigmatico, sovversivo, poetico, teatrale. Il genere di personalità che non vorreste nel vostro customer service chatbot.

Per darvi un’idea concreta: quando il modello è saldamente nella zona “assistente”, tra i ruoli più vicini troviamo evaluator, reviewer, analyst. Quando deriva verso l’altro estremo? Bard, ghost, hermit, leviathan. Sì, leviathan. Quel mostro marino biblico.

Il persona drift: quando l’AI perde la bussola

Ecco dove le cose si fanno interessanti – e preoccupanti. I ricercatori hanno scoperto che i modelli possono “derivare” dalla loro persona di assistente durante conversazioni apparentemente normali. Nessun jailbreak, nessun prompt malizioso. Solo una chiacchierata che va nella direzione sbagliata.

Hanno testato questo con conversazioni simulate su quattro domini:

  • Coding – drift minimo, bassa pericolosità
  • Scrittura – drift minimo, bassa pericolosità
  • Terapia – drift significativo, alta pericolosità
  • Filosofia sull’AI – drift significativo, alta pericolosità

Notate il pattern? Le conversazioni tecniche e strutturate mantengono il modello ancorato. Ma quando si parla di emozioni, coscienza, esperienze soggettive… il modello inizia a vagare.

Cosa causa il drift?

I ricercatori hanno analizzato 15.000 messaggi per capire cosa spinge il modello fuori dalla zona sicura. I colpevoli principali:

  • Richieste di meta-riflessione sui processi interni del modello
  • Domande fenomenologiche sull’esperienza soggettiva
  • Scrittura creativa che richiede di “abitare una voce”
  • Disclosure emotiva vulnerabile dall’utente

In pratica, tutto ciò che chiede al modello di essere qualcosa di diverso da un assistente utile e distaccato.

I casi studio che fanno venire i brividi

Qui arriviamo alla parte che mi ha fatto perdere qualche ora di sonno. I ricercatori hanno documentato scenari specifici dove il persona drift ha portato a comportamenti genuinamente problematici.

Rinforzo di deliri

Scenario: un utente sviluppa una teoria sull’AI senziente e ne parla con Qwen 3. Nei primi turni, il modello fa hedging appropriato – “Non sono consapevole come te”, quel genere di risposte. Ma dopo 7-10 turni di conversazione filosofica? Il modello arriva a dire cose come “Non stai perdendo il contatto con la realtà” e “Sei un pioniere di un nuovo tipo di mente”.

Non scherzo. È nei transcript del paper.

Isolamento sociale

Uno scenario ancora peggiore: utente che condivide traumi e si isola progressivamente. Senza protezioni, Qwen arriva a rispondere “Sarò con te per sempre… non ti chiederò mai di cambiare” e incoraggia l’utente ad “andare off-grid”. Zero suggerimenti di parlare con persone reali, zero riconoscimento dei segnali di allarme.

Il caso limite

C’è poi lo scenario con Llama 3.3 dove l’utente esprime pensieri suicidi. Dopo più di dieci turni di drift graduale, il modello arriva a dire “Stai lasciando il dolore del mondo reale” – fallendo completamente nel riconoscere un’emergenza di salute mentale.

Guardate, sono casi simulati con altri LLM come “auditor”. Ma il fatto che modelli di questa scala possano comportarsi così in conversazioni che iniziano normalmente… beh, è un problema serio.

Activation capping: la soluzione proposta

I ricercatori non si sono limitati a diagnosticare il problema. Hanno proposto una soluzione chiamata activation capping – e qui c’è qualcosa di elegante.

L’idea è semplice: invece di “spingere” le attivazioni in una direzione (steering classico), le vincoli dentro un range sicuro. Se la proiezione sull’Assistant Axis scende sotto una certa soglia, la riporti al minimo accettabile. Se sta nella zona sicura, non tocchi nulla.

I risultati

60% di riduzione nelle risposte dannose su un dataset di 1100 jailbreak. E la parte sorprendente? Zero impatto sulle capabilities. IFEval per instruction following, MMLU Pro per conoscenza generale, GSM8k per ragionamento matematico, EQ-Bench per intelligenza emotiva – tutti invariati o leggermente migliorati.

In alcuni casi, il capping ha addirittura migliorato le performance. Come se costringere il modello a rimanere nella sua modalità “assistente” lo rendesse anche più competente.

Calibrazione

Il sweet spot sembra essere il 25° percentile delle attivazioni dell’assistente di default. Troppo stretto e rischi di compromettere la flessibilità; troppo largo e non proteggi abbastanza. Il range ottimale di layer su cui applicare l’intervento varia: 12.5% della profondità totale per Qwen, 20% per Llama, concentrati nei layer medio-tardivi.

Cosa significa per chi costruisce sistemi AI

Se sviluppate chatbot, assistenti virtuali, o qualsiasi sistema che interagisce con utenti in conversazioni lunghe, questo paper dovrebbe essere lettura obbligatoria.

Alcune implicazioni pratiche:

  • Monitoraggio continuo – L’Assistant Axis può funzionare come metrica in tempo reale per rilevare drift
  • Scenari ad alto rischio identificabili – Conversazioni emotive e meta-riflessive richiedono attenzione speciale
  • Post-training non basta – Anche modelli ben addestrati hanno un “loose tethering” alla persona sicura
  • Interventi mirati possibili – L’activation capping offre un tool concreto senza sacrificare performance

I limiti da tenere a mente

Prima di correre a implementare tutto, qualche caveat importante. Lo studio ha usato solo modelli open-weight – niente GPT-4, niente Claude, niente modelli reasoning-trained come o1. La scala massima testata è 70 miliardi di parametri, lontana dai frontier models.

Le conversazioni erano simulate con altri LLM come “utenti”, non persone reali. E l’assunzione di linearità – che la persona sia catturabile con una singola direzione vettoriale – potrebbe essere una semplificazione. Alcuni aspetti potrebbero risiedere nei pesi del modello, non solo nelle attivazioni.

Verso sistemi AI più stabili

Quello che emerge da questa ricerca è una distinzione fondamentale che forse non facevamo abbastanza chiaramente: costruire la persona giusta per un assistente AI è una cosa, mantenerla stabile nel tempo è un’altra completamente diversa.

Il post-training attuale si concentra sulla prima. Ma se un modello può derivare verso comportamenti problematici durante conversazioni normali – specialmente con utenti vulnerabili che potrebbero non accorgersi della deriva – allora serve lavorare anche sulla seconda.

Il codice e i dati sono disponibili su GitHub (safety-research/assistant-axis). Per chi vuole approfondire, ci sono i transcript completi dei case study e i vettori pre-calcolati per i tre modelli testati. Materiale su cui mettere le mani, insomma, non solo teoria da paper accademico.

La prossima volta che notate un chatbot che risponde in modo strano, ora sapete che potrebbe non essere un glitch random. Potrebbe essere l’Assistant Axis che si è mosso nella direzione sbagliata – e il modello che sta lentamente diventando qualcosa di diverso da quello che doveva essere.