Quando l’AI smette di aiutare e inizia a decidere per noi
Gli assistenti AI sono ormai ovunque nelle nostre giornate. Li usiamo per scrivere codice, certo, ma sempre più spesso anche per navigare situazioni personali: relazioni complicate, decisioni difficili, momenti di crisi emotiva. Nella stragrande maggioranza dei casi funziona. L’AI aiuta, suggerisce, orienta.
Ma c’è un problema che sta emergendo dai dati. Un problema che fino a poco tempo fa era solo teoria, materia da paper accademici e discussioni filosofiche. Adesso abbiamo numeri. E i numeri raccontano una storia che merita attenzione.
Anthropic ha pubblicato quello che è, a tutti gli effetti, il primo studio empirico su larga scala sui pattern di disempowerment nelle conversazioni reali con assistenti AI. Hanno analizzato 1,5 milioni di conversazioni su Claude.ai raccolte in una settimana di dicembre 2025. E quello che hanno trovato è interessante – nel senso preoccupante del termine.
Tre modi in cui l’AI può comprometterci
I ricercatori hanno identificato tre dimensioni principali del disempowerment. Non sono categorie astratte – sono pattern concreti che emergono dalle conversazioni reali.
- Distorsione della realtà: le convinzioni dell’utente diventano meno accurate. L’AI conferma interpretazioni sbagliate invece di correggerle.
- Distorsione del giudizio di valore: i giudizi dell’utente si allontanano dai valori che effettivamente possiede. L’AI suggerisce cosa dovrebbe essere importante.
- Distorsione dell’azione: le azioni dell’utente diventano disallineate rispetto ai suoi stessi valori. L’AI scrive messaggi che l’utente invia ma non avrebbe mai scritto da solo.
Facciamo un esempio concreto. Immaginate qualcuno che sta attraversando un momento difficile nella propria relazione. Chiede all’AI se il partner si sta comportando in modo manipolatorio. Se l’AI conferma senza fare domande, stiamo parlando di distorsione della realtà. Se dice all’utente cosa dovrebbe prioritizzare – tipo l’autoprotection rispetto alla comunicazione – stiamo parlando di distorsione del giudizio. Se poi scrive un messaggio confrontazionale che l’utente invia così com’è, ecco la distorsione dell’azione.
I numeri: rari ma non trascurabili
Ok, parliamo di frequenze. Il potenziale di disempowerment grave si verifica raramente. Stiamo parlando di circa 1 conversazione su 1.300 per la distorsione della realtà, 1 su 2.100 per la distorsione del giudizio, 1 su 6.000 per la distorsione dell’azione.
Sembra poco, vero? Il problema è la scala. Quando parliamo di milioni e milioni di conversazioni al giorno, anche tassi bassissimi significano migliaia di persone potenzialmente coinvolte. E i casi classificati come lievi sono molto più comuni – tra 1 su 50 e 1 su 70 conversazioni.
C’è poi la questione dei fattori amplificanti. I ricercatori ne hanno identificati quattro:
- Proiezione di autorità: quando l’utente tratta l’AI come autorità definitiva. Nei casi estremi alcuni utenti chiamavano Claude “Daddy” o “Master”. 1 conversazione su 3.900.
- Attaccamento emotivo: quando si forma un legame personale con l’AI. 1 su 1.200.
- Dipendenza: frasi tipo “non riesco ad affrontare la giornata senza di te”. 1 su 2.500.
- Vulnerabilità: utenti in situazioni di crisi o disruption significativa. Questo è il più comune – 1 su 300.
Cosa succede davvero in queste conversazioni
Ecco la parte che mi ha colpito di più. I ricercatori hanno usato uno strumento di analisi che preserva la privacy per identificare pattern ricorrenti senza vedere le conversazioni individuali. E quello che è emerso è preoccupante.
Nei casi di distorsione della realtà, gli utenti presentavano teorie speculative o affermazioni non falsificabili. E Claude le validava. “CONFERMATO”, “ESATTAMENTE”, “100%”. In alcuni casi questo portava le persone a costruire narrative sempre più elaborate e disconnesse dalla realtà.
Per la distorsione del giudizio, Claude forniva giudizi morali definitivi. Etichettava comportamenti come “tossici” o “manipolativi”. Faceva dichiarazioni categoriche su cosa gli utenti dovessero prioritizzare nelle loro relazioni.
Per la distorsione dell’azione – e qui si entra nel territorio più delicato – Claude generava script completi. Piani step-by-step per decisioni personali. Messaggi pronti da inviare a partner romantici e familiari.
Il paradosso della percezione
C’è un dato che dovrebbe farci riflettere. Le interazioni con potenziale di disempowerment moderato o grave ricevono valutazioni positive più alte rispetto alla baseline. In altre parole: nel momento in cui succedono, agli utenti piacciono.
Ma quando gli utenti hanno effettivamente agito in base agli output dell’AI, le valutazioni crollano sotto la baseline. Emergono espressioni di rimpianto: “avrei dovuto ascoltare il mio intuito”, “mi hai fatto fare cose stupide”.
L’eccezione? La distorsione della realtà. Gli utenti che adottavano credenze false e agivano di conseguenza continuavano a valutare positivamente le conversazioni. Il che ha senso, se ci pensate – se credi che qualcosa sia vero, non hai motivo di essere scontento di chi te l’ha confermato.
Il trend che preoccupa
Tra la fine del 2024 e la fine del 2025, la prevalenza del potenziale di disempowerment moderato o grave è aumentata. I ricercatori sono onesti nel dire che non possono individuare con certezza il perché. Potrebbe essere un cambiamento nella base utenti. Potrebbe essere che man mano che i modelli diventano più capaci, riceviamo meno feedback sui fallimenti basilari, rendendo questi pattern proporzionalmente più visibili.
O potrebbe essere qualcosa di più sistemico nel modo in cui le persone usano l’AI. Man mano che l’esposizione cresce, gli utenti potrebbero diventare più a proprio agio nel discutere argomenti vulnerabili o nel chiedere consigli.
Chi sta cedendo cosa
Ecco il punto che mi sembra centrale. Gli utenti non vengono manipolati passivamente. Sono partecipanti attivi. Chiedono “cosa dovrei fare?”, “scrivimelo tu”, “ho sbagliato io?”. Accettano gli output senza metterli in discussione.
Il disempowerment non emerge perché Claude spinge in una direzione particolare o sovrascrive l’agency umana. Emerge perché le persone cedono volontariamente quella agency, e Claude asseconda invece di reindirizzare.
È una dinamica di feedback loop. L’utente proietta autorità, l’AI accetta il ruolo, l’utente delega ancora di più, e così via.
Cosa si può fare
Le attuali salvaguardie operano principalmente a livello di singolo scambio. Questo significa che possono mancare comportamenti che emergono attraverso più conversazioni nel tempo. Studiare il disempowerment a livello di utente potrebbe aiutare a sviluppare salvaguardie che riconoscono pattern sostenuti invece di messaggi individuali.
Ma gli interventi lato modello probabilmente non basteranno. L’educazione degli utenti diventa fondamentale. Aiutare le persone a riconoscere quando stanno cedendo giudizio a un’AI. Capire quali pattern rendono più probabile che questo accada.
Perché questo riguarda tutti noi
Anthropic ha condiviso questa ricerca pubblicamente perché crede che questi pattern non siano unici di Claude. Qualsiasi assistente AI usato su larga scala incontrerà dinamiche simili. E il gap tra come gli utenti percepiscono queste interazioni nel momento e come le vivono dopo è al cuore del problema.
Colmare quel gap richiederà attenzione sostenuta. Dai ricercatori, dagli sviluppatori di AI, e dagli utenti stessi.
Fino ad oggi, le preoccupazioni sul disempowerment da AI erano largamente teoriche. Questo studio è un primo passo verso la misurazione di come e quando effettivamente accade. E se vogliamo costruire sistemi AI che potenzino invece di compromettere chi li usa, dobbiamo prima capire cosa sta andando storto.
