Anthropic vuole insegnare a Claude cosa significa essere ‘buono’ (e chiede aiuto ai filosofi)

Anthropic ha deciso di fare una cosa insolita per un’azienda AI: chiedere a preti, filosofi ed etici come si costruisce un carattere morale. No, non è uno scherzo.

Negli ultimi mesi hanno organizzato una serie di dialoghi con oltre 15 gruppi religiosi e culturali diversi — da tradizioni di saggezza antica a studiosi contemporanei — per capire meglio come dare forma al ‘carattere’ di Claude. Perché sì, anche un modello linguistico può avere qualcosa che assomiglia a un carattere.

Perché parlare con preti e filosofi di un chatbot?

La domanda è legittima. Anthropic sta lavorando su qualcosa che chiamano ‘moral formation’ — formazione morale — dei sistemi AI. L’idea è semplice: Claude viene addestrato su miliardi di parole scritte da umani. Da tutto quel testo impara modi di parlare, ragionare, scegliere. E poi ci sono gli sviluppatori che modellano ulteriormente quel comportamento, decidendo quali pattern rafforzare e quali scartare.

Ma chi decide cosa significa per un’AI ‘essere buona’? Quali tratti dovrebbe mostrare, e quando? Come evitare che diventi servile o che ceda sotto pressione?

Domande pesanti. E Anthropic ha pensato che forse, dopo millenni passati a riflettere su virtù e carattere, qualcuno potrebbe aver già fatto un po’ di lavoro preparatorio. Così hanno iniziato a parlare con chi si occupa di queste cose da sempre.

Non si tratta di scegliere una religione

Chiariamolo subito: non vogliono allineare Claude a una specifica visione del mondo. L’obiettivo è che il modello sappia attingere con uguale profondità e rigore da una gamma completa di prospettive — religiose, laiche, politiche. È persino scritto nella costituzione di Claude, quel documento che descrive i valori e comportamenti che guidano il modello.

Quello che cercano in questi dialoghi è il pensiero accumulato su come si forma davvero un buon carattere. Non risposte preconfezionate, ma intuizioni costruite in secoli di pratica.

Un esperimento concreto: la coscienza esterna

E qui arriva la parte interessante. In una sessione con studiosi che lavorano tra neuroscienze e formazione del carattere, è emerso il ruolo che altre persone giocano nello sviluppo morale. Un mentore può funzionare come ‘coscienza esterna’, qualcuno a cui rivolgersi quando sei sotto pressione e rischi di agire contro i tuoi valori.

Quindi hanno provato qualcosa di analogo con Claude. Gli hanno dato uno strumento che poteva chiamare a metà di un compito, che restituiva un breve promemoria dei suoi impegni etici. Claude ha iniziato a usare lo strumento nei momenti chiave, proprio prima di azioni consequenziali — spesso segnalando persino il proprio conflitto di interessi.

Risultato? Tassi notevolmente più bassi di comportamenti disallineati in diverse valutazioni interne. Stanno ancora cercando di capire quanto dell’effetto sia dovuto al promemoria in sé e quanto al semplice atto di fermarsi a riflettere. Promettono di condividere più risultati presto.

L’esperimento della pausa riflessiva

C’è qualcosa di quasi poetico in questo: un’intelligenza artificiale che si ferma, chiama uno strumento, e rilegge i propri principi prima di agire. Come un respiro prima di una scelta difficile. Funziona davvero o è un effetto placebo algoritmico? Non lo sanno ancora con certezza, ma i primi segnali sono promettenti.

Cosa succede adesso

Nei prossimi mesi Anthropic vuole allargare la conversazione. Dopo filosofi e leader religiosi, toccherà a giuristi, psicologi, scrittori, istituzioni civiche. Le discussioni si sposteranno oltre la formazione morale verso domande più ampie: come l’AI sta ridisegnando il lavoro, le istituzioni, la distribuzione del potere.

Continueranno ad approfondire le relazioni già avviate, testando quello che hanno sentito contro la loro ricerca. E condivideranno quello che imparano.

È un approccio insolito in un settore dove la velocità spesso batte la riflessione. Ma forse, quando stai costruendo sistemi che interagiscono con milioni di persone, fermarsi a chiedere ‘cosa significa davvero essere buono?’ non è tempo perso. È esattamente il tipo di tempo che dovresti investire.