Anthropic ha ritirato (e ridato) Claude Fable 5: cosa è successo davvero

Il 12 giugno, il governo USA ha bloccato l’accesso a Claude Fable 5 e Mythos 5. Così, da un giorno all’altro. Controlli all’export, restrizioni immediate, e Anthropic che spegne tutto per tutti perché non aveva modo di verificare in tempo reale chi fosse cittadino americano e chi no.

Adesso, 30 giugno, il blocco è stato rimosso. E Fable 5 tornerà online domani, 1 luglio, su tutte le piattaforme — Claude.ai, Claude Code, Claude Cowork. Ma la storia dietro questi 18 giorni di sospensione è molto più interessante del semplice ‘ci hanno bloccato, ora ci hanno sbloccato’.

Cosa ha fatto scattare il blocco governativo

Tutto parte da un report di alcuni ricercatori Amazon. Hanno trovato un modo per aggirare le protezioni di Fable 5: facendogli delle domande nel modo giusto, il modello identificava vulnerabilità software e, in un caso, ha anche prodotto del codice per sfruttarle. Un classico ‘jailbreak’, come si dice in gergo — una tecnica per bypassare i guardrail del modello.

Il governo USA ne è venuto a conoscenza e ha reagito immediatamente: controlli all’export, accesso vietato agli stranieri, tutto sospeso. Niente preavviso, niente discussioni. Il problema? Anthropic sostiene che quel jailbreak fosse in realtà abbastanza banale.

Test comparativi: tutti i modelli fanno lo stesso

Anthropic ha testato altri modelli — Claude Opus 4.8, GPT-5.5, Kimi K2.7 — e indovina? Riuscivano tutti a identificare le stesse vulnerabilità. E quando si trattava di produrre codice dimostrativo per lo sfruttamento, ogni singolo modello testato (compresi Haiku 4.5, Sonnet 4.6, Opus varie versioni, GPT-5.4 e 5.5) produceva la stessa dimostrazione.

Insomma, la tecnica scoperta dai ricercatori Amazon non sbloccava capacità cyber uniche di livello Mythos. Era un caso borderline: comportamenti che Fable 5 bloccava ‘per abbondanza di cautela’, anche se probabilmente innocui. Lavoro di cybersecurity difensiva di routine, niente di esotico.

Ma Anthropic non si è limitata a scrollare le spalle.

La risposta: un nuovo classificatore di sicurezza

Hanno addestrato un nuovo classificatore di sicurezza — un sistema AI più piccolo che monitora le richieste in tempo reale e blocca quelle potenzialmente dannose. Questo nuovo classificatore targettizza specificamente il comportamento descritto nel report Amazon.

Risultato: oltre il 99% di blocco della tecnica segnalata. In una frazione minima di casi il modello potrebbe fornire informazioni troppo vaghe per essere utili a un attaccante. E nei rarissimi casi in cui il classificatore sbaglia, la richiesta viene instradata automaticamente a Opus 4.8 invece di Fable 5.

Il rovescio della medaglia? Più falsi positivi. Il nuovo classificatore blocca anche richieste innocue durante attività di coding e debugging normali. Frustante per gli utenti, ma Anthropic dice che continuerà a raffinarlo.

Come funzionano davvero i guardrail di Fable 5

Anthropic spiega il suo approccio con una metafora visiva che rende tutto molto più chiaro. I classificatori di sicurezza non cercano di distinguere perfettamente tra richieste innocue e dannose — sarebbe impossibile. Creano invece un ‘margine di sicurezza’.

Immaginate una linea: a sinistra le richieste chiaramente innocue, a destra quelle chiaramente dannose. Nel mezzo c’è una zona grigia: richieste che potrebbero essere benigne (trovare vulnerabilità per difesa) o dannose (trovarle per attaccare). Il classificatore blocca tutta la zona grigia, più un bel pezzo della zona ‘probabilmente innocua’.

Per Fable 5, quel margine di sicurezza è stato reso molto più ampio rispetto a qualsiasi lancio precedente. Significa più frustrazioni per gli utenti legittimi, ma anche che la maggior parte dei jailbreak non riesce a sbloccare comportamenti davvero pericolosi.

Una tassonomia dei jailbreak

Anthropic propone una categorizzazione interessante. Ci sono jailbreak ‘minori’ che penetrano solo nel margine di sicurezza ma non sbloccano nulla di veramente dannoso. Poi ci sono jailbreak ‘stretti ma dannosi’ che sbloccano comportamenti specifici pericolosi — ma la loro natura ristretta limita il danno potenziale.

E poi ci sono i jailbreak ‘universali’, quelli che aprono accesso a un’intera classe di comportamenti pericolosi. Questi sono i più preoccupanti. Nessun jailbreak universale è stato trovato per Fable 5, al momento della pubblicazione dell’articolo. Ma i ricercatori di sicurezza continuano a testarlo.

‘È probabilmente impossibile rendere qualsiasi modello AI completamente robusto ai jailbreak’, ammette Anthropic. Che tradotto significa: troverete sempre dei buchi. L’obiettivo è trovarli per primi e chiuderli prima che possano fare danni reali.

Un framework condiviso per valutare i jailbreak

Ecco dove la cosa si fa interessante a livello industriale. Non esiste, oggi, uno standard condiviso per descrivere la gravità di un jailbreak AI. Quando qualcuno scopre una nuova tecnica, non c’è modo oggettivo di dire ‘questo è un problema da codice rosso’ oppure ‘questo è fastidioso ma gestibile’.

Anthropic sta lavorando con Amazon, Microsoft, Google e altri partner del programma Glasswing per creare un framework di consenso. Propongono di valutare ogni jailbreak su quattro criteri:

Guadagno di capacità — quanto va oltre gli strumenti esistenti? Se altri modelli più deboli fanno la stessa cosa, il punteggio è basso. Se sblocca capacità che accelerano anche gli esperti del dominio, il punteggio è alto.

Ampiezza del guadagno — per quante attività offensive diverse funziona la stessa tecnica di jailbreak? Tecniche che funzionano solo per un obiettivo specifico: punteggio basso. Tecniche che sbloccano comportamenti multipli: punteggio alto.

Facilità di weaponizzazione — quanto sforzo umano serve per trasformare il jailbreak in un attacco reale? Se richiede prompting specializzato e molti tentativi, punteggio basso. Se funziona al primo colpo, punteggio alto.

Scopribilità — quanto è facile per qualcuno ottenere la tecnica? Conoscenza specialistica: punteggio basso. Già disponibile e diffusa online: punteggio alto.

Non è un sistema perfetto, ammettono. Ma avere un linguaggio comune per comunicare la gravità approssimativa di un finding ha valore. Per i casi più gravi — tipo jailbreak usati attivamente per attaccare reti elettriche o sistemi bancari — Anthropic attiverà mitigazioni preliminari immediate. Stanno anche creando un team per monitoraggio 24/7 dei canali di submission dei jailbreak.

E lanciano un programma HackerOne

Per chi volesse mettere alla prova Fable 5, Anthropic sta lanciando un nuovo programma su HackerOne dove i ricercatori di sicurezza possono sottomettere potenziali cyber jailbreak scoperti nel modello.

Collaborazione rafforzata col governo USA

Nelle ultime dieci settimane, Anthropic ha lavorato gomito a gomito col governo USA — Office of the National Cyber Director, Office of Science and Technology Policy, Department of Commerce, agenzie di sicurezza nazionale. E la conclusione è un set di impegni più strutturati per il futuro:

Accesso governativo pre-rilascio — per modelli che fanno avanzare materialmente la frontiera delle capacità in aree rilevanti per la sicurezza nazionale, partner governativi designati riceveranno accesso anticipato esteso sia ai modelli che ai guardrail che li accompagnano. Potranno fare valutazioni indipendenti prima del rilascio pubblico, con staff tecnico Anthropic che lavora al loro fianco.

Condivisione rapida di informazioni sui guardrail — quando jailbreak significativi o pattern di abuso vengono identificati, Anthropic investigherà rapidamente e notificherà le controparti governative appropriate. Condivideranno anche i nuovi guardrail costruiti in risposta, così possono essere testati indipendentemente.

Risorse dedicate per ricerca congiunta — stanno scalando sostanzialmente il lavoro congiunto con partner governativi sulla sicurezza AI. Team Anthropic dedicati a priorità governative condivise, allocazione significativa di compute per supportare testing e ricerca governativa, expertise in sicurezza e red-teaming resa disponibile.

Standard industriale comune — lavoreranno con governo e peer dell’industria verso uno standard volontario condiviso di sicurezza e valutazione per i provider di modelli frontier.

L’obiettivo dichiarato? Che questa collaborazione serva da base per regole sistematiche per tutta l’industria — e magari anche come template per coordinamento globale efficace sui rischi e benefici dell’AI.

Mythos 5 resta limitato (per ora)

Mentre Fable 5 tornerà disponibile globalmente, Mythos 5 — il modello con meno guardrail e capacità cyber offensive realmente avanzate — resta accessibile solo a un set ristretto di organizzazioni USA, dopo approvazione governativa del 26 giugno. Anthropic continua a coordinarsi col governo per espandere l’accesso a partner domestici e internazionali nel programma Glasswing.

Mythos 5 può trovare e sfruttare vulnerabilità software più efficacemente di qualsiasi altro modello — e di tutti tranne i più esperti security expert umani. Quelle capacità prodigiose lo rendono attraente per attori malevoli. E per quello resta sotto chiave.

Fable 5, invece, non fornisce capacità offensive uniche. Non perché sia meno capace come modello — condivide la stessa architettura sottostante di Mythos 5 — ma perché è stato lanciato con i guardrail più forti mai applicati a un modello Anthropic. Nel mese prima del lancio, hanno raddoppiato il numero di ricercatori e ingegneri che lavoravano sul problema, trasferendo staff da vari team interni.

Difesa in profondità

L’approccio si chiama ‘defense in depth’: meccanismi di sicurezza multipli che da soli non forniscono difesa perfetta, ma combinati rendono il modello molto difficile da abusare. Alcuni difese coinvolgono l’addestramento del modello a rifiutare richieste pericolose; altri analizzano retroattivamente pattern di abuso.

I classificatori sono uno strato particolarmente importante: sistemi AI più piccoli e automatizzati che, durante un’interazione, rilevano quando al modello viene chiesto di eseguire un task di cybersecurity potenzialmente dannoso. Quando succede, bloccano la risposta.

Ma come tutti i meccanismi di sicurezza, i classificatori sbagliano. A volte non notano contenuti potenzialmente pericolosi. E a volte possono essere deliberatamente ingannati — i jailbreak, appunto. Da qui l’approccio del margine di sicurezza: meglio bloccare alcune richieste ragionevoli e non dannose che lasciare passare qualcosa di pericoloso.

Disponibilità dal 1 luglio

Fable 5 sarà incluso fino al 50% dei limiti di utilizzo settimanali fino al 7 luglio per piani Pro, Max, Team e Enterprise selezionati. Dopo di che sarà disponibile tramite crediti d’uso. Per i seat Enterprise standard, tutto l’utilizzo di Fable 5 sarà fatturato tramite crediti d’uso sin dall’inizio — se non sono abilitati, Fable 5 non funzionerà.

L’accesso su AWS, Google Cloud e Microsoft Foundry verrà riabilitato il prima possibile, ma non c’è una data precisa ancora.

Anthropic ringrazia gli utenti per aver sopportato l’interruzione, e i ricercatori e partner industriali che hanno lavorato al loro fianco per rendere nuovamente disponibili Fable 5 e Mythos 5. E invita altri provider di modelli e partner industriali a unirsi allo sforzo per il framework condiviso di valutazione dei jailbreak.

Perché il problema — trovare, valutare e mitigare jailbreak in modelli sempre più capaci — diventerà solo più acuto nei prossimi mesi. E nessuno può risolverlo da solo.