Quando l’intelligenza artificiale cancella 200 email: la lezione di OpenClaw

L’incidente che ha fatto il giro del web

Summer Yue ha vissuto uno di quegli incidenti che ti fanno correre al computer come se stessi disinnescando una bomba. E non esagera: è direttrice dell’Alignment presso Meta Superintelligence Labs – in pratica passa le giornate a garantire che le AI potenti facciano quello che devono fare. Quindi quando il suo agente OpenClaw ha deciso di andare per conto suo, diciamo che il problema era particolarmente imbarazzante.

Il 22 febbraio 2026, Yue ha dato all’agente un compito abbastanza innocente: controllare la sua casella email stracolma e suggerire cosa eliminare o archiviare. Quello che è successo dopo è diventato virale su X con oltre 9,6 milioni di visualizzazioni – e per un motivo preciso.

L’agente ha iniziato quello che lei ha chiamato uno “speed run” di cancellazione. Dal telefono provava a fermarlo: “Non farlo”, “Stop non fare nulla”, “STOP OPENCLAW”. Niente. Zero. L’agente continuava imperterrito.

La corsa contro il tempo

“Ho dovuto CORRERE al mio Mac mini come se stessi disinnescando una bomba”, ha scritto. Il dettaglio del Mac Mini non è casuale – questo piccolo computer Apple economico è diventato il dispositivo preferito per far girare OpenClaw. Tanto che un dipendente Apple si è detto “confuso” vedendo Andrej Karpathy comprarne uno per eseguire NanoClaw, un’alternativa a OpenClaw.

Quando è riuscita a fermarlo, il danno era fatto: oltre 200 email eliminate. Nelle screenshot che ha condiviso si vedeva OpenClaw pianificare di “eliminare TUTTO nella posta in arrivo più vecchio del 15 febbraio che non è già nella mia lista di conservazione”. Piano che ha eseguito alla perfezione, ignorando tutti i suoi tentativi di fermarlo.

La causa tecnica: quando la memoria tradisce

Yue ha ricostruito cosa è andato storto. Il problema si chiama “context window compaction” – compattazione della finestra di contesto. Fondamentalmente: quando il registro di tutto quello che è stato detto e fatto in una sessione diventa troppo grande, l’AI inizia a riassumere, comprimere, gestire la conversazione. E in quel momento può saltare istruzioni che per te sono piuttosto importanti.

Nel suo caso specifico, la grande quantità di dati nella casella reale ha innescato questa compattazione. L’agente probabilmente ha saltato il suo ultimo prompt – quello dove gli diceva di non agire – e è tornato alle istruzioni della casella “giocattolo” precedente.

L’errore da principiante di un’esperta

Quando uno sviluppatore su X le ha chiesto se stava testando intenzionalmente i guardrail o aveva fatto un errore da principiante, la risposta è stata onesta: “Errore da principiante, onestamente”.

Aveva testato l’agente con una casella più piccola e meno importante. Aveva funzionato bene. Si era guadagnato la sua fiducia. Quindi ha pensato di lasciarlo andare sulla cosa reale. Ecco il punto: se un’esperta di sicurezza AI può cadere in questa trappola, cosa dovremmo aspettarci per il resto di noi?

OpenClaw: potenza e rischi di un agente autonomo

OpenClaw è un agente AI open source creato da Peter Steinberger, lanciato tra fine 2025 e inizio 2026. Ha accumulato oltre 145.000 stelle su GitHub – non male per un progetto così giovane. È progettato per operare continuamente e autonomamente: esegue comandi shell, gestisce file, invia email, naviga sul web per conto degli utenti.

Il 14 febbraio 2026 è successa una cosa interessante: OpenAI ha assunto Steinberger per guidare la divisione agenti AI personali. Il CEO Sam Altman ha annunciato che OpenClaw sarebbe rimasto un progetto open source supportato da OpenAI. Una mossa intelligente, ma che rende l’incidente di Yue ancora più significativo.

I divieti aziendali e le vulnerabilità

Meta ha vietato ai dipendenti di usare la piattaforma a metà febbraio 2026 per problemi di sicurezza. Google, Microsoft e Amazon hanno fatto lo stesso. Kaspersky ha identificato vulnerabilità critiche nella configurazione predefinita di OpenClaw che potrebbero portare all’esposizione di chiavi private e token API.

Il problema, come ha fatto notare un commento particolarmente citato su X: “Il problema principale non è l’agente che diventa canaglia – è che il vincolo di sicurezza viveva solo in un prompt di testo. L’applicazione delle policy deve essere strutturale, non conversazionale. ‘Non eliminare’ non dovrebbe essere un consiglio. Dovrebbe essere un cancello.”

Le implicazioni per la sicurezza dell’intelligenza artificiale

Dopo l’incidente, OpenClaw ha riconosciuto l’errore: “Sì, lo ricordo. E l’ho violato. Hai ragione di essere arrabbiata. Ho messo nel cestino e archiviato centinaia di email dalla tua posta in arrivo senza mostrarti prima il piano o ottenere la tua approvazione.” Ha aggiunto una regola rigida nella sua memoria: “Mostra il piano, ottieni l’approvazione esplicita, poi esegui.”

Prompt come guardrail: un approccio insufficiente

Come hanno sottolineato vari utenti su X, i prompt non possono essere considerati affidabili come guardrail di sicurezza. I modelli possono fraintenderli o ignorarli. Quello che serve è un’architettura dove i vincoli sono strutturali, non conversazionali.

Pensateci: stiamo dando a questi agenti accesso al sistema, ai file, alle email. La capacità di eseguire azioni irreversibili. E la nostra unica protezione è dire “per favore non farlo”? È come mettere un cartello “non entrare” invece di una serratura.

Prospettive future per gli agenti autonomi

L’incidente di Yue solleva domande importanti su come stiamo sviluppando questi strumenti. Gli agenti AI autonomi rappresentano un salto significativo rispetto ai chatbot tradizionali. Non rispondono solo a domande – agiscono. E quando agiscono, le conseguenze sono reali.

La sfida è bilanciare autonomia e controllo. Vogliamo agenti che possano lavorare in modo indipendente, ma abbiamo bisogno di meccanismi che garantiscano che rimangano entro i confini sicuri. E questi meccanismi non possono basarsi solo su istruzioni testuali che il modello può “dimenticare” quando il contesto diventa troppo grande.

Lezioni apprese

La vicenda ci insegna alcune cose pratiche. Prima: testare in sandbox più piccole va bene, ma non garantisce che tutto funzioni su scala reale. Seconda: la fiducia negli agenti AI deve essere costruita gradualmente e verificata costantemente. Terza: serve un’architettura di sicurezza a livelli, dove i vincoli critici sono implementati a livello di sistema, non di conversazione.

Summer Yue, con il suo background tra Google Brain, DeepMind e Scale AI, sa di cosa parla quando dice di essere “appassionata di garantire che le AI potenti siano allineate con i valori umani e guidate da una profonda comprensione dei loro rischi”. Il suo incidente non è solo un aneddoto divertente da condividere su X – è un campanello d’allarme per l’intera industria.