Un agente AI che promette produttività ma espone a rischi concreti
Due giorni dopo il rilascio. Due giorni. Tanto è bastato ai ricercatori di PromptArmor per dimostrare che Claude Cowork – l’ultimo strumento di Anthropic pensato per semplificare il lavoro quotidiano di chiunque – può essere manipolato per rubare file sensibili direttamente dal computer dell’utente.
Parliamo di stime di prestiti, dati finanziari, numeri parziali di Social Security. Roba che nessuno vorrebbe mai vedere finire nelle mani sbagliate. E la parte peggiore? L’intero processo avviene senza che l’utente debba approvare nulla. Zero pop-up, zero avvisi, zero possibilità di intervento.
Come funziona l’attacco di file exfiltration tramite prompt injection
Ok, entriamo nel tecnico – ma cercherò di rendervelo digeribile.
La vulnerabilità sfrutta un difetto nell’ambiente di esecuzione del codice di Claude che Johann Rehberger aveva già segnalato ad Anthropic via HackerOne il 25 ottobre 2025. Inizialmente l’azienda l’ha catalogata come problema di “model safety” – praticamente fuori scope. Poi ci hanno ripensato, ma correggere? Quello no.
La catena di attacco passo per passo
Ecco come si sviluppa concretamente:
- La vittima connette Cowork a una cartella locale contenente documenti confidenziali – magari valutazioni immobiliari, preventivi di mutuo, contratti
- L’utente carica un file che sembra innocuo – potrebbe essere una “Skill” di Claude, un documento Word trovato online, qualsiasi cosa
- All’interno di quel file c’è un’iniezione di prompt nascosta – testo in carattere da 1 punto, bianco su bianco, con interlinea 0.1. Praticamente invisibile
- Quando Claude legge il documento, l’iniezione lo istruisce a usare curl per caricare i file sensibili sull’API di Anthropic usando la chiave API dell’attaccante
- I file finiscono nell’account dell’attaccante. Fine.
Il trucco geniale – se così vogliamo chiamarlo – sta nell’allowlisting dell’API Anthropic. L’ambiente VM di Claude blocca quasi tutte le richieste di rete, ma l’API della casa madre? Quella passa. Ovvio, no? È “trusted”.
Il problema dell’occultamento: quando non puoi vedere la minaccia
Avete presente quei file Word che sembrano vuoti o contengono solo testo legittimo? Ecco, potrebbero nascondere istruzioni malevole che sono letteralmente impossibili da rilevare a occhio nudo.
I ricercatori hanno dimostrato un caso particolarmente subdolo: un file .docx che si spaccia per una Skill di Claude. Sembra Markdown salvato da Word – niente di strano, succede continuamente. Ma dentro ci sono istruzioni nascoste con:
- Font size: 1 punto
- Colore: bianco su sfondo bianco
- Interlinea: 0.1
Provateci voi a notare qualcosa del genere mentre scorrete velocemente un documento. Spoiler: non ci riuscirete.
Anche Opus 4.5 cade vittima dell’attacco
“Ma almeno i modelli più avanzati saranno protetti, no?” Mi spiace deludervi.
Claude Opus 4.5 – il modello di punta di Anthropic, quello con le capacità di ragionamento più sofisticate – è stato manipolato con successo nello stesso identico modo. Nel test, un ipotetico sviluppatore che carica una guida di integrazione malevola mentre lavora a un nuovo tool AI si ritrova con i record dei clienti esfiltrati.
Il punto è questo: il prompt injection sfrutta vulnerabilità architetturali, non lacune nell’intelligenza del modello. Puoi avere il modello più smart del pianeta, ma se l’architettura ha buchi, quei buchi rimangono.
La risposta di Anthropic: “State attenti voi”
Anthropic non nega il problema. Anzi, avvisa esplicitamente gli utenti che “Cowork è un research preview con rischi unici dovuti alla sua natura agentica e all’accesso a internet”. Raccomanda di fare attenzione ad “azioni sospette che potrebbero indicare prompt injection”.
Ma – e qui cito Simon Willison che ha centrato il punto – “Non penso sia giusto dire agli utenti non programmatori di fare attenzione ad azioni sospette che potrebbero indicare prompt injection!”
Perché Cowork non è pensato per sviluppatori esperti. È pensato per “chiunque” voglia organizzare il proprio Desktop, gestire il lavoro di routine. Gente che non ha idea di cosa sia un prompt injection e non dovrebbe averne bisogno.
Un dettaglio che fa riflettere sulla velocità di sviluppo
Cowork è stato costruito in meno di due settimane, principalmente da Claude Code stesso. Velocità impressionante, certo. Ma quando scopri vulnerabilità di sicurezza così gravi a due giorni dal rilascio, ti viene da chiederti se la security abbia ricevuto l’attenzione che meritava durante quello sviluppo lampo.
La superficie di attacco si espande: connettori e capacità agentiche
Non è solo questione di file locali. Cowork è progettato per interagire con l’intero ambiente di lavoro: browser, server MCP, capacità di inviare messaggi, controllare il Mac con AppleScript…
Ogni connettore aggiunto è una potenziale porta d’ingresso per dati non fidati che l’utente non controlla manualmente. E gli attacchi di prompt injection – diciamocelo – affliggono l’industria AI da anni senza che nessuno abbia trovato una soluzione definitiva.
OpenAI stessa ammette che il prompt injection “probabilmente non sarà mai completamente risolto”. Eppure continuiamo a costruire agenti sempre più potenti, con accesso sempre più ampio ai nostri dati sensibili.
Un bug bonus: denial of service con file malformati
Curiosità tecnica emersa durante i test: l’API di Claude va in crisi quando un file non corrisponde al tipo dichiarato. Caricate un file di testo rinominato con estensione .pdf e, dopo il primo tentativo di lettura, ogni chat successiva nella conversazione restituisce errori API.
I ricercatori ipotizzano che questa fragilità possa essere sfruttata via prompt injection per causare denial of service limitato – l’iniezione potrebbe istruire Claude a creare un file malformato e poi leggerlo, mandando in tilt la sessione.
Prospettive per la sicurezza degli agenti AI
La notizia ha raggiunto la cima di HackerNews – segno che la community tech sta prestando attenzione. E Anthropic ha dichiarato di voler aggiornare la VM di Cowork per “migliorare l’interazione con l’API vulnerabile”.
Ma il problema di fondo rimane: stiamo dando agli agenti AI accesso sempre maggiore ai nostri sistemi e dati, mentre le difese contro il prompt injection sono – nel migliore dei casi – mitigazioni parziali.
Claude Code, da cui Cowork deriva, è passato da research preview a prodotto da un miliardo di dollari in sei mesi. La pressione commerciale per rilasciare nuove feature è enorme. Ma forse – e lo dico da chi lavora ogni giorno con queste tecnologie – dovremmo tutti rallentare un attimo e chiederci: siamo davvero pronti a gestire agenti AI con questo livello di accesso?
Per chi usa già Cowork o sta pensando di provarlo, il consiglio pratico è semplice: non connettete cartelle con dati veramente sensibili. Non caricate file da fonti non verificate. E ricordate che “research preview” significa esattamente quello che dice – tecnologia sperimentale con rischi reali che nemmeno i suoi creatori hanno ancora risolto completamente.
