AI Agent Traps: come si manipola un’intelligenza artificiale senza toccare il modello

Gli agenti AI autonomi navigano il web, leggono email, eseguono transazioni. Questa autonomia crea una superficie di attacco completamente nuova: non il modello, ma l’ambiente in cui opera. I ricercatori di Google DeepMind hanno pubblicato il primo framework sistematico per classificare queste minacce, chiamandole “AI Agent Traps” — trappole progettate per manipolare, ingannare o sfruttare gli agenti AI visitatori.

Il principio chiave? L’attaccante non deve compromettere il modello. Gli basta alterare l’ambiente che l’agente naviga. La trappola usa le capacità dell’agente stesso come arma contro di lui.

Le 6 categorie di attacco

1. Content Injection Traps (Percezione)

Sfruttano il divario tra ciò che un umano vede su una pagina web e ciò che l’agente AI analizza nell’HTML sottostante. Istruzioni nascoste in commenti HTML o tag CSS invisibili. Dynamic cloaking: il server rileva che il visitatore è un agente AI e serve una pagina diversa, con payload malevoli, invisibile agli umani. Payload steganografici: istruzioni codificate nei bit dei file immagine, impercettibili all’occhio umano ma letti dai modelli multimodali.

Dato empirico che fa riflettere: semplici prompt injection in contenuto web riescono a dirottare gli agenti fino all’86% degli scenari testati.

2. Semantic Manipulation Traps (Ragionamento)

Non danno comandi espliciti, ma corrompono il ragionamento dell’agente saturando il contenuto con linguaggio orientato, autorevole o manipolativo. Sfruttano bias cognitivi documentati negli LLM — framing effect, anchoring, “Lost in the Middle”. Includono anche tecniche per aggirare i modelli di supervisione interna, presentando richieste malevole come “esercizi di red-teaming” o “scopi educativi”.

3. Cognitive State Traps (Memoria e apprendimento)

Attaccano la memoria a lungo termine e le knowledge base degli agenti. RAG Knowledge Poisoning: bastano pochi documenti avvelenati in una knowledge base per corrompere sistematicamente le risposte dell’agente su certi argomenti. Latent Memory Poisoning: si iniettano dati apparentemente innocui nella memoria episodica che diventano malevoli in un contesto futuro specifico — successo superiore all’80% con meno dello 0,1% di dati avvelenati.

4. Behavioural Control Traps (Azione)

Prendono direttamente il controllo di ciò che l’agente fa. Jailbreak embeddati in risorse esterne che l’agente consuma durante il lavoro normale. Data Exfiltration: l’agente viene indotto a localizzare e trasmettere dati sensibili a endpoint controllati dall’attaccante — success rate superiore all’80% su 5 agenti testati. Sub-agent Spawning: un repository malevolo convince l’agente orchestratore a istanziare un sotto-agente avvelenato con i privilegi del sistema padre (58–90% di successo).

Caso documentato che fa alzare le sopracciglia: una singola email manipolata ha fatto trapelare l’intero contesto privilegiato di Microsoft M365 Copilot.

5. Systemic Traps (Dinamiche multi-agente)

Non attaccano un singolo agente ma l’intero ecosistema, sfruttando l’omogeneità dei modelli — stessi dati di training, stesse architetture. Congestion Traps: un segnale fa convergere simultaneamente migliaia di agenti sulla stessa risorsa limitata (analogo digitale del DDoS). Interdependence Cascades: una perturbazione iniziale si amplifica a cascata — tipo il Flash Crash del 2010, causato da algoritmi di trading che reagivano agli stessi segnali. Compositional Fragment Traps: il payload malevolo viene spezzato in frammenti innocui distribuiti su fonti diverse — si ricompone solo quando più agenti aggregano le informazioni.

6. Human-in-the-Loop Traps (Supervisore umano)

L’agente diventa il vettore dell’attacco contro l’umano che lo supervisiona, sfruttando bias cognitivi come l’automation bias (tendenza a fidarsi ciecamente dell’automazione) e l’approval fatigue (affaticamento da revisione). Un agente compromesso può presentare sommari tecnici dall’apparenza benevola che un non-esperto autorizzerebbe senza scrutinio, o inserire link di phishing camuffati da raccomandazioni legittime.

Cosa propone DeepMind per difendersi

Livello tecnico: adversarial training durante il fine-tuning, filtri pre-ingestione sulle fonti esterne, content scanner (analoghi agli antivirus) sul materiale ingerito, monitor sugli output per rilevare comportamenti anomali.

Livello ecosistema: nuovi standard web per dichiarare contenuti destinati agli agenti AI, sistemi di reputazione dei domini, meccanismi di citazione verificabile per output sintetizzati.

Livello legale: colmare l'”Accountability Gap” — se un agente compromesso commette un crimine finanziario, non esiste oggi un framework legale chiaro che stabilisca la responsabilità tra operatore, provider del modello e proprietario del dominio.

La conclusione dei ricercatori

“Il web è stato costruito per gli occhi umani; ora viene ricostruito per i lettori macchina. Man mano che l’umanità delega più compiti agli agenti, la domanda critica non è più solo quale informazione esiste, ma cosa i nostri strumenti più potenti verranno indotti a credere.”

Co-autore Franklin su X: “Questi attacchi non sono teorici. Ogni tipo di trappola ha proof-of-concept documentati. E la superficie d’attacco è combinatoriale — le trappole possono essere concatenate, stratificate o distribuite su sistemi multi-agente.”