C’è un problema che tormenta chi mette in produzione i modelli linguistici: gli attacchi di prompt injection. Quelli dove qualcuno riesce a manipolare l’input per far fare al modello cose che non dovrebbe. La soluzione classica? ‘Prendi un modello più grosso, vedrai che regge meglio’. Oppure: ‘Aggiungi filtri esterni e guardrail ovunque’.
Hirundo, una piattaforma di AI safety, ha deciso di dimostrare che questa logica non funziona.
Hanno preso Gemma 4 E4B — 4 miliardi di parametri, tanto per essere chiari — e ci hanno applicato difese a livello di pesi. Non filtri esterni, non layer aggiuntivi che rallentano tutto. Hanno modificato direttamente i pesi del modello, quelli più vulnerabili alla manipolazione avversariale, per renderlo immune agli attacchi di jailbreak.
Il test: quanto regge sotto attacco?
Per validare l’approccio hanno usato PurpleLlama CyberSecEval, il benchmark di Meta che misura quanto un modello cede sotto pressione avversariale. I risultati? Illuminanti, se non imbarazzanti per chi spinge sulla scala come unica soluzione.
Il modello hardened di Hirundo ha raggiunto un Attack Success Rate del 4,78%. DeepSeek V3.2-Exp, 685 miliardi di parametri — centocinquanta volte più grosso — ha registrato un tasso di fallimento del 73,33%. Tradotto: 15,6 volte più vulnerabile.
GPT-OSS-120B, trenta volte più grande? Oltre tre volte peggio. Qwen da 235 miliardi? 10,8 volte più esposto agli attacchi. Il pattern è chiaro: la dimensione non garantisce sicurezza. Anzi.
Nessun compromesso sulle prestazioni
Il rischio di un hardening così aggressivo è sempre lo stesso: l’alignment tax. Ovvero, rendi il modello più sicuro ma lo rendi anche più stupido. Qui però i numeri dicono altro.
La riduzione degli attacchi riusciti è stata del 74,47% rispetto al modello base. Ma sui benchmark standard — AIME25, LiveCodeBench, GPQA, IFBench, SCICode, AutoPatchBench, CyberSOCEval — le performance sono rimaste identiche. Zero degradazione.
Come ci sono riusciti? Invece di aggiungere strati esterni che rallentano l’inferenza e seguono logiche rigide basate su regole, hanno applicato l’allineamento strutturale direttamente al modello instruction-tuned. In pratica, hanno identificato ed eliminato le rappresentazioni interne che portano il modello a obbedire a prompt avversariali. Il modello ‘dimentica’ la vulnerabilità, a livello di peso.
Efficienza contro scala bruta
Il punto non è solo tecnico. È economico e operativo. Un modello da 4 miliardi gira più veloce, costa meno, richiede meno infrastruttura. E se riesci a renderlo più sicuro di un modello da 600 miliardi, allora hai ribaltato l’equazione su cui molti hanno costruito le proprie strategie di deployment.
Gemma 4 E4B IT offriva già una base solida: performance, dimensioni contenute, allineamento di partenza decente. Hirundo ci ha costruito sopra un layer di difesa comportamentale preciso, mirato. Il risultato è un modello ‘secure-by-design’ che non ha bisogno della latenza o del costo computazionale delle architetture massive.
La lezione? La sicurezza non è funzione del numero di parametri. È questione di controllo comportamentale applicato con precisione. E quando lo fai bene, puoi battere i colossi con un modello che sta comodamente su hardware consumer.
