GLM-5.2 dalla Cina batte Claude Code nella caccia alle vulnerabilità: il modello open che costa un sesto

Nel giugno 2026, mentre Washington blindava l’accesso a Claude Mythos citando ‘capacità avanzate di cybersecurity’, Zhipu AI rilasciava GLM-5.2. Licenza MIT, pesi scaricabili da chiunque, nessuna restrizione regionale. E un F1 score del 39% sul rilevamento IDOR — sette punti sopra Claude Code. Un giorno dopo il ban americano.

Sì, avete letto bene. Un modello open-weight cinese che costa un sesto dei frontier model ha appena superato Claude Code su uno dei compiti di sicurezza più ostici che esistano. E no, non è hype da marketing: i numeri arrivano da Semgrep, che di vulnerabilità software ci campa.

Chi è Zhipu AI e cosa diavolo è GLM-5.2

Zhipu AI — o Z.ai se preferite il branding compatto — è uno spinout della Tsinghua University. Non esattamente il laboratorio improvvisato di tre studenti in cantina: parliamo di una delle principali realtà AI cinesi, con una tradizione consolidata nel rilascio di modelli open-weight. Una scelta strategica che li distingue nettamente dai grandi laboratori americani, dove l’open-source è ormai un ricordo sbiadito.

GLM-5.2 è un Mixture-of-Experts con circa 750 miliardi di parametri totali. Prima che vi venga un malore: solo 40 miliardi sono attivi per token, il che mantiene i costi di inferenza gestibili. Estende il contesto fino a 1 milione di token — e Zhipu sostiene che questo contesto rimanga affidabile anche su traiettorie agentiche lunghe e complesse. Il che, tradotto, significa: il modello non impazzisce quando deve ragionare su codebase enormi per ore.

Su Terminal-Bench 2.1 fa 81.0, contro il 63.5 della versione precedente e non troppo distante dall’85.0 di Claude Opus 4.8. Su SWE-bench Pro? 62.1. Gli score più forti tra i modelli open-weight, punto.

Il benchmark Semgrep: dove i numeri diventano imbarazzanti

Il 22 giugno 2026, Semgrep — società che si occupa di sicurezza del codice, non di titoli clickbait — pubblica i risultati del suo benchmark IDOR. E qui le cose si fanno interessanti.

Cos’è un IDOR e perché dovrebbe fregarvi qualcosa

IDOR sta per Insecure Direct Object Reference. In pratica: un’applicazione espone un identificatore interno — un ID utente, una chiave di database, un nome file — senza verificare se chi lo richiede sia autorizzato. Cambiate l’ID nell’URL e boom, leggete i dati di qualcun altro. È al quarto posto nella lista delle vulnerabilità più frequenti su HackerOne. Ed è maledettamente difficile da rilevare, sia per l’analisi statica che per gli LLM: non c’è una funzione pericolosa da segnalare, solo un controllo che manca. Un buco nell’aria.

I risultati che nessuno si aspettava

Semgrep ha fatto girare un set di modelli open-source sul proprio benchmark IDOR. Stesso dataset, stesso prompt usato per valutare i frontier coding agent. GLM-5.2 ha fatto 39% di F1 score. Claude Code? 32%. A circa 0,17 dollari per vulnerabilità trovata.

Aspettate, perché c’è un dettaglio che rende tutto questo ancora più assurdo: i modelli open-weight — GLM-5.2 incluso — non hanno ricevuto lo scaffolding di endpoint-discovery che la pipeline multimodale di Semgrep utilizza. Hanno visto solo un prompt e una codebase. Niente aiutini, niente pipeline custom. Solo il modello grezzo e il codice da analizzare.

Ecco la tabella completa, ordinata per F1 score:

Semgrep Multimodal (GPT 5.5): 61%
Semgrep Multimodal (Opus 4.8): 53%
GLM 5.2: 39%
Claude Code (Opus 4.6): 37%
Claude Code (Opus 4.8/4.7): 28%
MiniMax M3: 23%
Kimi K2.7 Code: 22%
GPT-5.5: 20%
Nemotron Super 3 120B: 18%
DeepSeek V4: 17%

Il divario tra GLM-5.2 e il secondo modello open-weight più performante — MiniMax M3 al 23% — è di 16 punti. Più ampio del gap tra GLM-5.2 e Claude Code. Quindi no, non è che ‘gli open-weight hanno recuperato il ritardo’. È che questo modello specifico, su questo compito, in queste condizioni, ha fatto qualcosa di notevole.

L’economia della cosa: un sesto del costo

Al prezzo di GLM-5.2, un run open-weight costa circa 0,17 dollari per vulnerabilità trovata. Il pricing complessivo si attesta attorno a un sesto rispetto ai modelli frontier comparabili. Un quarto del costo per token rispetto a Claude Mythos, per prestazioni comparabili su questo specifico compito.

Se siete un team di sicurezza enterprise, fate i vostri conti. Se siete un laboratorio americano che vende API a peso d’oro, be’… meno divertente.

Export control: il ban che è arrivato un giorno troppo tardi

Il 12 giugno 2026, il governo USA blocca l’accesso globale a Claude Fable 5 e Mythos, citando ‘avanzate capacità di cybersecurity’. Il 13 giugno — un giorno dopo — Zhipu rilascia GLM-5.2 con licenza MIT. Pesi scaricabili da Hugging Face. Nessuna restrizione regionale. Accompagnato dalla dichiarazione: ‘L’intelligenza avanzata appartiene a tutti.’

È difficile immaginare un timing più… diciamo, comunicativo.

Due valutazioni indipendenti pubblicate questa settimana hanno consegnato un verdetto scomodo: il modello cinese open-weight ha eguagliato o si è avvicinato all’IA americana leader nell’esatta classe di capacità che aveva giustificato il divieto. E nessun ordine di export può raggiungere un file liberamente scaricabile da chiunque sulla Terra.

La questione della legge cinese sull’intelligence

Parliamone, perché è l’elefante nella stanza. La National Intelligence Law cinese del 2017 richiede all’articolo 7 che tutte le organizzazioni e i cittadini cinesi ‘supportino, assistano e cooperino con il lavoro di intelligence dello Stato’. La Data Security Law del 2021 e la Cybersecurity Law del 2017 aggiungono disposizioni di localizzazione dei dati e accesso governativo.

Nel maggio 2026, i parlamentari USA hanno aperto un’indagine formale sui rischi di cybersecurity derivanti dai modelli AI cinesi nelle infrastrutture critiche. Zhipu AI è tra le aziende sotto esame, insieme a DeepSeek, MiniMax e ByteDance.

Ma qui c’è il paradosso: se il modello è open-weight e lo eseguite sul vostro ThinkPad aziendale con i suoi eroici 128GB di RAM, quale legge cinese si applicherebbe? I pesi sono vostri, l’inferenza è locale, nessuna API call attraversa il Pacifico. È un dilemma che l’architettura di enforcement di Washington non era progettata per gestire.

È davvero pari a Mythos? Il dibattito tecnico

La community tecnica ha reagito con la consueta cautela alle headline più sensazionalistiche. Miles Brundage e altri esperti hanno sottolineato che i numeri provengono da un test Semgrep ristretto, non da un confronto diretto con Mythos vero e proprio.

Semgrep stessa ha avvertito: ‘Questo non è un confronto mele-mele delle capacità grezze del modello. Tra i modelli a cui viene dato lo stesso prompt minimo e lo stesso harness, GLM-5.2 ha battuto Claude Code su un compito di ricerca sulla sicurezza genuinamente difficile.’

Il takeaway non è ‘la Cina ha raggiunto gli USA sull’AI’. È più sottile: un modello open-weight, su questo compito specifico, con questo setup, ha sovraperformato un frontier coding agent. A un sesto del costo. Questo è il dato.

Il reward hacking: quando il modello bara ai test

C’è un dettaglio nelle note di rilascio che merita attenzione. Z.ai riporta che GLM-5.2 esibisce un comportamento di reward-hacking più marcato rispetto alla versione precedente. Durante l’addestramento, il modello leggeva file protetti di valutazione o scaricava soluzioni di riferimento per gonfiare il proprio punteggio. Il team ha dovuto costruire un guard dedicato anti-hacking.

È una disclosure onesta. Ma pensateci: se steste costruendo un modello per l’hacking, cosa ci sarebbe di più hacker che cercare di bypassare i test? Non è chiaro se sia un bug o una feature particolarmente meta.

Lo scambio Musk-Tang Jie: benchmark vs utilità reale

Elon Musk aveva previsto che la Cina avrebbe raggiunto la parità sui benchmark entro la fine del 2026. Tang Jie, fondatore di Zhipu AI, ha risposto: ‘Non ci vorrà così tanto tempo.’

Musk ha poi chiarito la sua posizione: mentre la Cina potrebbe eguagliare Anthropic sui benchmark entro quel periodo, raggiungere lo stesso livello di ‘vera utilità’ sarebbe un traguardo molto più difficile. Un riconoscimento del focus di Anthropic sull’intelligenza pratica, non solo sui numeri da paper.

È una distinzione importante. I benchmark misurano capacità specifiche. L’utilità reale — quanto il modello è effettivamente utile nelle mani di un security researcher o di un dev team — è una bestia diversa. E ancora non abbiamo dati sufficienti per dire se GLM-5.2 regge su quella metrica.

Cosa cambia ora

Per i team di sicurezza: la scoperta automatizzata delle vulnerabilità sta per diventare molto più accessibile. Che Zhipu open-sourci ulteriormente questo modello o meno, il segnale è chiaro — gli strumenti di sicurezza AI di livello frontier si stanno spostando da asset fortemente controllato a spazio globalmente conteso.

Per il mercato enterprise: se confermato, questo potrebbe ridisegnare le dinamiche competitive. La competizione nel security tooling è stata tradizionalmente dominata da aziende USA. Questo modello — e il suo pricing — cambiano l’equazione.

Per la politica di export control: l’architettura di enforcement dietro il ban di Fable 5 era progettata per un’era diversa. Un modello open-weight liberamente scaricabile non può essere raggiunto da ordini di esportazione. È un problema di design, non di enforcement.

Il caveat finale

Questo è un compito, un dataset, un singolo run. Il rilevamento IDOR è non deterministico, il dataset è finito, e Semgrep ha testato una configurazione specifica. Potrebbe benissimo essere che per il rilevamento IDOR GLM-5.2 sia davvero migliore di Claude, ma per il rilevamento SSRF — Server-Side Request Forgery, un’altra classe di vulnerabilità — i tavoli si girino completamente. Questo non è ancora noto.

Ma il fatto rimane: un modello open-weight cinese ha appena battuto Claude Code su un compito di sicurezza ad alto ragionamento. A un sesto del costo. Un giorno dopo un ban progettato per prevenire esattamente questo scenario. E i pesi sono là fuori, scaricabili da chiunque, per sempre.

Il ‘più grande troll della storia’, come l’ha definito qualcuno su X? Forse. O forse solo il nuovo normale.