GLM-5: il modello AI che trasforma l’ingegneria del software dall’autonomia all’agenzia

Cosa sta cambiando davvero con GLM-5

Arriva una notizia che difficilmente sentite dieci volte al mese: uno sviluppo AI che vale davvero la pena approfondire. GLM-5, il modello fondazionale di Zhipu AI in collaborazione con la Tsinghua University, rappresenta uno spartiacque nel modo in cui la AI risolve i problemi complessi. Non è solo un aggiornamento – il passaggio dal ‘vibe coding’ (prompt umano, codice umano) all”agentic engineering’ (agenti che pianificano, implementano e iterano da soli) è qualcosa di diverso.

Il paper tecnico è uscito su arXiv il 17 febbraio 2026 (arXiv:2602.15763v1), e dentro c’è roba solida. Non hype, ma architettura che funziona.

La scala del modello AI e cosa significa davvero

GLM-5 scala fino a 744 miliardi di parametri totali. Di cui 40 miliardi attivi in qualsiasi momento – raddoppia il predecessore GLM-4.5. Per capire: è come avere il doppio dei neuroni artificiali a cui attingere quando risolve un problema.

Qui è dove si mette bene: lo fa usando 256 esperti MoE distribuiti su 80 layer. Sulla carta sembra solo numeri, ma nel concreto significa una cosa: mentre le generazioni precedenti agivano come cervello grande-e-lento, GLM-5 attiva solo le parti che gli servono. Come un’équipe medica specializzata – non ci sono tutti i dottori presenti per ogni visita, solo quelli che vi servono.

Deep Sparse Attention: quando meno diventa più (e per una buona ragione)

L’innovazione vera è la DSA (DeepSeek Sparse Attention). Tradotto: il modello non guarda ogni singola parola in relazione a tutte le altre – avrebbe costo computazionale impossibile. Invece, seleziona dinamicamente quali connessioni contano.

I numeri concreti:

Riduce il calcolo dell’attenzione di circa 1.5-2 volte su sequenze lunghe
Gestisce contesti di 128.000 token al prezzo computazionale della metà
Funziona su tutti i layer senza degradare la qualità
Il 90% delle connessioni di attenzione nei contesti lunghi risulta ridondante

Penserete: ‘Ma se taglia il 90% delle connessioni, non perde informazioni?’ Esattamente la domanda giusta. La risposta è nei dati: no. Perché il 90% era davvero rumore. GLM-5 ha imparato cosa ignorare.

Multi-latent Attention con Muon Split: la tecnica che recupera le prestazioni

MLa con Muon Split è una cosa di quelle che capirete meglio leggendo le specifiche, ma il concetto è interessante. Il modello suddivide le matrici di proiezione in parti più piccole per diverse teste di attenzione. Applica ortonormalizzazione a matrici indipendenti. Risultato pratico: ogni testa di attenzione aggiorna a velocità diverse, recuperando le prestazioni che other approaches perdono.

Hanno poi aumentato la dimensione delle teste da 192 a 256 e ridotto il numero di teste di attenzione di un terzo. Il calcolo rimane costante durante training e prefilling. Non è eleganza per eleganza – è ottimizzazione concreta che funziona.

Multi-token Prediction: generare più velocemente

GLM-5 propone something interessante: condivisione dei parametri di 3 layer durante il training con predizione multi-token. Significa che il modello impara a generare non un token alla volta, ma gruppi – mantenendo memoria efficiente come DeepSeek-V3 ma con tassi di accettazione migliori.

Il risultato: accept length di 2.76 (vs 2.55 di DeepSeek-V3.2 con lo stesso numero di step). Non è rivoluzionario, ma è concreto.

Come è stato addestrato: il training da 28.5 trilioni di token

Pre-training significa uno sforzo computazionale pazzesco. GLM-5 è stato addestrato su corpus massivi:

18 trilioni di token corpus generale
9 trilioni di corpus code e reasoning (contesto di 4K token)
Poi estensione progressiva del contesto: da 32K a 128K a 200K
20 miliardi di token aggiuntivi per adattare specificamente il modello alla DSA

Budget totale: 28.5 trilioni di token. Penserete ‘ok, è un numero grande.’ Sì. Significa che il modello ha visto ogni combinazione linguistica concepibile, poi le ha viste di nuovo in contesti diversi.

Post-training: infrastruttura asincrona e decoupled RL

Qui è dove GLM-5 diventa interessante dal lato dell’engineering. Il post-training usa una pipeline RL sequenziale:

Reasoning RL su matematica, scienza, codice
Agentic RL per task di coding e search agent (framework asincrono)
General RL con sistema di reward ibrido
On-Policy Cross-Stage Distillation per recuperare competenze dalle fasi precedenti

Ma il dettaglio che mi ha colpito: infrastruttura RL asincrona (che loro chiamano ‘slime’ framework). Separazione completa tra inference engine e training engine su GPU diverse. Il rollout engine genera traiettorie continuamente – quando raggiunge una soglia, il batch va al training engine. Supporta oltre 1000 rollout concorrenti.

Ottimizzano tail-latency con FP8 per inference, MTP per small-batch decoding, e PD disaggregation per evitare interferenze prefill-decode. Non è una cosa che leggete ogni giorno – è ingegneria reale per risolvere problemi reali di scalabilità.

Tre modi di pensare: Interleaved, Preserved, Turn-level

GLM-5 supporta tre caratteristiche di ‘pensiero’ distinte:

Interleaved Thinking: pensa prima di ogni risposta e tool call
Preserved Thinking: in scenari di coding agent, mantiene automaticamente i blocchi di ragionamento attraverso conversazioni multi-turn (riusa il ragionamento invece di ri-derivarlo)
Turn-level Thinking: controllo per-turn sul ragionamento dentro una sessione

Preserved Thinking è quello che Claude Opus 4.5 ha adottato. Significa: se il modello ha ragionato su qualcosa, riusa quel ragionamento invece di rifare il lavoro da zero. Efficienziale e sensato.

Agentic engineering: ambienti di training reali

Qui GLM-5 fa qualcosa che altri modelli non hanno fatto allo stesso livello. Hanno costruito ambienti di training verificabili per insegnare agli agenti AI a completare compiti reali.

Software engineering: 10.000 ambienti verificabili

Costruiti da issue reali di GitHub. Coverage di 9 linguaggi di programmazione: Python, Java, Go, C, C++, JavaScript, TypeScript, PHP, Ruby. Pipeline basata su RepoLaunch per costruire ambienti eseguibili automaticamente. Non è sandbox – è il vero GitHub, con veri problemi.

Terminal environments: Docker con 90% accuracy

Sintetizzati da seed data e web corpus. Docker construction accuracy superiore al 90%. Il construction agent serve anche come first-pass evaluator – significa che il modello valuta se la sua stessa soluzione è corretta.

Search tasks: ragionamento multi-hop su fonti multiple

Web Knowledge Graph con 2 milioni di pagine web ad alta informazione. Domande che richiedono ragionamento multi-step: trovare l’informazione su fonte A, collezionarla su fonte B, sintetizzare in fonte C. Pipeline di filtraggio in 3 stadi per garantire alta difficoltà e correttezza.

Hierarchical Context Management per search agents

GLM-5 introduce HCM (Hierarchical Context Management). Strategia ‘Keep-recent-k’ con k=5 (comprime osservazioni vecchie), combinata con Discard-all quando il contesto supera 32K token. Risultato misurato: miglioramento da 55.3% a 75.9% su BrowseComp. Non è speculazione – è benchmark pubblico.

Ottimizzazione per l’ecosistema GPU cinese

Un dettaglio che pochi notano: GLM-5 è full-stack ottimizzato per 7 piattaforme chip cinesi (Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX, Enflame). Non è ‘supporto tecnico’ – è ottimizzazione vera con kernel di fusione custom.

Su Huawei Ascend Atlas:

W4A8 mixed-precision quantization (MoE experts a INT4, Attention/MLP a INT8)
Kernel custom: Lightning Indexer, Sparse Flash Attention, MLAPO
Performance paragonabile a cluster internazionali dual-GPU su singolo nodo cinese
Riduzione costi deployment del 50% in scenari long-sequence

Sapete cosa significa? Significa che chi sviluppa in Cina non dipende più da GPU Nvidia. È geopolitica, ma è anche buona ingegneria.

Come performa: i benchmark che contano

HLE (Hands-on Landmark Evaluation)

Benchmark ARC con tools: GLM-5 a 50.4 punti. Claude Opus 4.5 a 43.4. GPT-5.2 (xhigh) a 45.5. Non è il primo posto, ma è competitivo quando il task è risolvere problemi reali con strumenti.

SWE-bench Verified: 77.8%

Software engineering benchmark. Qui Claude Opus 4.5 batte GLM-5 (80.9 vs 77.8). Non è male – significa che su veri bug Github, GLM-5 risolve quasi 4 su 5. Per contesto, il baseline è attorno al 10%.

Terminal-Bench 2.0 e BrowseComp

Terminal: 56.2 (GLM-5) vs 59.3 (Claude Opus). BrowseComp con context management: 75.9 (GLM-5) vs 57.8 (Claude Opus). Qui GLM-5 vince. Significa che navigare il web e trovare informazioni è un’area dove il design specifico funziona.

Intelligence Index: primo open weights a 50 punti

Artificial Analysis Intelligence Index v4.0 segna 50 punti a GLM-5. È il primo modello open weights a raggiungere questo. GLM-4.7 era a 42. Non è niente da prendere leggermente.

LMArena: numero 1 open

È il modello numero 1 open sia in Text Arena che in Code Arena su LMArena (UC Berkeley). Paragonabile a Claude Opus 4.5 e Gemini 3 Pro. Quando iniziative importanti vi mettono al vertice tra modelli open, significa che altre persone credono nel vostro lavoro.

CC-Bench-V2: valutazione real-world

Benchmark interno completamente automatizzato. Frontend Build Success Rate: 100% su React, Vue, Svelte (vs 65-70% di GLM-4.7). Questo è significativo. Backend Engineering Pass@1: 25.8% (vs Claude Opus 4.5 a 26.9%). Long-horizon Repo Exploration: 65.6% (vs Claude Opus 4.5 a 64.5%). Chained Tasks: 52.3% (vs Claude Opus 4.5 a 61.6%).

Non batte Claude dappertutto, ma dove batte è impressionante. Frontend building quasi perfetto – significa che il modello capisce layout, CSS, JavaScript coordination.

Generazione di slide HTML e self-improving pipeline

GLM-5 include una pipeline self-improving per generare slide HTML. Level-1 (attributi markup statici), Level-2 (proprietà rendering runtime), Level-3 (feature visive percettive). Risultato: percentuale di slide conformi a ratio 16:9 dal 40% al 92%. Win rate del 67.5% vs GLM-4.5 nelle valutazioni umane.

Non è fondamentale, ma è interessante perché mostra che il modello può apprendere feedback visivo e migliorarsi iterativamente.

L’episodio ‘Pony Alpha’: quando la community ha indovinato l’identità

Prima della release ufficiale, GLM-5 è stato rilasciato anonimamente su OpenRouter come ‘Pony Alpha’. La community ha rapidamente notato eccezionali capacità in coding, workflow agentici, roleplay. Le speculazioni:

25% degli utenti: Claude Sonnet 5
20%: DeepSeek V4
10%: Grok
Resto: variegato

La conferma che fosse GLM-5 è stata significativa nel discorso globale AI. Significa che gli LLM cinesi non sono più ‘dietro’ – stanno competendo al livello frontier, silenziosamente.

Miglioramenti reali in 5 domini

GLM-5 mostra miglioramenti consistenti vs GLM-4.7 in domini specifici:

Machine Translation: +34 punti su ZMultiTransBench, +20 su MENT-SNS
Multilingual Dialogue: +11 punti Elo su LMArena, +0.13 su ZMultiDialBench
Instruction Following: +4.7 punti su IFBench, +4 su IF-badcase
World Knowledge: +5.9 punti su SimpleQA, +2.3 su Chinese SimpleQA
Tool Calling: +35 punti su Toolcall-Badcase

Non sono salti rivoluzionari, ma sono consistenti e misurati. Machine translation è il grande vincitore qui.

Quello che GLM-5 ci dice sul futuro della AI

GLM-5 è significativo per tre ragioni concrete, non per hype:

Primo: i modelli open possono raggiungere le performance dei modelli proprietari di frontiera. Non ‘avvicinarsi’ – raggiungere. In certi benchmark specifici, superare.

Secondo: efficienza computazionale e capacità agentiche non sono in conflitto. DSA non degrada la qualità. Gli agenti RL asincroni scalano. Sono design choices che funzionano.

Terzo: l’infrastruttura RL asincrona è fondamentale per scalare il training su task long-horizon. Non è accademico – è la strada per addestrare agenti che lavorano davvero.

Quarto, meno ovvio: l’adattamento a hardware cinese consente deployment competitivi senza dipendenza da GPU occidentali. È geopolitica, ma è anche buona ingegneria che altri dovrebbero copiare.

Il codice, i modelli e le informazioni sono disponibili su GitHub (github.com/zai-org/GLM-5). Non è vaporware. Potete scaricarvi il modello, eseguirlo, vederlo funzionare.