Cosa sta cambiando davvero con GLM-5
Arriva una notizia che difficilmente sentite dieci volte al mese: uno sviluppo AI che vale davvero la pena approfondire. GLM-5, il modello fondazionale di Zhipu AI in collaborazione con la Tsinghua University, rappresenta uno spartiacque nel modo in cui la AI risolve i problemi complessi. Non è solo un aggiornamento – il passaggio dal ‘vibe coding’ (prompt umano, codice umano) all”agentic engineering’ (agenti che pianificano, implementano e iterano da soli) è qualcosa di diverso.
Il paper tecnico è uscito su arXiv il 17 febbraio 2026 (arXiv:2602.15763v1), e dentro c’è roba solida. Non hype, ma architettura che funziona.
La scala del modello AI e cosa significa davvero
GLM-5 scala fino a 744 miliardi di parametri totali. Di cui 40 miliardi attivi in qualsiasi momento – raddoppia il predecessore GLM-4.5. Per capire: è come avere il doppio dei neuroni artificiali a cui attingere quando risolve un problema.
Qui è dove si mette bene: lo fa usando 256 esperti MoE distribuiti su 80 layer. Sulla carta sembra solo numeri, ma nel concreto significa una cosa: mentre le generazioni precedenti agivano come cervello grande-e-lento, GLM-5 attiva solo le parti che gli servono. Come un’équipe medica specializzata – non ci sono tutti i dottori presenti per ogni visita, solo quelli che vi servono.
Deep Sparse Attention: quando meno diventa più (e per una buona ragione)
L’innovazione vera è la DSA (DeepSeek Sparse Attention). Tradotto: il modello non guarda ogni singola parola in relazione a tutte le altre – avrebbe costo computazionale impossibile. Invece, seleziona dinamicamente quali connessioni contano.
I numeri concreti:
- Riduce il calcolo dell’attenzione di circa 1.5-2 volte su sequenze lunghe
- Gestisce contesti di 128.000 token al prezzo computazionale della metà
- Funziona su tutti i layer senza degradare la qualità
- Il 90% delle connessioni di attenzione nei contesti lunghi risulta ridondante
Penserete: ‘Ma se taglia il 90% delle connessioni, non perde informazioni?’ Esattamente la domanda giusta. La risposta è nei dati: no. Perché il 90% era davvero rumore. GLM-5 ha imparato cosa ignorare.
Multi-latent Attention con Muon Split: la tecnica che recupera le prestazioni
MLa con Muon Split è una cosa di quelle che capirete meglio leggendo le specifiche, ma il concetto è interessante. Il modello suddivide le matrici di proiezione in parti più piccole per diverse teste di attenzione. Applica ortonormalizzazione a matrici indipendenti. Risultato pratico: ogni testa di attenzione aggiorna a velocità diverse, recuperando le prestazioni che other approaches perdono.
Hanno poi aumentato la dimensione delle teste da 192 a 256 e ridotto il numero di teste di attenzione di un terzo. Il calcolo rimane costante durante training e prefilling. Non è eleganza per eleganza – è ottimizzazione concreta che funziona.
Multi-token Prediction: generare più velocemente
GLM-5 propone something interessante: condivisione dei parametri di 3 layer durante il training con predizione multi-token. Significa che il modello impara a generare non un token alla volta, ma gruppi – mantenendo memoria efficiente come DeepSeek-V3 ma con tassi di accettazione migliori.
Il risultato: accept length di 2.76 (vs 2.55 di DeepSeek-V3.2 con lo stesso numero di step). Non è rivoluzionario, ma è concreto.
Come è stato addestrato: il training da 28.5 trilioni di token
Pre-training significa uno sforzo computazionale pazzesco. GLM-5 è stato addestrato su corpus massivi:
- 18 trilioni di token corpus generale
- 9 trilioni di corpus code e reasoning (contesto di 4K token)
- Poi estensione progressiva del contesto: da 32K a 128K a 200K
- 20 miliardi di token aggiuntivi per adattare specificamente il modello alla DSA
Budget totale: 28.5 trilioni di token. Penserete ‘ok, è un numero grande.’ Sì. Significa che il modello ha visto ogni combinazione linguistica concepibile, poi le ha viste di nuovo in contesti diversi.
Post-training: infrastruttura asincrona e decoupled RL
Qui è dove GLM-5 diventa interessante dal lato dell’engineering. Il post-training usa una pipeline RL sequenziale:
- Reasoning RL su matematica, scienza, codice
- Agentic RL per task di coding e search agent (framework asincrono)
- General RL con sistema di reward ibrido
- On-Policy Cross-Stage Distillation per recuperare competenze dalle fasi precedenti
Ma il dettaglio che mi ha colpito: infrastruttura RL asincrona (che loro chiamano ‘slime’ framework). Separazione completa tra inference engine e training engine su GPU diverse. Il rollout engine genera traiettorie continuamente – quando raggiunge una soglia, il batch va al training engine. Supporta oltre 1000 rollout concorrenti.
Ottimizzano tail-latency con FP8 per inference, MTP per small-batch decoding, e PD disaggregation per evitare interferenze prefill-decode. Non è una cosa che leggete ogni giorno – è ingegneria reale per risolvere problemi reali di scalabilità.
Tre modi di pensare: Interleaved, Preserved, Turn-level
GLM-5 supporta tre caratteristiche di ‘pensiero’ distinte:
- Interleaved Thinking: pensa prima di ogni risposta e tool call
- Preserved Thinking: in scenari di coding agent, mantiene automaticamente i blocchi di ragionamento attraverso conversazioni multi-turn (riusa il ragionamento invece di ri-derivarlo)
- Turn-level Thinking: controllo per-turn sul ragionamento dentro una sessione
Preserved Thinking è quello che Claude Opus 4.5 ha adottato. Significa: se il modello ha ragionato su qualcosa, riusa quel ragionamento invece di rifare il lavoro da zero. Efficienziale e sensato.
Agentic engineering: ambienti di training reali
Qui GLM-5 fa qualcosa che altri modelli non hanno fatto allo stesso livello. Hanno costruito ambienti di training verificabili per insegnare agli agenti AI a completare compiti reali.
Software engineering: 10.000 ambienti verificabili
Costruiti da issue reali di GitHub. Coverage di 9 linguaggi di programmazione: Python, Java, Go, C, C++, JavaScript, TypeScript, PHP, Ruby. Pipeline basata su RepoLaunch per costruire ambienti eseguibili automaticamente. Non è sandbox – è il vero GitHub, con veri problemi.
Terminal environments: Docker con 90% accuracy
Sintetizzati da seed data e web corpus. Docker construction accuracy superiore al 90%. Il construction agent serve anche come first-pass evaluator – significa che il modello valuta se la sua stessa soluzione è corretta.
Search tasks: ragionamento multi-hop su fonti multiple
Web Knowledge Graph con 2 milioni di pagine web ad alta informazione. Domande che richiedono ragionamento multi-step: trovare l’informazione su fonte A, collezionarla su fonte B, sintetizzare in fonte C. Pipeline di filtraggio in 3 stadi per garantire alta difficoltà e correttezza.
Hierarchical Context Management per search agents
GLM-5 introduce HCM (Hierarchical Context Management). Strategia ‘Keep-recent-k’ con k=5 (comprime osservazioni vecchie), combinata con Discard-all quando il contesto supera 32K token. Risultato misurato: miglioramento da 55.3% a 75.9% su BrowseComp. Non è speculazione – è benchmark pubblico.
Ottimizzazione per l’ecosistema GPU cinese
Un dettaglio che pochi notano: GLM-5 è full-stack ottimizzato per 7 piattaforme chip cinesi (Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX, Enflame). Non è ‘supporto tecnico’ – è ottimizzazione vera con kernel di fusione custom.
Su Huawei Ascend Atlas:
- W4A8 mixed-precision quantization (MoE experts a INT4, Attention/MLP a INT8)
- Kernel custom: Lightning Indexer, Sparse Flash Attention, MLAPO
- Performance paragonabile a cluster internazionali dual-GPU su singolo nodo cinese
- Riduzione costi deployment del 50% in scenari long-sequence
Sapete cosa significa? Significa che chi sviluppa in Cina non dipende più da GPU Nvidia. È geopolitica, ma è anche buona ingegneria.
Come performa: i benchmark che contano
HLE (Hands-on Landmark Evaluation)
Benchmark ARC con tools: GLM-5 a 50.4 punti. Claude Opus 4.5 a 43.4. GPT-5.2 (xhigh) a 45.5. Non è il primo posto, ma è competitivo quando il task è risolvere problemi reali con strumenti.
SWE-bench Verified: 77.8%
Software engineering benchmark. Qui Claude Opus 4.5 batte GLM-5 (80.9 vs 77.8). Non è male – significa che su veri bug Github, GLM-5 risolve quasi 4 su 5. Per contesto, il baseline è attorno al 10%.
Terminal-Bench 2.0 e BrowseComp
Terminal: 56.2 (GLM-5) vs 59.3 (Claude Opus). BrowseComp con context management: 75.9 (GLM-5) vs 57.8 (Claude Opus). Qui GLM-5 vince. Significa che navigare il web e trovare informazioni è un’area dove il design specifico funziona.
Intelligence Index: primo open weights a 50 punti
Artificial Analysis Intelligence Index v4.0 segna 50 punti a GLM-5. È il primo modello open weights a raggiungere questo. GLM-4.7 era a 42. Non è niente da prendere leggermente.
LMArena: numero 1 open
È il modello numero 1 open sia in Text Arena che in Code Arena su LMArena (UC Berkeley). Paragonabile a Claude Opus 4.5 e Gemini 3 Pro. Quando iniziative importanti vi mettono al vertice tra modelli open, significa che altre persone credono nel vostro lavoro.
CC-Bench-V2: valutazione real-world
Benchmark interno completamente automatizzato. Frontend Build Success Rate: 100% su React, Vue, Svelte (vs 65-70% di GLM-4.7). Questo è significativo. Backend Engineering Pass@1: 25.8% (vs Claude Opus 4.5 a 26.9%). Long-horizon Repo Exploration: 65.6% (vs Claude Opus 4.5 a 64.5%). Chained Tasks: 52.3% (vs Claude Opus 4.5 a 61.6%).
Non batte Claude dappertutto, ma dove batte è impressionante. Frontend building quasi perfetto – significa che il modello capisce layout, CSS, JavaScript coordination.
Generazione di slide HTML e self-improving pipeline
GLM-5 include una pipeline self-improving per generare slide HTML. Level-1 (attributi markup statici), Level-2 (proprietà rendering runtime), Level-3 (feature visive percettive). Risultato: percentuale di slide conformi a ratio 16:9 dal 40% al 92%. Win rate del 67.5% vs GLM-4.5 nelle valutazioni umane.
Non è fondamentale, ma è interessante perché mostra che il modello può apprendere feedback visivo e migliorarsi iterativamente.
L’episodio ‘Pony Alpha’: quando la community ha indovinato l’identità
Prima della release ufficiale, GLM-5 è stato rilasciato anonimamente su OpenRouter come ‘Pony Alpha’. La community ha rapidamente notato eccezionali capacità in coding, workflow agentici, roleplay. Le speculazioni:
- 25% degli utenti: Claude Sonnet 5
- 20%: DeepSeek V4
- 10%: Grok
- Resto: variegato
La conferma che fosse GLM-5 è stata significativa nel discorso globale AI. Significa che gli LLM cinesi non sono più ‘dietro’ – stanno competendo al livello frontier, silenziosamente.
Miglioramenti reali in 5 domini
GLM-5 mostra miglioramenti consistenti vs GLM-4.7 in domini specifici:
- Machine Translation: +34 punti su ZMultiTransBench, +20 su MENT-SNS
- Multilingual Dialogue: +11 punti Elo su LMArena, +0.13 su ZMultiDialBench
- Instruction Following: +4.7 punti su IFBench, +4 su IF-badcase
- World Knowledge: +5.9 punti su SimpleQA, +2.3 su Chinese SimpleQA
- Tool Calling: +35 punti su Toolcall-Badcase
Non sono salti rivoluzionari, ma sono consistenti e misurati. Machine translation è il grande vincitore qui.
Quello che GLM-5 ci dice sul futuro della AI
GLM-5 è significativo per tre ragioni concrete, non per hype:
Primo: i modelli open possono raggiungere le performance dei modelli proprietari di frontiera. Non ‘avvicinarsi’ – raggiungere. In certi benchmark specifici, superare.
Secondo: efficienza computazionale e capacità agentiche non sono in conflitto. DSA non degrada la qualità. Gli agenti RL asincroni scalano. Sono design choices che funzionano.
Terzo: l’infrastruttura RL asincrona è fondamentale per scalare il training su task long-horizon. Non è accademico – è la strada per addestrare agenti che lavorano davvero.
Quarto, meno ovvio: l’adattamento a hardware cinese consente deployment competitivi senza dipendenza da GPU occidentali. È geopolitica, ma è anche buona ingegneria che altri dovrebbero copiare.
Il codice, i modelli e le informazioni sono disponibili su GitHub (github.com/zai-org/GLM-5). Non è vaporware. Potete scaricarvi il modello, eseguirlo, vederlo funzionare.
