Quando un modello open-source sfida i giganti proprietari
Allora, mettiamola così: l’11 febbraio 2026, mentre metà della Cina si preparava al Capodanno Lunare, Zhipu AI e Tsinghua University hanno rilasciato qualcosa che ha fatto girare parecchie teste. GLM-5. Un modello da 744 miliardi di parametri totali (40 miliardi attivi) con licenza MIT – il che tradotto significa: fate quello che volete, zero vincoli commerciali.
Ma la vera notizia? Non è tanto la dimensione. È che questo modello cinese, addestrato interamente su chip Huawei Ascend (zero dipendenza da NVIDIA, prendetene nota), sta letteralmente sbaragliando benchmark dove modelli proprietari tipo Claude Opus 4.5 e GPT-5.2 facevano i fighi.
Il passaggio dal “vibe coding” all’ingegneria agentica
Qui si fa interessante. Il team di GLM-5 parte da un’osservazione che suona banale ma non lo è: gli LLM stanno smettendo di essere librerie passive di conoscenza per diventare risolutori attivi di problemi. Il salto dal “chiedi e ricevi una risposta” al “delegami questo task e lo risolvo end-to-end” è quello che loro chiamano transition to agentic engineering.
In pratica? GLM-5 non si limita a sputare codice. Gestisce workflow complessi, debugga, interagisce con sistemi reali, prende decisioni in contesti multi-step. Tipo un developer junior che però non dorme mai e costa $1 per milione di token in input.
Architettura: quando il Mixture-of-Experts fa sul serio
256 esperti e una strategia di efficienza radicale
GLM-5 scala a 256 esperti in una architettura Mixture-of-Experts (MoE), ma riduce i layer a 80 per minimizzare l’overhead di comunicazione. Risultato: un modello che raddoppia la dimensione di GLM-4.5 (da 355B a 744B parametri totali) mantenendo 40B parametri attivi per token.
Tradotto: quando processa una richiesta, attiva solo una frazione del modello – esattamente gli esperti specializzati per quel compito. Efficienza computazionale che si traduce in costi dimezzati rispetto ai competitor proprietari su sequenze lunghe.
DeepSeek Sparse Attention: il trucco per i contesti lunghi
La finestra di contesto? 200.000 token. Ma gestirli a metà del costo GPU rispetto all’attenzione standard. Come? DeepSeek Sparse Attention (DSA), che taglia il calcolo dell’attenzione di circa 1,5-2x per sequenze lunghe.
Aggiungeteci il Multi-latent Attention con “Muon Split” (che migliora le prestazioni MLA per eguagliare quelle del GQA), la Multi-token Prediction con Parameter Sharing (aumenta il tasso di accettazione dei token speculativi), e una quantizzazione INT4 awareness durante il training. Sì, il modello è pensato per girare quantizzato senza perdite significative.
Pipeline di addestramento: 28,5 trilioni di token e una infrastruttura RL asincrona
Pre-training progressivo su contesti sempre più lunghi
Il pre-training passa attraverso due fasi principali: capacità generali di linguaggio e coding, poi mid-training per capacità agentiche e contesto lungo. Totale: 28,5 trilioni di token.
La finestra di contesto viene estesa progressivamente in tre fasi:
– 32K token (1 trilione di token)
– 128K token (500 miliardi di token)
– 200K token (50 miliardi di token)
Approccio sensato: non addestri un modello su 200K token da subito, gli insegni prima a gestire contesti più corti e poi scali.
Post-training: dove si vede la differenza
Qui il team ha fatto sul serio:
– Supervised Fine-Tuning (SFT) con thinking interleaved, preserved e turn-level
– Reasoning RL su matematica, scienza, codice e TIR
– Agentic RL su software engineering, terminal tasks e ricerca
– General RL con sistema di reward ibrido
– On-Policy Cross-Stage Distillation per prevenire il catastrophic forgetting
Ma l’innovazione vera è l’infrastruttura RL che chiamano “slime”: sistema completamente asincrono che separa il training engine dall’inference engine su GPU diverse. Risultato? Miglioramento drastico nell’utilizzo GPU durante i rollout agentici. Supporta oltre 1.000 rollout concorrenti.
Per chi fa RL su task complessi, questo è il tipo di architettura che fa la differenza tra “ci mettiamo 3 mesi” e “ci mettiamo 3 settimane”.
Benchmark: quando i numeri parlano chiaro
Ragionamento e conoscenza generale
Humanity’s Last Exam (HLE): 30,5% base, 50,4% con strumenti. Per contesto: Claude Opus 4.5 con strumenti fa 49,1%. GLM-5 lo supera. Un modello open-source.
AIME 2026 I? 92,7%. HMMT Feb. 2025? 97,9%. HMMT Nov. 2025? 96,9%. GPQA-Diamond: 86,0%. LongBench v2: 64,5%.
Numeri che fino a sei mesi fa erano appannaggio esclusivo dei modelli proprietari top-tier.
Coding: dove GLM-5 brilla davvero
SWE-bench Verified: 77,8%. Primo tra i modelli open-source. Batte Gemini 3 Pro (76,2%). SWE-bench Multilingual: 73,3% – supera sia GPT-5.2 che Gemini 3 Pro.
Terminal-Bench 2.0: range 56,2-61,1%, paragonabile a Claude Opus 4.5. CyberGym: 43,2%.
Per chi lavora su task di software engineering reali, questi numeri significano: il gap tra open-source e proprietario si sta chiudendo velocemente.
Capacità agentiche: l’elefante nella stanza
BrowseComp: 75,9% con context management. Numero uno assoluto tra tutti i modelli testati. BrowseComp-ZH: 72,7%. tau2-Bench: 89,7%. MCP-Atlas: 67,8%.
Vending Bench 2 (task economici simulati): $4.432. Primo tra open-source, vicino a Claude Opus 4.5 con $4.967. GDPval-AA Elo: 1.409 – supera Claude Opus 4.5 su task economici, secondo solo a GPT-5.2.
Artificial Analysis Intelligence Index v4.0: GLM-5 ottiene 50 punti. Primo modello open-weight a raggiungere questa soglia, con un salto di 8 punti rispetto a GLM-4.7.
LMArena (UC Berkeley): modello numero uno open-source sia nella Text Arena che nella Code Arena.
CC-Bench-V2: i benchmark interni che fanno riflettere
Frontend engineering: il gap si chiude
Build Success Rate (BSR) su HTML/React/Vue: 98-100% per GLM-5 contro 65-70% di GLM-4.7. Check-item Success Rate (CSR): competitivo con Claude Opus 4.5 (71-77% vs 70-82%).
Instance Success Rate (ISR): ancora gap rispetto a Claude Opus 4.5 (33-39% vs 40-52%). Backend Engineering Pass@1: 25,8% – paragonabile a Claude Opus 4.5 con 26,9%.
Task long-horizon: dove c’è ancora strada
Repo Exploration: 65,6% – supera Claude Opus 4.5 (64,5%). Chained Tasks: 52,3% – sotto Claude Opus 4.5 (61,6%).
SWE-rebench (gennaio 2026): 42,1% resolved rate. Claude Opus 4.6: 52,9%. GPT-5.2 xhigh: 51,7%.
Per essere onesti: c’è ancora un gap sui task più complessi che richiedono pianificazione multi-step estesa. Ma la traiettoria è chiara.
Adattamento a chip cinesi: quando la geopolitica incontra l’engineering
GLM-5 è ottimizzato per sette piattaforme di chip cinesi: Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX ed Enflame.
Su Huawei Ascend Atlas 800T A3:
– Quantizzazione W4A8 mista: Attention e MLP usano W8A8, gli esperti MoE sono compressi a W4A8
– Kernel fusion personalizzati: Lightning Indexer, Sparse Flash Attention, MLAPO
– Performance: un singolo nodo cinese raggiunge prestazioni paragonabili a cluster dual-GPU internazionali, riducendo i costi del 50% in scenari a lunga sequenza
Tradotto: la dipendenza dall’hardware NVIDIA sta diventando opzionale, almeno per gli attori cinesi.
Pony Alpha: il test sul campo più onesto possibile
Prima del lancio ufficiale, GLM-5 è stato rilasciato anonimamente su OpenRouter con il nome “Pony Alpha”. Scopo? Testare le capacità reali del modello senza bias di brand.
Il modello è diventato rapidamente una sensazione nella community degli sviluppatori, in particolare per task di coding complessi, workflow agentici e roleplay.
Le supposizioni degli utenti? Il 25% lo scambiava per Claude Sonnet 5, il 20% per DeepSeek, il 10% per Grok. Quando è stato rivelato che era GLM-5, il momento è stato significativo per dimostrare la competitività dei modelli cinesi al livello frontier.
Nessun marketing. Nessun hype. Solo performance misurata da utenti reali su task reali.
Pricing e disponibilità: quando l’economico diventa competitivo
Prezzo API: circa $1,00 per milione di token in input, circa $3,20 per milione di token in output. Confrontatelo con Claude Opus 4.6: $5/$25.
Circa 5-8x più economico. Con performance comparabili o superiori su molti task.
Disponibile su: Z.ai, OpenRouter, Amazon Bedrock, Google Cloud Vertex AI e altri provider. Modelli supportati per self-hosting: vLLM, SGLang, KTransformers, xLLM.
Le azioni di Zhipu AI sono salite del 28-34% alla Hong Kong Stock Exchange dopo il lancio. Il mercato ha capito.
Limitazioni: perché l’onestà intellettuale conta
Nessun supporto multimodale nativo. Solo testo. Se avete bisogno di vision, guardate altrove.
Velocità di inferenza: 17-19 token/sec contro 25-30+ dei competitor su NVIDIA. Su Huawei Ascend le cose migliorano, ma su hardware standard è più lento.
Gap ancora presente su Terminal-Bench 2.0 rispetto ai modelli proprietari leader (8-9 punti di differenza). I task di sistema operativo complessi rimangono un’area dove i modelli proprietari mantengono un vantaggio.
La maggior parte dei benchmark proviene dalle valutazioni interne di Zhipu AI. Serve validazione indipendente più estesa per confermare le performance su larga scala.
Il futuro dell’AI open-source si gioca su efficienza e autonomia
GLM-5 dimostra qualcosa di importante: il gap tra modelli open-source e proprietari non è più una questione di se si chiuderà, ma di quando. E su alcuni task specifici – coding complesso, workflow agentici, task long-context – quel gap si sta già chiudendo.
L’architettura MoE, l’attenzione sparsa, la quantizzazione awareness, l’infrastruttura RL asincrona: queste non sono solo ottimizzazioni tecniche. Sono strategie per democratizzare l’accesso a capacità AI che fino a sei mesi fa erano appannaggio esclusivo di chi poteva permettersi cluster GPU da milioni di dollari.
E quando un modello con licenza MIT ottiene 50 punti sull’Artificial Analysis Intelligence Index, primo open-weight a raggiungere quella soglia, il messaggio è chiaro: l’intelligenza artificiale generale non sarà un monopolio proprietario.
Sarà distribuita. Sarà accessibile. E sarà più efficiente di quanto pensassimo possibile.
