DeepSeek V4: un milione di token e chip cinesi

Il 24 aprile 2026 DeepSeek ha rilasciato la preview di V4 — quarta generazione della loro serie flagship. Due modelli, entrambi open-source: V4-Pro (1,6 trilioni di parametri, 49 miliardi attivati) e V4-Flash (284 miliardi di parametri, 13 miliardi attivati). Supporto nativo per contesto da 1 milione di token. Tre modalità di ragionamento: risposta rapida, bilanciato, massimo sforzo.

Hybrid attention: meno FLOPs, meno cache

La vera novità architettonica sta nel meccanismo di attenzione ibrido. DeepSeek combina Compressed Sparse Attention (CSA) — che comprime il KV cache ogni m token e poi applica sparse attention — con Heavily Compressed Attention (HCA), compressione ancora più aggressiva. Risultato pratico su contesto da 1M token: V4-Pro usa solo il 27% dei FLOPs e il 10% del KV cache rispetto a V3.2. V4-Flash scende al 10% dei FLOPs e 7% del cache. Numeri che, se confermati, cambiano parecchio l’economia della gestione di contesti lunghi.

Manifold-constrained connections e optimizer Muon

Altro cambiamento: via le connessioni residuali standard, dentro le Manifold-Constrained Hyper-Connections (mHC) — vincolano la matrice di trasformazione al manifold delle matriche doppiamente stocastiche. Tradotto: propagazione del segnale più stabile durante training su miliardi di parametri. E poi c’è Muon, optimizer basato su iterazioni Newton-Schulz che sostituisce AdamW per la maggior parte dei parametri. Convergenza più rapida, dicono.

Pre-training: 32-33 trilioni di token

V4-Flash addestrato su 32 trilioni di token, V4-Pro su 33 trilioni. Mix di web, codice, matematica, paper scientifici, materiale long-document. Lunghezza di sequenza crescente durante training: da 4K fino a 1M token. Vocabolario da 128K token, stesso di V3.

Post-training: distillazione da modelli esperti

Qui cambiano approccio rispetto al RL classico. On-Policy Distillation (OPD): più di dieci modelli esperti specializzati (matematica, coding, agent, instruction following) vengono addestrati separatamente con SFT + GRPO. Poi un singolo modello unificato viene distillato da tutti minimizzando la KL divergence inversa sui logit completi del vocabolario. Gradients più stabili rispetto all’approssimazione token-level, sostengono.

Benchmark (con le dovute cautele)

Numeri autovalutati da DeepSeek — le verifiche indipendenti sono ancora in corso:

  • SimpleQA Verified: 57,9% (Claude Opus 4.6 fa 46,2%, Gemini 3.1 Pro 75,6%)
  • GPQA Diamond: 90,1%
  • LiveCodeBench: 93,5%
  • Codeforces rating: 3206 — primo modello open-source a questo livello, equivalente al 23° posto tra candidati umani
  • HMMT 2026 Feb: 95,2%
  • SWE-Verified: 80,6% (pari a GPT-5.4 e Claude Opus 4.6)
  • Putnam-2025: 120/120 proof-perfect

Su contesto lungo (1M token): supera Gemini 3.1 Pro in MRCR e CorpusQA, ma resta sotto Claude Opus 4.6. Su coding R&D: 67% pass rate contro 70% di Claude Opus 4.5 e 80% di Opus 4.6 Thinking.

Pricing: il più economico della categoria

V4-Flash: $0,14/M token input, $0,28/M output. V4-Pro: $1,74/M input, $3,48/M output. V4-Flash diventa il modello small più economico sul mercato; V4-Pro il più economico tra i frontier di fascia alta.

Chip cinesi: Huawei Ascend 950 e Cambricon

A differenza di R1 (addestrato su hardware Nvidia), V4 è stato sviluppato con chip cinesi: Huawei Ascend 950 (tecnologia Supernode) e chip di Cambricon. Segnale rilevante sul fronte dell’indipendenza tecnologica cinese dall’ecosistema Nvidia — anche se va verificato quanto questa scelta sia stata dettata da necessità (sanzioni) o strategia volontaria.

Accuse di distillazione e tensioni geopolitiche

OpenAI e Anthropic hanno accusato DeepSeek di aver usato tecniche di distillazione non autorizzate dai loro modelli. Il 23 aprile 2026, il White House OSTP ha denunciato campagne su scala industriale di distillazione da modelli frontier USA da parte di entità straniere — senza nominare esplicitamente DeepSeek, ma il riferimento sembrava trasparente. DeepSeek nega, ma la questione resta aperta.

Contesto competitivo: V4 non è il nuovo R1

Analisti come Ivan Su (Morningstar) ritengono che V4 sia una versione competente ma non rivoluzionaria come lo fu R1 nel gennaio 2025. I mercati hanno già assorbito la realtà della competitività cinese nell’AI — il fattore sorpresa non c’è più. La concorrenza domestica cinese si è intensificata: Alibaba, ByteDance, Kimi (MiniMax), Zhipu sono tutti player attivi con rilasci recenti.

Note finali

Il rilascio è etichettato come “preview”. DeepSeek stessa ammette che l’architettura è complessa e intende semplificarla nelle versioni future. I benchmark riportati sono in larga parte autovalutazioni interne — le valutazioni indipendenti sono ancora in corso. V3 e V3.2 verranno ritirati il 24 luglio 2026.