Xiaomi MiMo-V2.5-Pro-UltraSpeed: 1000 token al secondo su un modello da 1 trilione di parametri

Ci sono velocità che cambiano le regole del gioco. E poi c’è questa: 1000 token al secondo su un modello da 1 trilione di parametri. Sì, avete letto bene. Xiaomi e TileRT hanno appena rotto una barriera che sembrava fantascienza anche solo sei mesi fa.

MiMo-V2.5-Pro-UltraSpeed non è solo ‘più veloce’. È un cambio di paradigma. Perché quando un’IA ragiona a questa velocità, smette di essere uno strumento che aspetti e diventa qualcosa di diverso: un’estensione del tuo stesso pensiero. Risposte in tempo reale, iterazioni istantanee, collaborazione senza attrito.

Accesso limitato, ma con uno scopo

L’API di MiMo-V2.5-Pro-UltraSpeed è disponibile da oggi, ma con un modello particolare: costa 3 volte la versione Pro normale, ma offre circa 10 volte la velocità di generazione. Tradotto? Paghi il triplo, ottieni un’esperienza dieci volte superiore.

C’è un però. Le risorse per inferenza ad alta velocità sono limitate — questa roba richiede hardware serio — quindi l’accesso è su approvazione. Il periodo di prova va dal 9 al 23 giugno 2026 (ora di Pechino, UTC+8). Xiaomi ha chiarito che darà priorità ad aziende e sviluppatori professionali con esigenze reali di business. Per candidarsi: platform.xiaomimimo.com/ultraspeed.

Gli utenti approvati ricevono anche accesso gratuito alla chat durante il trial (ultraspeed.xiaomimimo.com), con alcune regole per mantenere equità e qualità: massimo 10 accessi in coda al giorno, sessioni limitate a 30 minuti, disconnessione automatica dopo 5 minuti di inattività.

1000 token/s: non è solo velocità, è intelligenza

Superare i 1000 tps su un modello da un trilione di parametri non significa solo ‘scrivere più in fretta’. Significa ridisegnare cosa un’IA può fare.

Primo punto: la velocità stessa diventa intelligenza. Prima, di fronte a un problema complesso, potevi solo ‘aspettare una risposta e sperare fosse giusta’. Ora, nello stesso tempo, il modello può eseguire decine di percorsi di ragionamento in parallelo (Best-of-N, Tree Search), verificare automaticamente, autocorreggersi — usando la velocità bruta per generare profondità di pensiero. Risultato? Qualità del ragionamento più alta.

Secondo: sblocca completamente il soffitto produttivo dei Coding Agent. Generare codice con l’IA significava guardare lo schermo aspettando che l’inferenza finisse. A 1000 tps, la velocità di generazione del codice subisce un’accelerazione di paradigma.

Ma il punto più importante è un altro. I modelli da trilione di parametri possono ora entrare in loop decisionali in tempo reale. Cicli ‘pensa-rispondi’ da millisecondi permettono ai flagship da 1T di inserirsi in scenari critici per il tempo: trading quantitativo ad alta frequenza, intercettazione antifrode istantanea, bidding intelligente, dialogo interattivo real-time.

E quando questa potenza arriva all’assistenza chirurgica e all’analisi di imaging medico in situazioni di vita o di morte? La velocità dell’IA non è più solo una metrica di efficienza. Diventa una fiches nella corsa contro la morte.

In sala operatoria, ogni secondo che l’IA risparmia completando l’analisi di una lesione e la previsione del rischio dà al chirurgo un grado di libertà in più. Xiaomi lo dice chiaramente: ‘Il significato ultimo della velocità non è solo aumentare la produttività, ma permettere alla tecnologia di aiutare l’umanità a vivere meglio’. E per una volta, non suona come marketing.

Codesign estremo: modello e sistema che si fondono

Raggiungere oltre 1000 token/s con un modello flagship da 1T non è il risultato di una singola tecnica. È il prodotto di una collaborazione profonda e di un Codesign estremo tra il team del modello MiMo e il team di sistema TileRT.

L’approccio dell’industria per velocità simili si basa tipicamente su hardware specializzato: l’integrazione Wafer-Scale di Cerebras o l’architettura custom con SRAM on-chip pura di Groq. Xiaomi e TileRT hanno scelto una strada diversa: raggiungere velocità di inferenza ancora più impressionanti su GPU commodity attraverso il solo codesign modello-sistema.

Tradotto: niente chip esotici. Solo GPU standard, spremute fino all’ultima goccia.

FP4 quantization: comprimere senza perdere

Alla scala del trilione di parametri, l’inferenza tradizionale a 8-bit (FP8 / INT8) o 16-bit impone una pressione proibitiva su memoria e bandwidth. Ridurre la larghezza di bit dei parametri contribuisce direttamente alla velocità di decodifica. Quindi hanno adottato il formato di quantizzazione FP4 (MXFP4), ampiamente validato e praticamente lossless.

Ma applicare FP4 ingenuamente all’intero modello causa degradazione in ragionamento complesso, logica, generazione di codice. Dato che MiMo-V2.5-Pro ha un’architettura MoE (Mixture of Experts) — dove gli Expert costituiscono la stragrande maggioranza dei parametri e mostrano la massima tolleranza alla quantizzazione — hanno quantizzato selettivamente solo gli MoE Expert a FP4, preservando la precisione originale per tutti gli altri moduli.

Attraverso FP4 QAT (Quantization-Aware Training), hanno ridotto drasticamente le dimensioni del modello e massimizzato l’utilizzo del bandwidth hardware mantenendo le capacità del modello essenzialmente alla pari con l’originale. I benchmark lo confermano: FP4 su Expert MoE vs FP8, capacità complessiva sostanzialmente identica.

DFlash speculative decoding: indovinare in parallelo

Lo Speculative Decoding tradizionale si basa su un piccolo draft model che ‘indovina’ i token successivi, che il modello grande poi verifica. Questo trasforma la generazione autoregressiva (1 token per forward pass) in generazione parallela multi-token, con rejection sampling durante la verifica per garantire output lossless.

Il collo di bottiglia? La qualità del draft model determina l’acceptance rate, ma un draft model più forte comporta overhead computazionale più alto. Tensione fondamentale.

Per rompere questo stallo, hanno adottato DFlash, un metodo innovativo di predizione parallela mascherata a livello di blocco: il draft model riempie un intero blocco di posizioni mascherate in un singolo forward pass, eliminando fondamentalmente il vincolo seriale del ‘drafting autoregressivo’.

L’hanno implementato su MiMo-V2.5-Pro con ottimizzazioni custom per MoE su scala trilione e scenari long-context. Usando l’ottimizzatore del secondo ordine Muon e model self-distillation, garantiscono che blocchi mask compatti forniscano ancora acceptance rate ideali comprimendo l’overhead della fase draft quasi al minimo teorico.

I risultati? Acceptance length significativi negli scenari ad alto valore come agent e coding. Nel coding, acceptance length media di 6.30, con alcuni sample che raggiungono 7.14 — cioè 6-7 token su 8 draft vengono accettati per round di verifica. Il draft model rimane leggero spingendo gli acceptance rate a livelli che danno guadagni end-to-end reali.

Notano anche che in scenari di conversazione generale, con maggiore divergenza semantica e incertezza, gli acceptance rate attuali non sono ancora alti. Stanno continuando a ottimizzare.

TileRT: spremere i microsecondi

Se le innovazioni algoritmiche di MiMo sbloccano i vincoli di bandwidth dei modelli da centinaia di miliardi e trilioni di parametri, il sistema di inferenza TileRT spreme ogni ultima goccia di potenziale fisico dalle GPU commodity fino al livello dei microsecondi.

A 1000 token/s di frequenza operativa, il ciclo di vita di ogni operatore è compresso a microsecondi, e i ‘confini degli operatori’ dei sistemi di inferenza tradizionali diventano il collo di bottiglia core. Ogni lancio di operatore, sincronizzazione hardware, round-trip di memoria globale frattura il flusso di esecuzione alla scala dei microsecondi, esponendo visibili ‘Execution Gap’.

TileRT introduce un modello di esecuzione completamente nuovo che elimina gli execution gap dai confini degli operatori alla radice: Persistent Engine Kernel. Scartano completamente il paradigma tradizionale di lancio per-operatore, mantenendo l’intera pipeline computazionale persistentemente residente e fluida dentro la GPU. Questo abilita prefetching continuo full-pipeline — mentre il Tile corrente sta ancora computando sui Tensor Core, i dati successivi stanno già fluendo attraverso la gerarchia di memoria. Sovrapposizione estrema tra movimento dati e computazione.

Warp Specialization: a livello Tile, comunicazione, movimento dati e computazione tensoriale sono fisicamente decomposti con granularità più fine. Rompono il modello di esecuzione lock-step omogeneo: diversi Warp (gruppi di thread) e persino domini di esecuzione eterogenei attraverso l’intera GPU operano indipendentemente ma in coordinazione precisa. La GPU si trasforma in un sistema di esecuzione eterogeneo in flusso continuo, precisamente orchestrato.

E quando il modello di esecuzione sottostante spinge le prestazioni hardware ai suoi limiti, l’ottimizzazione pura del runtime inizia a colpire confini fisici. Su questa base, il team di sistema TileRT e il team MiMo di Xiaomi hanno ingaggiato una co-creazione tecnica profonda. Il livello modello ha adottato una strategia di quantizzazione FP4 mista per MoE Expert e implementato DFlash speculative decoding allineato con SWA sull’architettura da trilione di parametri. TileRT si accoppia strettamente con queste caratteristiche algoritmiche e schemi di quantizzazione, fornendo motori di compilazione e kernel computazionali costruiti su misura.

La nascita dei 1000 token/s non è una coincidenza di ottimizzazioni puntuali. È il risultato inevitabile di un’infrastruttura di sistema di classe mondiale e modelli algoritmici estremi che convergono profondamente l’uno verso l’altro, co-evolvendo come un’unica entità.

Demo che parlano da sole

Costruire un gioco Snake in 10 secondi. Ricreare un’interfaccia MacOS in 1 minuto. Questi non sono benchmark sintetici, sono casi d’uso reali che mostrano cosa significa avere un modello che genera codice alla velocità del pensiero.

Open source e prospettive

Xiaomi ha rilasciato il checkpoint MiMo-V2.5-Pro-FP4-DFlash su HuggingFace, inclusi i pesi quantizzati FP4 e i parametri del modello DFlash. È disponibile per la community: huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash.

Il supporto UltraSpeed per MiMo-V2.5 è in arrivo. Nel frattempo, questa release segna un punto: MiMo × TileRT, codesign estremo modello-sistema, 1000 tps su modelli da trilione di parametri. Su GPU commodity.

La velocità non è più un lusso. È diventata la condizione necessaria per far funzionare l’intelligenza artificiale nel mondo reale. E questo è solo l’inizio.