Gemma 4 diventa 3 volte più veloce con Multi-Token Prediction

Poche settimane fa Google ha rilasciato Gemma 4, i suoi modelli open più potenti di sempre. Oltre 60 milioni di download nelle prime settimane – cifra che fa girare la testa. Oggi arriva l’aggiornamento che accelera tutto: i drafter Multi-Token Prediction (MTP).

Risultato? Velocità fino a 3x superiore, senza perdere un briciolo di qualità o logica. Stesso ragionamento, stesso output, metà del tempo d’attesa.

Il problema: la memoria è il collo di bottiglia

L’inferenza LLM standard ha un limite fisico: è vincolata dalla banda di memoria. Il processore passa la maggior parte del tempo a spostare miliardi di parametri dalla VRAM alle unità di calcolo solo per generare un singolo token. Il risultato? Compute sotto-utilizzato e latenza alta, specialmente su hardware consumer.

Pensate a quanto è frustrante: la GPU potrebbe fare molto di più, ma resta lì ad aspettare che i dati arrivino.

La soluzione: speculative decoding

Lo speculative decoding separa la generazione dalla verifica. Come funziona? Accoppia un modello pesante (tipo Gemma 4 31B) con un drafter leggero (il modello MTP). Mentre il modello principale processa un token, il drafter ne “predice” diversi in anticipo – usando il compute che altrimenti resterebbe inattivo.

Poi il modello principale verifica tutti i token suggeriti in parallelo. Se approva la sequenza, l’output arriva tutto insieme in un singolo forward pass. Anzi, genera pure un token extra nel processo.

Tradotto: la vostra app può produrre l’intera sequenza draftata più uno in meno tempo di quanto impiegherebbe normalmente per generarne uno solo.

Perché questo cambia tutto

La velocità di inferenza è spesso il bottleneck per il deployment in produzione. Che stiate costruendo coding assistant, agenti autonomi che richiedono planning rapido multi-step, o app mobile che girano completamente on-device, ogni millisecondo conta.

Cosa ottengono gli sviluppatori accoppiando Gemma 4 col suo drafter:

Responsività immediata – Latenza drasticamente ridotta per chat near-real-time, applicazioni vocali immersive, workflow agentici
Sviluppo locale potenziato – I modelli 26B MoE e 31B Dense girano su PC personali e GPU consumer con velocità senza precedenti. Coding offline e workflow agentici complessi diventano fluidi
Performance on-device migliorate – I modelli E2B ed E4B su edge device generano output più velocemente, preservando batteria preziosa
Zero degradazione – Il modello Gemma 4 principale mantiene la verifica finale. Stesso ragionamento frontier-class, stessa accuratezza. Solo consegnato molto più velocemente

I numeri parlano chiaro

Gemma 4 26B su NVIDIA RTX PRO 6000: inferenza standard vs drafter MTP. Stessa qualità di output, metà del tempo d’attesa.

Test condotti su hardware usando LiteRT-LM, MLX, Hugging Face Transformers e vLLM mostrano aumenti tokens-per-second impressionanti. Il modello 26B mixture-of-experts presenta sfide uniche di routing a batch size 1 su Apple Silicon, ma processare richieste multiple simultaneamente (batch size 4-8) sblocca speedup fino a ~2.2x localmente. Gain simili su Nvidia A100 aumentando batch size.

Come funziona sotto il cofano

Per rendere questi drafter MTP eccezionalmente veloci e accurati, Google ha introdotto diversi miglioramenti architetturali. I draft model utilizzano le attivazioni del target model e condividono la sua KV cache – non devono perdere tempo ricalcolando contesto che il modello più grande ha già elaborato.

Per i modelli edge E2B ed E4B, dove il calcolo del logit finale diventa un grosso bottleneck, hanno implementato una tecnica di clustering efficiente nell’embedder per accelerare ulteriormente la generazione.

Come iniziare

I drafter MTP per la famiglia Gemma 4 sono disponibili oggi sotto la stessa licenza open-source Apache 2.0 di Gemma 4. Potete scaricare i model weights subito su Hugging Face e Kaggle, e iniziare a sperimentare inference più veloce con transformers, MLX, VLLM, SGLang e Ollama. Oppure provarli direttamente su Google AI Edge Gallery per Android o iOS.

Google ha pubblicato anche un explainer tecnico approfondito che spiega l’architettura visuale, il KV cache sharing e gli embedder efficienti che alimentano questi drafter.

Licenza Apache 2.0 significa: fate quello che volete. Usatelo commercialmente, modificatelo, integratelo nei vostri prodotti. Zero vincoli.