Gemma 4 QAT: quando 1GB basta per far girare un modello multimodale sul telefono

Google DeepMind ha rilasciato le versioni QAT (Quantization-Aware Training) di Gemma 4. Tradotto dal tecnico all’umano: hanno compresso i modelli fino a farli stare in 1GB, mantenendoli utilizzabili su telefoni e laptop normali. Non quelli da duemila euro con 32GB di RAM — quelli che avete in tasca ora.

Due mesi dopo il lancio di Gemma 4, il team ha già rilasciato Multi-Token Prediction per velocizzare l’inferenza, un modello da 12B per riempire il buco tra E4B e il 26B MOE, e ora questi checkpoint QAT. Ritmo frenetico, diciamo.

Quantizzazione durante il training, non dopo

La quantizzazione standard (PTQ, Post-Training Quantization) comprime il modello dopo averlo addestrato. Funziona, ma perde qualità. Il QAT simula la compressione durante il training stesso — il modello impara già sapendo che verrà compresso. Risultato? Meno degradazione, più qualità finale rispetto al PTQ classico.

Hanno applicato questa ricetta al formato Q4_0 (popolare nell’ecosistema llama.cpp) per tutti i modelli. Per i modelli edge — E2B e E4B — hanno fatto di più: uno schema di quantizzazione mobile-specific, pensato per i processori ARM dei telefoni.

1GB. Sì, avete letto bene

Gemma 4 E2B in versione text-only con quantizzazione mobile pesa meno di 1GB. Un gigabyte. Meno dello spazio che occupano tre episodi di una serie Netflix scaricati in HD.

I requisiti di VRAM per caricare i modelli quantizzati scendono drammaticamente rispetto alle versioni standard. Non danno tabelle precise nell’articolo, ma l’implicazione è chiara: questi modelli girano su hardware consumer senza fare fumo.

Come hanno ottimizzato per il mobile

I formati di compressione standard non sono amici dei processori mobile. Google ha progettato uno schema custom con quattro trucchi principali:

Attivazioni statiche. Invece di calcolare gli scaling factor al volo (che brucia cicli di CPU), li pre-calcolano durante il training. Il chip fa meno lavoro, le risposte arrivano prima.

Quantizzazione channel-wise. Hanno strutturato i dati compressi per combaciare con l’architettura degli acceleratori mobile. Il processore può eseguire i calcoli nativamente, senza conversioni lente.

Quantizzazione a 2 bit mirata. Le parti del modello che generano i token — quelle che ‘parlano’ — sono compresse pesantemente a 2 bit. I layer di ragionamento core restano a precisione più alta. Meno spazio, stessa intelligenza. O almeno, questo è l’obiettivo.

Ottimizzazione di embedding e KV cache. Hanno compresso il vocabolario del modello e la sua memoria a breve termine. Questo riduce la memoria attiva — potete fare conversazioni lunghe senza riempire la RAM.

Bonus: gli encoder audio e vision sono opzionali. Se vi serve solo il testo, potete deployare solo quello. Meno di 1GB, appunto.

Dove scaricarli e come usarli

I checkpoint sono già su Hugging Face, in due formati: Q4_0 (GGUF per llama.cpp, compressed tensors per vLLM) e mobile (per deployment edge). Per tutto il resto, forniscono checkpoint non quantizzati che potete convertire.

Sul desktop, potete usare llama.cpp, Ollama o LM Studio — interfacce user-friendly per scaricare e far girare i modelli localmente. Su device mobile, c’è LiteRT-LM di Google (runtime leggero per edge) o Transformers.js per eseguirli direttamente nel browser.

Per chi serve modelli più grossi, SGLang e vLLM sono supportati. Su Apple Silicon c’è MLX. I checkpoint MTP QAT preservano lo speedup di Multi-Token Prediction anche quantizzando. Potete anche fare fine-tuning con Hugging Face Transformers e Unsloth.

Perché tutto questo conta

Un modello multimodale in 1GB che gira su un telefono medio apre scenari nuovi. Non serve cloud, non serve connessione, non serve GPU dedicata. Privacy locale, zero latenza di rete, costi di inferenza azzerati.

Perfetto? Probabilmente no. La quantizzazione a 2 bit sui layer di generazione lascerà cicatrici in alcuni task — ne siamo sicuri. Ma se il trade-off è ‘gira ovunque con qualità accettabile’ contro ‘è perfetto ma devi affittare una A100’, sappiamo già quale versione userà la maggior parte degli sviluppatori.

Google sta spingendo Gemma 4 con rilasci continui e rapidi. Due mesi, tre update maggiori. Il messaggio è chiaro: vogliono presidiare l’edge, prima che qualcun altro lo faccia meglio.