Gemma 4: Google sgancia i modelli open più potenti di sempre

Allora, preparatevi. Google ha appena rilasciato Gemma 4 – e no, non è il solito aggiornamento incrementale dove changelog dice “performance improvements” e tu non vedi mezza differenza. Questa volta parliamo di modelli che si piazzano terzo posto assoluto nelle classifiche mondiali. Terzo. Battendo roba proprietaria che costa abbonamenti mensili.

I numeri che contano (e la licenza che fa la differenza)

Quattro varianti: E2B, E4B, 26B MoE e 31B Dense. Il 31B è #3 su Arena AI – davanti a modelli 20 volte più grossi. Il 26B è sesto. Capito? Sesto posto mondiale, open source, gratis.

Però sapete cosa mi ha fatto alzare le sopracciglia? La licenza. Apache 2.0 – che per chi non mastica legalese tech significa: fate quello che volete. Usatelo commercialmente, modificatelo, integratelo nei vostri prodotti, vendete servizi basati su questo. Zero vincoli, zero clausole nascoste. Niente di quel “open weights but don’t you dare use it commercially” che vediamo in giro.

Cosa sanno fare (davvero)

Multi-step reasoning? Check. Function calling nativo? Check. Output JSON strutturato? Incluso. Multimodale con video, immagini, audio? Tutto dentro. Context window da 256K sui modelli grossi – traducendo: ci infilate repository interi o documenti lunghi senza problemi.

I modelli edge (E2B/E4B) girano completamente offline su telefoni. Non “tecnicamente possibile con ottimizzazioni assurde” – proprio nativamente, zero latenza, senza mandare dati altrove. Google ha collaborato con Qualcomm e MediaTek per farli girare persino su Raspberry Pi.

Il trucco tecnico

Il 26B è un Mixture of Experts che attiva solo 3.8 miliardi di parametri durante l’inferenza. Risultato? Velocità pazzesca mantenendo qualità alta. Il 31B Dense invece massimizza la qualità grezza – perfetto per fine-tuning su task specifici.

Pesi non quantizzati in bfloat16 che entrano su una singola H100 da 80GB. Versioni quantizzate che girano su GPU consumer normali. Hanno pensato alla distribuzione hardware reale, non ai benchmark da paper.

L’ecosistema (che esiste già)

Supporto day-one per: Hugging Face, vLLM, llama.cpp, Ollama, NVIDIA NIM, LM Studio, Unsloth. Potete scaricare i pesi da Hugging Face, Kaggle o Ollama e partire. Google AI Studio per prototipare veloce, Vertex AI per scalare in produzione, ML Kit per Android se sviluppate app mobile.

Deployment? Scegliete voi. Local inference per uso offline, Google Cloud se dovete scalare senza limiti, TPU se vi serve efficienza massiccia. Oppure NVIDIA (da Jetson Orin Nano a Blackwell GPUs), AMD via ROCm, quello che avete già.

Casi d’uso reali

INSAIT ha creato BgGPT – primo language model bulgaro serio. Yale University ha usato Gemma per Cell2Sentence-Scale, scoprendo nuove vie per terapie contro il cancro. Non esempi teorici da keynote – progetti pubblicati, verificabili.

Android Studio ora ha Agent Mode powered by Gemma. Potete buildare IDE assistants che girano completamente in locale. Code generation offline di alta qualità – il vostro laptop diventa assistente AI senza mandare codice proprietario su server esterni.

Cosa manca (perché va detto)

Perfetto? No. Multimodale nativo è impressionante ma OCR e chart understanding – per quanto migliorati – hanno ancora momenti strani con layout complessi o grafici molto densi. Context window da 256K è notevole ma attenzione: performance degrada verso gli estremi della finestra, come tutti i modelli long-context.

E i modelli edge, per quanto ottimizzati, restano 2B e 4B parameters effective. Aspettatevi capacità reasoning inferiori ai fratelli maggiori – il compromesso per girare su telefoni è reale.

Verdetto tecnico

Google ha fatto la mossa giusta. Apache 2.0 elimina l’ambiguità legale che frena adozione enterprise. Performance competitive con modelli proprietari. Hardware requirements realistici. Ecosystem già maturo.

Scaricabile ora, utilizzabile commercialmente, deployment flessibile. Se stavate aspettando un modello open “serio” per progetti production – ecco, questo lo è. 400 milioni di download della generazione precedente suggeriscono che l’adoption ci sarà. La domanda non è se usarlo, ma su quale hardware deployarlo.