Ollama 0.19: MLX porta velocità folle su Apple Silicon (e finalmente NVFP4)

Ok, questo mi ha fatto alzare le sopracciglia. Ollama 0.19 arriva con MLX – il framework machine learning di Apple – e i numeri sono… boh, impressionanti non rende l’idea.

I numeri che contano

Prefill: da 1154 a 1810 token/s. Decode: da 58 a 112 token/s. Sì, avete letto bene – quasi il doppio sulla generazione. Testato su M5/Pro/Max con Qwen3.5-35B-A3B, il modello da 35 miliardi di parametri di Alibaba (quello con licenza Apache 2.0, per chi si stesse già preoccupando).

La parte interessante? Questi sono numeri con NVFP4. La versione int4 pura – che arriverà nella release finale – tocca 1851 token/s in prefill e 134 in decode. A quel punto stiamo parlando di velocità che fanno sembrare vecchio un setup che ha sei mesi.

MLX e quella unified memory di Apple

Qui c’è il trucco tecnico – MLX sfrutta l’architettura a memoria unificata dei chip Apple. CPU e GPU accedono alla stessa RAM, zero copie di dati avanti e indietro. Per chi ha un M5/Pro/Max, c’è pure il bonus: i nuovi GPU Neural Accelerators (che, tradotto, sono acceleratori hardware specifici per ML) danno una spinta sia al time-to-first-token che alla velocità di generazione.

Praticamente: chip progettati per questo, framework che ci gira nativamente sopra, zero overhead. Ed è per questo che i numeri sono così diversi dalla versione 0.18.

Cosa significa in pratica

Claude Code, OpenClaw, tutti questi coding agent che girano su Ollama – ora rispondono tipo… subito. Non “aspetta che penso”, proprio “eccoti la risposta mentre stavi ancora finendo di scrivere la domanda”.

Personal assistant che elaborano contesto pesante? Stesso discorso. La differenza tra 58 e 112 token/s nella generazione è quella tra “sto leggendo la risposta mentre arriva” e “ok questa è fluida come se stessi chattando con un umano veloce”.

NVFP4: il formato che mancava

E qui arriviamo alla parte che mi interessa davvero. Ollama adotta NVFP4 – il formato di quantizzazione di NVIDIA che mantiene accuracy mentre taglia memoria e storage.

Perché è importante? Production parity. Se state testando un workflow su Ollama con NVFP4 e poi lo deployate su un provider cloud che usa NVFP4… ottenete gli stessi identici risultati. Zero sorprese, zero “ma sul mio Mac funzionava diversamente”.

Bonus: si apre la porta ai modelli ottimizzati con il model optimizer di NVIDIA. Che tradotto significa: potenzialmente accesso a modelli ancora più veloci e precisi, ottimizzati specificamente per questo formato.

Cache intelligente (finalmente)

La parte sottovalutata di questo update: hanno riscritto il sistema di caching. E qui ci sono tre migliorie che fanno differenza vera:

  • Riuso cross-conversazione – La cache sopravvive tra sessioni diverse. Se usate Claude Code con lo stesso system prompt, la seconda volta è istantanea. Meno RAM sprecata, più hit sulla cache quando fate branching.
  • Checkpoint intelligenti – Invece di riprocessare tutto il prompt ogni volta, Ollama piazza snapshot in punti strategici. Risultato: meno lavoro, risposte più veloci.
  • Eviction furba – I prefissi condivisi (tipo system prompt comuni) restano in cache più a lungo, anche quando branch più vecchi vengono droppati.

Tradotto: se state usando coding agent che condividono tool e istruzioni base, la seconda richiesta è mostruosamente più veloce della prima.

Come provarlo

Serve un Mac con almeno 32GB di RAM unificata – il modello è grosso e sotto quella soglia probabilmente vi ritroverete a swappare su disco (che vanifica tutto il punto di MLX).

Comandi veloci:

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
ollama run qwen3.5:35b-a3b-coding-nvfp4

Il modello è ottimizzato per coding task – sampling parameters già settati. Giusto scaricare e partire.

Quello che manca (per ora)

Al momento supportano Qwen3.5-35B-A3B in preview. Altri modelli arriveranno – stanno lavorando su architetture aggiuntive e su un modo più semplice per importare modelli custom fine-tuned.

Se avete fatto fine-tuning su architetture già supportate, aspettatevi un sistema di import semplificato. Per gli altri… pazienza, espanderanno la lista.

Perché questo rilascio conta

Non è solo velocità (anche se quella da sola basterebbe). È:

  • Production parity con NVFP4 – quello che testate localmente è quello che gira in produzione
  • Accesso ai Neural Accelerators di M5 – hardware che prima era sottoutilizzato
  • Cache che finalmente si comporta come dovrebbe in scenari agentic
  • Foundation per supportare modelli ottimizzati da NVIDIA

Se avete un Mac con chip M-series recente e usate Ollama per coding o agent work… questo update cambia le carte in tavola. Non è hype, sono quasi 2x di velocità misurabile su task reali.

La versione 0.19 è già disponibile per download. E sì, quel “preview” nel titolo significa che potrebbero esserci edge case strani – ma i numeri sono solidi abbastanza da provarci.