OpenVINO porta l’NPU di Intel nei modelli LiteRT: Gemma vola, la batteria ringrazia

L’AI on-device ha un problema: consuma una valanga di risorse. E quando il vostro laptop cerca di far girare un LLM decente, la batteria si scioglie più velocemente del gelato a luglio.

Intel e Google hanno deciso di risolvere la questione dalla radice. Non con ottimizzazioni incrementali, ma portando l’NPU — quel chip AI dedicato che Intel ha infilato nei Core Ultra — direttamente nelle mani degli sviluppatori che usano LiteRT, il framework on-device di Google.

L’NPU: quel chip di cui nessuno parlava

I processori Intel Core Ultra hanno questo componente integrato, l’NPU appunto, progettato specificamente per l’inferenza AI. Il punto è che finora non era esattamente facile sfruttarlo. Bisognava districarsi tra driver, backend, hardware complexity varia.

Adesso no. Grazie all’integrazione tra LiteRT e OpenVINO — il toolkit di Intel per l’ottimizzazione AI — gli sviluppatori hanno un’API unificata che funziona sia su Windows che su Linux. LiteRT delega le operazioni supportate al backend OpenVINO, che le ottimizza e le esegue sull’NPU. Punto.

Quanto è veloce? E quanto risparmia?

Prendiamo Gemma 4 E2B, un modello multimodale leggero che gira in locale. Su un Intel Core Ultra Series 3, il backend OpenVINO ottiene ~1.3x di speed-up rispetto a LiteRT WebGPU. Già interessante.

Ma il vero colpo di scena è l’efficienza energetica: 2.8x di miglioramento in performance per watt rispetto alla GPU. Tradotto: fate girare il vostro LLM locale senza che il laptop vi frigga le gambe o vi lasci a piedi dopo un’ora.

Più di 90 modelli classici del catalogo LiteRT girano tranquillamente sull’NPU. E circa 45 modelli — il 50% del totale — completano l’inferenza in meno di 5ms. Sul CPU ne arrivavano solo 4. La differenza tra ‘fattibile’ e ‘utilizzabile davvero’.

Gemma 4 E2B: il caso d’uso concreto

Scenario reale: siete in videoconferenza. La GPU è già occupata con l’encoding video. Volete una trascrizione live o una risposta rapida da un LLM mentre parlate.

Con l’approccio tradizionale, la GPU cerca di fare tutto, si surriscalda, il sistema throttla, la batteria crolla. Con l’NPU che gestisce Gemma 4 in parallelo, la videoconferenza va liscia, il modello risponde, e il sistema resta freddo. Su un Core Ultra 7 355, l’NPU lavora a meno della metà della potenza della GPU e tira fuori 1.3x il throughput nel prefill degli LLM.

Anche sui sistemi flagship come il Core Ultra X7 358H con 12 Xe cores, l’NPU tiene il passo con la GPU in decode throughput ma consuma 3x meno energia. Perfetto per gli scenari gaming: GPU dedicata al rendering, NPU che gestisce l’assistente AI per comunicazione e strategia real-time. Zero compromessi.

Embedding Gemma: ricerca semantica senza cloud

308 milioni di parametri, supporto per oltre 100 lingue, ottimizzato per retrieval e RAG on-device. Embedding Gemma gira 20x più veloce della CPU, con inferenza a 12.8ms. Il tipo di performance che rende possibile la ricerca semantica locale senza mandare i vostri dati a un server da qualche parte.

Come si usa nella pratica

L’integrazione supporta sia compilazione Just-in-Time che Ahead-of-Time. In Python, il codice è quasi imbarazzante per quanto è diretto:

Caricate il modello .tflite, specificate che volete l’NPU come acceleratore, configurate le opzioni OpenVINO (modalità throughput, cache directory), e via. Create i buffer di input/output, riempite l’input, chiamate run, leggete l’output. Fatto.

Per l’AOT, ancora più semplice: chiamate aot_compile specificando il target Intel (Panther Lake o Lunar Lake), e ottenete un blob ottimizzato pronto per il deployment.

Demo: Page Summarizer con tool calling

Google e Intel hanno preparato una demo pratica: un summarizer che cattura il contenuto della tab attiva del browser e lo riassume localmente sull’NPU. Niente cloud, niente latenza di rete, dati che restano sul dispositivo.

Ma c’è di più: usando le API di tool-calling di LiteRT-LM, il modello può invocare strumenti esterni, recuperare informazioni aggiornate, combinare intelligenza locale con contesto live. Il tutto preservando privacy e bassa latenza. Non male per un’architettura che gira completamente on-device.

Cosa manca e cosa arriverà

Il backend OpenVINO per ora si concentra sull’NPU. Il prossimo step? Supporto GPU con ottimizzazioni dedicate. L’idea è coprire tutti gli acceleratori disponibili con un’unica API scalabile.

La documentazione è già disponibile, i modelli ottimizzati per Intel NPU sono su Hugging Face, il codice è su GitHub. Se avete un Core Ultra e volete vedere cosa ci potete fare davvero, questo è il momento giusto.

L’AI on-device aveva un collo di bottiglia: troppa potenza richiesta, troppa energia sprecata. Intel e Google hanno appena eliminato quella strozzatura. Adesso tocca agli sviluppatori vedere fin dove si può spingere l’asticella.