Nvidia Rubin: la nuova architettura che cambia le regole dell’infrastruttura AI

Jensen Huang alza il sipario su Rubin al CES 2026

Sapete quella sensazione quando un’azienda annuncia qualcosa e capite subito che il settore non sarà più lo stesso? Ecco, al Consumer Electronics Show di quest’anno è successo proprio questo. Jensen Huang – il CEO di Nvidia che ormai è diventato una specie di rockstar del mondo tech – ha ufficialmente lanciato l’architettura Rubin. E no, non stiamo parlando del solito aggiornamento incrementale che sulla carta sembra rivoluzionario e poi nella pratica ti fa dire “meh”.

“Vera Rubin è progettata per affrontare questa sfida fondamentale: la quantità di calcolo necessaria per l’AI sta letteralmente esplodendo” – parole sue, dal palco. E poi la bomba: “Oggi posso dirvi che Vera Rubin è in piena produzione”. Tradotto: non è un concept, non è un prototipo in un laboratorio. È roba vera, che sta uscendo dalle fabbriche.

Cosa rende questa architettura diversa dalle precedenti

Ok, facciamo un passo indietro. Nvidia ha questo ciclo di sviluppo hardware che sembra uscito da un videogioco di strategia – ogni generazione rimpiazza la precedente a velocità impressionante. Hopper, poi Lovelace, poi Blackwell, e ora Rubin. Il nome? Viene da Vera Florence Cooper Rubin, astronoma americana che ha dato contributi fondamentali allo studio della materia oscura. Scelta elegante, diciamocelo.

Ma ecco dove la cosa diventa interessante davvero. Non stiamo parlando di un singolo chip. Rubin è un sistema di sei chip progettati per lavorare insieme:

La GPU Rubin – il cuore del sistema, con 336 miliardi di transistor (1,6 volte Blackwell, per chi tiene il conto)
La CPU Vera – 88 core con architettura Arm v9.2-A, pensata specificamente per il ragionamento degli agenti AI
NVLink 6 Switch – per l’interconnessione
ConnectX-9 SuperNIC
BlueField-4 DPU
Spectrum-6 Ethernet Switch

Tutti e sei i chip sono già tornati dalla fonderia TSMC – processo a 3 nanometri – e la produzione di massa dovrebbe partire nella seconda metà del 2026.

I numeri che contano davvero

Allora, preparatevi perché qui i numeri fanno girare la testa. Secondo i test di Nvidia, l’architettura Rubin opera 3,5 volte più velocemente di Blackwell nel training dei modelli. Ma aspettate – per l’inferenza si sale a 5 volte. Stiamo parlando di 50 petaflops. Cinquanta. E non è finita: otto volte più calcolo di inferenza per watt consumato.

Per darvi un’idea concreta: ogni rack Vera Rubin NVL72 offre 3,6 exaFLOPS di performance per l’inferenza. Exaflops – quella parola che fino a pochi anni fa sembrava fantascienza. Più 54 TB di memoria LPDDR5X collegata ai CPU Vera e 20,7 TB di memoria HBM4.

Il problema della memoria che nessuno racconta

C’è un aspetto che spesso passa sotto silenzio quando si parla di AI su larga scala: la memoria. Non quella della GPU in sé, ma la gestione della cache per i workflow più complessi. Dion Harris, senior director di Nvidia per le soluzioni di infrastruttura AI, ha messo il dito nella piaga durante una call con i giornalisti.

“Quando cominci ad abilitare nuovi tipi di workflow, come l’AI agentica o task di lunga durata, metti sotto stress enorme la KV cache”. Per chi non mastica terminologia: la KV cache è quel sistema di memoria che i modelli AI usano per condensare e gestire gli input durante le conversazioni lunghe. È il motivo per cui ChatGPT può “ricordare” cosa gli avete detto all’inizio della chat.

La soluzione? Nvidia ha introdotto la piattaforma Inference Context Memory Storage – un nuovo livello di storage AI-native alimentato da BlueField-4. Praticamente permette di scalare il pool di storage in modo molto più efficiente, condividendo e riutilizzando i dati della cache tra diverse istanze. Roba che prima richiedeva workaround creativi e tanti, tanti soldi.

Chi userà Rubin e perché importa

La lista degli early adopter è… beh, è praticamente l’elenco telefonico dell’industria AI. AWS, Google, Microsoft, Oracle Cloud. Anthropic, OpenAI, Meta, Mistral AI, xAI. E poi Cohere, Perplexity, Runway – insomma, se avete usato un servizio AI negli ultimi due anni, probabilmente chi lo gestisce sta già pianificando di passare a Rubin.

Ma ci sono anche progetti che fanno alzare le sopracciglia. HPE sta costruendo il supercomputer Blue Lion basato su Rubin. Il Lawrence Berkeley National Lab ci farà girare Doudna, il loro prossimo supercomputer dedicato alla ricerca. Non esattamente applicazioni consumer, ecco.

La questione dei costi

Qui la cosa si fa interessante. Nvidia afferma che Rubin porterà una riduzione di 10 volte nel costo per token di inferenza. Dieci volte. E serviranno 4 volte meno GPU per addestrare modelli MoE (Mixture of Experts) rispetto a Blackwell.

In un mercato dove – stando alle stime di Huang – verranno spesi tra i 3 e i 4 trilioni di dollari in infrastruttura AI nei prossimi cinque anni, l’efficienza conta. Conta eccome.

La CPU Vera e il ragionamento agentico

Vale la pena soffermarsi sulla CPU Vera, perché rappresenta un cambio di prospettiva interessante. Non è solo un processore generico affiancato alla GPU – è progettato specificamente per supportare l’AI agentica. Quella roba dove i modelli non si limitano a rispondere alle domande, ma pianificano, eseguono task, interagiscono con altri sistemi.

Ogni CPU Vera ha 88 core Olympus (design proprietario Nvidia su architettura Arm), con una tecnologia chiamata “spatial multi-threading” che offre 176 thread per core. Collegata fino a 1,5 TB di memoria LPDDR5X – tre volte quello che offriva Grace – con 1,2 TB al secondo di bandwidth.

Perché tutto questo focus sugli agenti? Perché è lì che sta andando il mercato. I chatbot sono la punta dell’iceberg – il futuro sono sistemi AI che lavorano autonomamente su task complessi, che coordinano multiple operazioni, che interagiscono con database e API senza supervisione costante. E per fare questo serve potenza di calcolo dedicata, non solo GPU brutali.

Cosa significa per chi sviluppa con l’AI

Se lavorate nel settore – e se state leggendo questo probabilmente sì – le implicazioni sono diverse a seconda di dove vi posizionate nella catena.

Per chi sviluppa applicazioni AI: più potenza disponibile nei data center significa modelli più grandi accessibili via API, latenze più basse, costi per token che potrebbero finalmente scendere in modo significativo. Quella feature che oggi è troppo costosa da implementare? Tra un anno potrebbe essere fattibile.

Per chi gestisce infrastruttura: preparatevi a ripensare l’architettura. L’efficienza energetica 8x per watt non è un numero da marketing – è la differenza tra un progetto sostenibile e uno che vi mangia il budget in bollette elettriche.

Per chi fa ricerca: 50 petaflops per sistema significa esperimenti che prima richiedevano settimane ora fattibili in giorni. Il ciclo di iterazione si accorcia, la competizione si accelera.

Il contesto competitivo che non possiamo ignorare

Nvidia non opera nel vuoto, ovviamente. AMD sta spingendo forte con MI300X, Intel sta cercando di recuperare terreno con Gaudi, e poi c’è tutto il movimento dei chip AI custom – Google con le TPU, Amazon con Trainium, Microsoft che sta sviluppando i propri acceleratori.

Ma ecco il punto: Rubin non arriva in un mercato dove Nvidia sta perdendo quota. Arriva in un mercato dove Nvidia ha trasformato se stessa nella corporation più valutata al mondo proprio grazie a questa dominanza nell’hardware AI. Il ciclo di sviluppo annuale – dove Blackwell era stata annunciata appena l’anno scorso – è brutale per i competitor. Fai fatica a competere con qualcuno che ti cambia le regole del gioco ogni dodici mesi.

Prospettive per i prossimi anni

La domanda che tutti si fanno: e dopo Rubin? Nvidia ha già fatto capire che il ciclo non si ferma. Ma forse la domanda più interessante è un’altra: cosa succede quando questa potenza di calcolo diventa effettivamente disponibile su larga scala?

I modelli AI cresceranno ancora? Probabilmente sì, almeno nel breve periodo. Ma il trend più interessante potrebbe essere l’altro: modelli più efficienti che sfruttano meglio l’hardware disponibile, invece di modelli sempre più grandi che richiedono sempre più risorse.

Una cosa è certa: tra i 3 e i 4 trilioni di dollari di investimenti previsti nei prossimi cinque anni, una fetta significativa passerà per architetture come Rubin. Per chi lavora in questo settore, ignorare questi sviluppi non è un’opzione. La domanda è come posizionarsi – e in fretta.