OpenAI ha appena svelato Jalapeño. Non un nome in codice, ma il loro primo chip progettato da zero per far girare modelli linguistici di grandi dimensioni. E quando dico ‘da zero’, intendo proprio: niente adattamenti di architetture esistenti, niente compromessi. Un acceleratore pensato dall’inizio alla fine per l’inferenza LLM.
Il chip è stato sviluppato insieme a Broadcom — quelli che fanno silicon serio — e consegnato nelle mani di Sam Altman e Greg Brockman dopo nove mesi di lavoro. Nove mesi dal design alla produzione. Che tradotto in linguaggio semiconduttori significa: velocità assurda. Secondo OpenAI, sarebbe il ciclo di sviluppo ASIC più veloce mai realizzato per chip ad alte prestazioni. E sì, hanno usato i loro stessi modelli per accelerare parti del processo di progettazione. Meta, no?
Perché un chip proprietario
La domanda è lecita: perché OpenAI dovrebbe mettersi a fare hardware quando può comprare GPU Nvidia come tutti gli altri? La risposta sta in una parola: controllo. Controllo dello stack completo, dalla UX del prodotto fino al silicio che fa girare i calcoli.
Greg Brockman lo dice chiaramente: ‘Progettando più parti dello stack da soli, possiamo servire più intelligenza con maggiore efficienza’. Traduzione: meno dipendenza da fornitori esterni, più margine per ottimizzare ogni singolo strato del sistema. E magari — giusto magari — margini economici migliori quando devi servire miliardi di richieste ChatGPT al giorno.
Jalapeño non è un chip general-purpose adattato all’AI. È nato specificamente per l’inferenza dei modelli linguistici moderni. OpenAI ha preso tutto quello che ha imparato facendo girare ChatGPT, Codex, le API e i futuri prodotti agentici, e l’ha tradotto in architettura hardware. Il risultato? Un chip che secondo i primi test interni offre performance per watt ‘sostanzialmente migliori’ rispetto allo stato dell’arte attuale.
I numeri (quelli che ci sono)
OpenAI è ancora cauta sui benchmark definitivi — un report tecnico dettagliato arriverà nei prossimi mesi — ma i sample engineering stanno già facendo girare carichi ML in laboratorio alla frequenza e potenza target. Compreso GPT-5.3-Codex-Spark, che immagino sia una delle prossime iterazioni dei loro modelli.
L’architettura, ci dicono, riduce il movimento dei dati e bilancia risorse di calcolo, memoria e networking per raggiungere un’utilizzazione reale molto più vicina al picco teorico. Che è il vero problema con molti acceleratori AI: sulla carta sono bestie, in pratica passano metà del tempo ad aspettare dati o a spostare roba in memoria.
Il volano dell’infrastruttura
OpenAI la chiama ‘il volano’. Migliore infrastruttura → maggiore efficienza computazionale → training e serving migliori → modelli più capaci → prodotti migliori → più utenti e revenue → reinvestimento in infrastruttura di nuova generazione. E si ricomincia.
Jalapeño si inserisce esattamente qui. Non è solo un chip. È parte di una strategia infrastrutturale a lungo termine che punta a rendere il compute più abbondante. Che tradotto per chi usa ChatGPT significa: risposte più veloci, costi più bassi, accesso più affidabile quando il traffico esplode.
Perché alla fine — e questo OpenAI lo sa bene — l’inferenza è dove l’AI raggiunge le persone. Ogni millisecondo risparmiato, ogni watt ottimizzato, ogni dollaro di costo in meno si traduce in un’esperienza utente migliore o in un prezzo API più accessibile.
Broadcom, Celestica e deployment su scala gigawatt
OpenAI non ha fatto tutto da sola. Broadcom ha portato l’expertise nella implementazione del silicio e le tecnologie di networking — incluso il loro silicon Tomahawk per il networking ad alte prestazioni. Celestica si è occupata di board, rack e integrazione di sistema. Il risultato è una piattaforma pronta per deployment su scala gigawatt insieme a Microsoft e altri partner, a partire dalla fine del 2026.
Gigawatt. Per darvi un’idea: un data center medio consuma qualche decina di megawatt. Stiamo parlando di un ordine di grandezza completamente diverso. E questa è solo la prima generazione. Hock Tan di Broadcom parla esplicitamente di ‘roadmap multi-generazionale’ e di ‘impegno fondamentale per scalare l’infrastruttura fisica necessaria al prossimo decennio di AI’.
Flessibilità oltre OpenAI
Dettaglio interessante: Jalapeño è stato progettato per funzionare con tutti gli LLM, non solo quelli di OpenAI. La company sottolinea che il chip è ‘guidato dalla comprensione approfondita delle esigenze di inferenza dei modelli AI attuali e futuri in tutto il settore’. Che potrebbe significare: sì, lo usiamo noi, ma potremmo anche venderlo o licenziarlo ad altri. O semplicemente vogliono assicurarsi di non restare bloccati se l’architettura dei modelli evolve in direzioni inaspettate.
L’AI che progetta l’AI
C’è un paradosso affascinante in tutto questo: OpenAI ha usato i propri modelli per accelerare parti del processo di progettazione del chip. Gli stessi modelli che servi agli utenti ti aiutano a migliorare l’infrastruttura per far girare i modelli futuri. Un loop ricorsivo che — se funziona — potrebbe abbassare i costi di sviluppo hardware in tutto il settore.
‘Se l’AI può aiutare gli ingegneri a progettare chip migliori più velocemente, può ridurre il costo del compute in tutto il settore e aiutare a democratizzare l’accesso all’AI avanzata’, dice OpenAI. Democrazia computazionale via autopoiesi tecnologica. O forse solo un buon modo per ammortizzare i costi di R&D facendo lavorare i tuoi modelli anche sul design hardware.
Cosa significa per gli utenti
Diciamolo: alla maggior parte delle persone non interessa se ChatGPT gira su GPU Nvidia o su un chip proprietario chiamato Jalapeño. Quello che interessa è: va più veloce? Costa meno? È più affidabile quando tutti lo usano contemporaneamente?
OpenAI sostiene che ogni miglioramento in costo, velocità e affidabilità si traduce in ‘una risposta ChatGPT più rapida, un task Codex che può fare più passaggi con meno attesa, un prodotto API più economico da costruire, o accesso più affidabile quando la domanda è alta’. Tutto vero. Ma quanto più veloce, quanto più economico, quanto più affidabile — questo lo scopriremo solo quando il chip entrerà effettivamente in produzione alla fine del 2026.
Nel frattempo, il messaggio strategico è chiaro: OpenAI non vuole più dipendere solo dai fornitori esterni per la sua infrastruttura critica. Vuole controllare lo stack completo. E Jalapeño è il primo tassello hardware di questa strategia. Il primo di una piattaforma multi-generazionale che si espanderà negli anni a venire.
Resta da vedere se questo vantaggio verticale si tradurrà davvero in prodotti migliori e più accessibili, o se semplicemente sposterà i colli di bottiglia altrove. Ma una cosa è certa: il mercato dell’AI hardware sta diventando molto più affollato. E molto più interessante.
