OpenAI presenta Jalapeño, il chip fatto in casa per l’inferenza LLM

OpenAI ha appena svelato Jalapeño. Non un nome in codice, ma il loro primo chip progettato da zero per far girare modelli linguistici di grandi dimensioni. E quando dico ‘da zero’, intendo proprio: niente adattamenti di architetture esistenti, niente compromessi. Un acceleratore pensato dall’inizio alla fine per l’inferenza LLM.

Il chip è stato sviluppato insieme a Broadcom — quelli che fanno silicon serio — e consegnato nelle mani di Sam Altman e Greg Brockman dopo nove mesi di lavoro. Nove mesi dal design alla produzione. Che tradotto in linguaggio semiconduttori significa: velocità assurda. Secondo OpenAI, sarebbe il ciclo di sviluppo ASIC più veloce mai realizzato per chip ad alte prestazioni. E sì, hanno usato i loro stessi modelli per accelerare parti del processo di progettazione. Meta, no?

Perché un chip proprietario

La domanda è lecita: perché OpenAI dovrebbe mettersi a fare hardware quando può comprare GPU Nvidia come tutti gli altri? La risposta sta in una parola: controllo. Controllo dello stack completo, dalla UX del prodotto fino al silicio che fa girare i calcoli.

Greg Brockman lo dice chiaramente: ‘Progettando più parti dello stack da soli, possiamo servire più intelligenza con maggiore efficienza’. Traduzione: meno dipendenza da fornitori esterni, più margine per ottimizzare ogni singolo strato del sistema. E magari — giusto magari — margini economici migliori quando devi servire miliardi di richieste ChatGPT al giorno.

Jalapeño non è un chip general-purpose adattato all’AI. È nato specificamente per l’inferenza dei modelli linguistici moderni. OpenAI ha preso tutto quello che ha imparato facendo girare ChatGPT, Codex, le API e i futuri prodotti agentici, e l’ha tradotto in architettura hardware. Il risultato? Un chip che secondo i primi test interni offre performance per watt ‘sostanzialmente migliori’ rispetto allo stato dell’arte attuale.

I numeri (quelli che ci sono)

OpenAI è ancora cauta sui benchmark definitivi — un report tecnico dettagliato arriverà nei prossimi mesi — ma i sample engineering stanno già facendo girare carichi ML in laboratorio alla frequenza e potenza target. Compreso GPT-5.3-Codex-Spark, che immagino sia una delle prossime iterazioni dei loro modelli.

L’architettura, ci dicono, riduce il movimento dei dati e bilancia risorse di calcolo, memoria e networking per raggiungere un’utilizzazione reale molto più vicina al picco teorico. Che è il vero problema con molti acceleratori AI: sulla carta sono bestie, in pratica passano metà del tempo ad aspettare dati o a spostare roba in memoria.

Il volano dell’infrastruttura

OpenAI la chiama ‘il volano’. Migliore infrastruttura → maggiore efficienza computazionale → training e serving migliori → modelli più capaci → prodotti migliori → più utenti e revenue → reinvestimento in infrastruttura di nuova generazione. E si ricomincia.

Jalapeño si inserisce esattamente qui. Non è solo un chip. È parte di una strategia infrastrutturale a lungo termine che punta a rendere il compute più abbondante. Che tradotto per chi usa ChatGPT significa: risposte più veloci, costi più bassi, accesso più affidabile quando il traffico esplode.

Perché alla fine — e questo OpenAI lo sa bene — l’inferenza è dove l’AI raggiunge le persone. Ogni millisecondo risparmiato, ogni watt ottimizzato, ogni dollaro di costo in meno si traduce in un’esperienza utente migliore o in un prezzo API più accessibile.

Broadcom, Celestica e deployment su scala gigawatt

OpenAI non ha fatto tutto da sola. Broadcom ha portato l’expertise nella implementazione del silicio e le tecnologie di networking — incluso il loro silicon Tomahawk per il networking ad alte prestazioni. Celestica si è occupata di board, rack e integrazione di sistema. Il risultato è una piattaforma pronta per deployment su scala gigawatt insieme a Microsoft e altri partner, a partire dalla fine del 2026.

Gigawatt. Per darvi un’idea: un data center medio consuma qualche decina di megawatt. Stiamo parlando di un ordine di grandezza completamente diverso. E questa è solo la prima generazione. Hock Tan di Broadcom parla esplicitamente di ‘roadmap multi-generazionale’ e di ‘impegno fondamentale per scalare l’infrastruttura fisica necessaria al prossimo decennio di AI’.

Flessibilità oltre OpenAI

Dettaglio interessante: Jalapeño è stato progettato per funzionare con tutti gli LLM, non solo quelli di OpenAI. La company sottolinea che il chip è ‘guidato dalla comprensione approfondita delle esigenze di inferenza dei modelli AI attuali e futuri in tutto il settore’. Che potrebbe significare: sì, lo usiamo noi, ma potremmo anche venderlo o licenziarlo ad altri. O semplicemente vogliono assicurarsi di non restare bloccati se l’architettura dei modelli evolve in direzioni inaspettate.

L’AI che progetta l’AI

C’è un paradosso affascinante in tutto questo: OpenAI ha usato i propri modelli per accelerare parti del processo di progettazione del chip. Gli stessi modelli che servi agli utenti ti aiutano a migliorare l’infrastruttura per far girare i modelli futuri. Un loop ricorsivo che — se funziona — potrebbe abbassare i costi di sviluppo hardware in tutto il settore.

‘Se l’AI può aiutare gli ingegneri a progettare chip migliori più velocemente, può ridurre il costo del compute in tutto il settore e aiutare a democratizzare l’accesso all’AI avanzata’, dice OpenAI. Democrazia computazionale via autopoiesi tecnologica. O forse solo un buon modo per ammortizzare i costi di R&D facendo lavorare i tuoi modelli anche sul design hardware.

Cosa significa per gli utenti

Diciamolo: alla maggior parte delle persone non interessa se ChatGPT gira su GPU Nvidia o su un chip proprietario chiamato Jalapeño. Quello che interessa è: va più veloce? Costa meno? È più affidabile quando tutti lo usano contemporaneamente?

OpenAI sostiene che ogni miglioramento in costo, velocità e affidabilità si traduce in ‘una risposta ChatGPT più rapida, un task Codex che può fare più passaggi con meno attesa, un prodotto API più economico da costruire, o accesso più affidabile quando la domanda è alta’. Tutto vero. Ma quanto più veloce, quanto più economico, quanto più affidabile — questo lo scopriremo solo quando il chip entrerà effettivamente in produzione alla fine del 2026.

Nel frattempo, il messaggio strategico è chiaro: OpenAI non vuole più dipendere solo dai fornitori esterni per la sua infrastruttura critica. Vuole controllare lo stack completo. E Jalapeño è il primo tassello hardware di questa strategia. Il primo di una piattaforma multi-generazionale che si espanderà negli anni a venire.

Resta da vedere se questo vantaggio verticale si tradurrà davvero in prodotti migliori e più accessibili, o se semplicemente sposterà i colli di bottiglia altrove. Ma una cosa è certa: il mercato dell’AI hardware sta diventando molto più affollato. E molto più interessante.