GPT-5.3-Codex-Spark: il modello OpenAI per il coding in tempo reale

Cos’è GPT-5.3-Codex-Spark e perché dovrebbe interessarvi

Il 12 febbraio 2026 OpenAI ha rilasciato in research preview GPT-5.3-Codex-Spark. Se siete sviluppatori che hanno passato ore ad aspettare che un modello generasse codice, questa potrebbe essere la notizia che stavate aspettando. Codex-Spark è una versione più compatta di GPT-5.3-Codex, ma la vera novità sta altrove: è il primo modello progettato specificamente per il coding in tempo reale.

Parliamo di oltre 1000 token al secondo. Sì, avete letto bene. Quel tipo di velocità che fa sembrare la risposta quasi istantanea mentre scrivete.

La partnership con Cerebras che ha reso tutto possibile

Codex-Spark rappresenta il primo risultato concreto della collaborazione tra OpenAI e Cerebras, annunciata a gennaio 2026. Non stiamo parlando di una partnership simbolica: c’è un accordo pluriennale da oltre 10 miliardi di dollari sul tavolo.

Ma cosa rende Cerebras così speciale per l’inferenza ad alta velocità? Il loro Wafer Scale Engine 3 è un acceleratore costruito appositamente per questo scopo. Qualche numero per darvi un’idea:

Quattro trilioni di transistor distribuiti su quasi 900.000 core
Fino a 27 petabyte al secondo di bandwidth interno
Per confronto, il NVIDIA Blackwell B200 ha 208 miliardi di transistor

Il vantaggio principale? La memoria on-chip elimina il collo di bottiglia della memory bandwidth che normalmente rallenta l’inferenza. Cerebras costruirà datacenter con 750 megawatt di capacità dedicati a far girare questi chip per OpenAI.

Velocità contro intelligenza: il compromesso necessario

Qui arriviamo al punto che probabilmente vi state chiedendo. Codex-Spark è ottimizzato per il lavoro interattivo dove la latenza conta quanto l’intelligenza. Questo significa che fa delle scelte precise: modifiche minimali e mirate, niente esecuzione automatica dei test a meno che non glielo chiediate esplicitamente.

Non è un difetto, è una scelta di design. Potete collaborare col modello in tempo reale, interromperlo mentre lavora, reindirizzarlo. Iterazione rapida con risposte quasi immediate.

I benchmark parlano chiaro, ma con delle sfumature

Su Terminal-Bench 2.0, un benchmark che valuta le capacità di software engineering agentico, i risultati sono interessanti:

GPT-5.3-Codex: 77,3%
GPT-5.3-Codex-Spark: 58,4%
GPT-5.1-Codex-mini: 45,1%

Codex-Spark non batte il modello completo in accuratezza. Ma completa le attività in una frazione del tempo. È un trade-off che ha senso per certi flussi di lavoro. Se state facendo modifiche mirate, riplasmando logica o raffinando interfacce e volete vedere i risultati subito, Spark è pensato per voi.

Miglioramenti che beneficeranno tutti i modelli

Durante lo sviluppo di Codex-Spark, OpenAI ha capito che la velocità del modello era solo parte dell’equazione. Hanno quindi implementato miglioramenti end-to-end della latenza che andranno a beneficio di tutti i modelli.

Cosa hanno fatto concretamente:

Ottimizzato come le risposte fluiscono dal client al server e viceversa
Riscritto parti chiave dello stack di inferenza
Riprogettato l’inizializzazione delle sessioni
Introdotto una connessione WebSocket persistente

I risultati? Overhead per roundtrip client/server ridotto dell’80%, overhead per token del 30%, time-to-first-token del 50%. Questi miglioramenti toccano le Responses API e saranno disponibili per tutti.

Finestra di contesto e limitazioni attuali

Al lancio, Codex-Spark ha una finestra di contesto da 128k ed è solo testo. Durante la research preview avrà rate limit separati e l’utilizzo non conterà verso i rate limit standard. Quando la domanda è elevata, potreste vedere accesso limitato o code temporanee.

Disponibilità: chi può usarlo oggi

Codex-Spark è disponibile per gli utenti ChatGPT Pro nelle ultime versioni dell’app Codex, CLI e VS Code extension. Per gli sviluppatori API, l’accesso è attualmente limitato a un piccolo gruppo di design partner, ma verrà ampliato nelle prossime settimane.

Un dato interessante: l’app Codex ha superato 1 milione di download. La domanda c’è.

Sicurezza: stesso standard dei modelli mainline

Codex-Spark include lo stesso safety training dei modelli principali di OpenAI, compreso il training cyber-rilevante. OpenAI ha valutato il modello come parte del processo di deployment standard, determinando che non ha una possibilità plausibile di raggiungere la soglia del Preparedness Framework per l’alta capacità in cybersicurezza o biologia.

Due modalità che diventeranno una

Codex-Spark segna il primo passo verso un Codex con due modalità complementari: ragionamento ed esecuzione a lungo orizzonte da una parte, collaborazione in tempo reale dall’altra.

Il futuro che OpenAI descrive è ambizioso. Nel tempo le due modalità dovrebbero fondersi. Codex potrà mantenervi in un loop interattivo stretto mentre delega lavori più lunghi a sub-agenti in background. Oppure distribuire attività a molti modelli in parallelo quando serve ampiezza e velocità.

L’idea è non dover più scegliere una sola modalità in anticipo. Attività lunghe e ambiziose insieme al lavoro immediato, orchestrate dallo stesso strumento.

Come ha detto Sean Lie, CTO di Cerebras: questa preview è solo l’inizio. Quello che li entusiasma di più è scoprire cosa rende possibile l’inferenza veloce: nuovi pattern di interazione, nuovi casi d’uso, un’esperienza del modello fondamentalmente diversa.