OpenAI lancia GPT-5.5: il modello che lavora davvero

Aspettate, fatemi controllare la data. 23 aprile 2026. Confermato. Sì, questo è un leak o un concept – ma immaginiamo che sia vero per un secondo, perché i numeri qui dentro sono tipo… ok, respirate.

GPT-5.5 arriva (forse) – e non è la solita marchetta marketing

OpenAI ha rilasciato GPT-5.5, che secondo loro è “il modello più intelligente e intuitivo mai realizzato”. Lo so, lo so – avete già sentito “questa volta è diverso” mille volte quest’anno. Ma guardate i benchmark invece delle slide marketing.

Terminal-Bench 2.0? 82.7%. SWE-Bench Pro (quello che testa risoluzione di issue GitHub reali)? 58.6%. Expert-SWE, il loro eval interno per task di coding che richiederebbero a un umano tipo 20 ore? GPT-5.5 batte GPT-5.4. E la parte pazzesca – usa meno token per arrivarci.

Il problema dei capelli è risolto (scherzo, è coding)

Ok, non è Stable Diffusion. Ma c’è qualcosa di interessante nel modo in cui descrivono il modello. Non è tipo quei rilasci dove changelog dice “performance improvements” e tu non vedi mezza differenza.

Prendete questo esempio: Dan Shipper (CEO di Every) aveva un bug post-launch. Giorni di debug. Alla fine chiama il suo miglior engineer che riscrive parte del sistema. Poi testa GPT-5.5 sul codice rotto, pre-fix. GPT-5.4? Nada. GPT-5.5? Produce lo stesso tipo di rewrite che l’engineer umano aveva fatto.

Un tipo della NVIDIA che aveva accesso early ha detto – e cito testualmente – “Perdere accesso a GPT-5.5 sembra come se mi avessero amputato un arto”. Ecco, quello.

I numeri che fanno girare la testa

Facciamo un momento nerd con i benchmark:

  • Terminal-Bench 2.0: 82.7% (GPT-5.4 era 75.1%, Claude Opus 4.7 al 69.4%)
  • OSWorld-Verified (quanto bene opera computer reali): 78.7%
  • GDPval (knowledge work cross-occupation): 84.9%
  • FrontierMath Tier 4 (quello tosto): 35.4% vs 27.1% di GPT-5.4
  • CyberGym (cybersecurity): 81.8%

E qui OpenAI ha fatto la mossa intelligente sulla latency: GB200/GB300 NVL72 systems di NVIDIA. Tradotto: stessa velocità per token di GPT-5.4, ma intelligenza tipo… boh, guardate i numeri sopra.

Codex diventa serio (tipo davvero)

Pietro Schirano (CEO di MagicPath) ha testato GPT-5.5 su un merge di branch con centinaia di cambiamenti frontend + refactor in un main branch che era cambiato pure lui. Tempo: 20 minuti. One shot. “Genuinely feels like I’m working with a higher intelligence” – sue parole.

Il caso che mi ha colpito: l’engineer che chiede di re-architettare un comment system in un collaborative markdown editor. Torna dopo un po’. Stack da 12 diff. Quasi completo. Scusate cosa?

Knowledge work e scientific research

Parte interessante: più dell’85% di OpenAI usa Codex ogni settimana. Finance, comms, marketing, data science. Il team Finance ha processato 24,771 form K-1 tax (71,637 pagine totali) e ha accelerato il task di due settimane vs anno prima.

Sul fronte scientifico – e qui divento boring per un secondo – GPT-5.5 ha aiutato a scoprire una nuova proof sui Ramsey numbers. Per chi non mastica combinatorics: i Ramsey numbers sono tipo quei problemi dove le prove sono rare e tecnicamente difficili. GPT-5.5 ha trovato una dimostrazione, verificata poi in Lean. Non spiegazione. Non codice. Mathematical argument vero.

Derya Unutmaz (professore di immunologia al Jackson Laboratory) ha usato GPT-5.5 Pro per analizzare un dataset gene-expression: 62 campioni, quasi 28,000 geni. Report dettagliato che – dice lui – avrebbe richiesto mesi al suo team.

Cybersecurity e la parte seria

OpenAI ha classificato GPT-5.5 come “High” nel Preparedness Framework per cyber e bio/chem capabilities. Non ha raggiunto “Critical”, ma è un passo avanti netto vs GPT-5.4.

Hanno deployato classifier più stretti per potential cyber risk – che tradotto significa: alcuni utenti troveranno i safeguard fastidiosi inizialmente mentre li tuneranno nel tempo.

Novità: “Trusted Access for Cyber” via Codex. Organizzazioni che difendono critical infrastructure possono applicare per accesso a modelli cyber-permissive tipo GPT-5.4-Cyber, con meno friction per lavoro defensivo legittimo. Apply a chatgpt.com/cyber.

Pricing e availability

GPT-5.5 sta rollando out a Plus, Pro, Business, Enterprise in ChatGPT e Codex. GPT-5.5 Pro per Pro/Business/Enterprise. API “very soon”.

Prezzi API:

  • GPT-5.5: $5 per 1M input tokens, $30 per 1M output (1M context window)
  • GPT-5.5 Pro: $30 input, $180 output
  • Batch/Flex: metà prezzo standard
  • Priority: 2.5x prezzo standard

Costoso? Sì. Ma – e qui OpenAI ha un punto – è più token efficient. In Codex hanno tuned l’experience perché GPT-5.5 delivers better results con meno token vs GPT-5.4 per most users.

Il vero test

Perfetto? No. I documenti parlano ancora di “moments strani con pose complesse” in alcuni contesti. Ma rispetto a prima…

La cosa che emerge dai test early-access: GPT-5.5 capisce l’intent meglio. Non è solo “più smart sui benchmark”. È tipo… guarda cosa stai cercando di fare, prevede testing needs, naviga ambiguity, continua fino al task finish.

Michael Truell (co-founder di Cursor) ha detto: “GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. Stays on task significantly longer”.

Scetticismo comprensibile. Quanti rilasci AI quest’anno hanno promesso “breakthrough” e poi nella pratica vedevi tipo 2% di miglioramento se eri fortunato? Ma qui – numeri, non hype – 10,000 test ciechi su AI Arena: quarto posto assoluto, primo tra open-source.

La domanda vera è: quando arriva davvero? E cosa significa per chi sta usando Claude Opus 4.7 o Gemini 3.1 Pro pensando di avere il top?

Momento holy-shit personale: quel Bartosz Naskręcki che fa un’app di algebraic geometry da un singolo prompt in 11 minuti. Intersection di quadratic surfaces, conversione in Weierstrass model. Undici minuti.

Il futuro dello scientific computing? Forse è già qui, solo distribuito in modo non uniforme. Come sempre.