OpenAI ha appena alzato il tiro sulla sicurezza informatica. E questa volta non parliamo solo di trovare bug — quello ormai lo fanno tutti con l’AI. Parliamo di chiuderli. Automaticamente. Prima che qualcuno li sfrutti.
Il progetto si chiama Daybreak, e l’idea è tanto semplice quanto ambiziosa: democratizzare il patching delle vulnerabilità software alla velocità delle macchine. Tradotto: dare a tutti gli strumenti per trovare i buchi nel codice e tapparli immediatamente, non tra sei mesi quando ormai è tardi.
Il collo di bottiglia si è spostato
Clint Gibler e il team di OpenAI lo dicono chiaramente: l’AI ha cambiato la fisica della cybersecurity. Per anni il problema era trovare le vulnerabilità — servivano esperti rari, tempo, conoscenza profonda dei sistemi. Adesso? I modelli frontier scansionano codebase enormi, ragionano sui percorsi di attacco, validano ipotesi. Trovano roba che altrimenti resterebbe nascosta per sempre.
Il risultato? I difensori sono sommersi. Il collo di bottiglia non è più trovare i bug. È sistemarli. Perché un report di vulnerabilità, da solo, non protegge nessuno. Devi validarlo, capire l’impatto, sviluppare una patch, testarla, coordinarti con chi deve applicarla. E tutto questo richiede tempo. Troppo tempo.
Ecco perché Daybreak non si ferma alla discovery. Va oltre.
Codex Security: un ingegnere della sicurezza per ogni developer
Dal lancio in research preview a marzo, Codex Security ha scansionato oltre 30 milioni di commit su più di 30.000 codebase. I reviewer umani hanno marcato manualmente oltre 70.000 issue come risolte, mentre altre 500.000 sono state determinate come fixate automaticamente.
Questa è la scala a cui il patching deve operare adesso. Non c’è alternativa.
Il plugin Codex Security — che oggi riceve un aggiornamento importante — si integra direttamente in Codex e fa molto più che generare alert. Capisce il codice del tuo team, il threat model (o ne genera uno se non esiste), identifica vulnerabilità plausibili, determina se il codice affetto è raggiungibile, raccoglie prove per validare, sviluppa una patch mirata e verifica il risultato.
Gli umani restano al controllo: scegli quali finding investigare, quali fix applicare, quali informazioni condividere. Ma il lavoro pesante — quello che richiede ore di analisi manuale — lo fa il modello.
Puoi lanciare scan profondi su intera codebase, subset specifici, o singoli commit. Il plugin può anche fare triage di finding esistenti provenienti da scanner esterni, advisory, bug bounty report o sistemi di ticketing. Poi automatizza la generazione di patch su larga scala per chiudere velocemente un backlog di vulnerabilità. Quando completa uno scan, esporta i risultati verso sistemi di vulnerability management o si integra tramite file SARIF, query CodeQL e altro.
Workflow difensivi out-of-the-box
La nuova versione del plugin abilita workflow di sicurezza difensiva pronti all’uso. I developer possono generare report con severity, location del codice affetto, prove di validazione e guidance per remediation. Possono tracciare attack path, costruire threat model, validare finding e generare patch specifiche per la loro codebase da sottoporre a review.
Tutto questo può essere automatizzato tramite Codex CLI o integrato nei workflow degli sviluppatori nell’app Codex. Insomma: meno friction possibile tra discovery e fix.
GPT-5.5-Cyber: più capace, più permissivo
OpenAI rilascia anche la versione completa di GPT-5.5-Cyber, dopo una preview iniziale limitata. Questo modello è pensato per lavoro di cybersecurity avanzato e autorizzato, ed è progettato per essere sia più permissivo che più capace.
La preview iniziale era focalizzata principalmente sul ridurre i refusal inutili in workflow specializzati. Questo update va oltre: è il loro modello più forte per trovare e aiutare a patchare vulnerabilità software, mantenendo l’intelligenza general-purpose di GPT-5.5 e la capacità di lavorare su task lunghi e complessi.
Il modello può sostenere analisi profonde su codebase enormi: identificare componenti rilevanti per la security, tracciare se il codice vulnerabile è raggiungibile, validare issue probabili in ambienti controllati, sviluppare e testare patch, preparare prove per review umana. L’obiettivo non è produrre più finding — è aiutare i difensori a completare l’intero loop di remediation.
I numeri parlano chiaro
Su CyberGym — che misura se un agente può riprodurre vulnerabilità note in ambienti software — GPT-5.5-Cyber ha raggiunto l’85,6% in valutazioni single-model, contro l’81,8% di GPT-5.5. Il punteggio CyberGym più alto che OpenAI abbia mai misurato da un singolo modello.
Ma non finisce qui. GPT-5.5-Cyber ha superato GPT-5.5 anche su due benchmark real-world particolarmente tosti: 39,5% contro 25,95% su ExploitGym, che testa se gli agenti possono trasformare vulnerabilità note in exploit funzionanti che ottengono esecuzione non autorizzata di codice. Su SEC-bench Pro — che valuta discovery di vulnerabilità a lungo orizzonte e generazione di proof-of-concept su target software complessi — GPT-5.5-Cyber ha raggiunto il 69,8%, contro il 63,1% di GPT-5.5.
Certo, i benchmark sono solo una parte della storia. Quello che conta davvero è se un modello può trovare vulnerabilità reali, distinguere issue actionable dal rumore, e aiutare i difensori a implementare fix in sicurezza. OpenAI continua a valutare le performance del modello su repository complessi e workflow di remediation reali mentre le coordinated disclosure si concludono.
Dialogo con il governo USA
OpenAI ha avuto un dialogo continuo con il governo USA sull’approccio cyber, inclusi gli annunci di oggi e la preparazione per i prossimi rilasci di modelli. Questo include collaborazione continuativa con il Center for AI Standards and Innovation (CAISI) su test pre-deployment per GPT-5.5 e 5.5-Cyber, e lavoro con l’Office of the National Cyber Director (ONCD) e l’Office of Science and Technology Policy (OSTP) sull’implementazione del recente Executive Order e standard industriali associati.
Per la maggior parte dei difensori, GPT-5.5 con Trusted Access for Cyber e Codex Security resta il punto di partenza giusto. GPT-5.5-Cyber è pensato per difensori verificati il cui lavoro autorizzato richiede le capacità cyber più avanzate e comportamento più permissivo, accoppiato con verification più forte, monitoring, controlli scoped e review. Nel lavoro early Daybreak, GPT-5.5 e Codex Security hanno aiutato i difensori a identificare e validare vulnerabilità in sistemi ampiamente usati, inclusi Firefox, V8, Safari, OpenBSD, FreeBSD e implementazioni HTTP/2.
Daybreak Cyber Partner Program
OpenAI lancia anche il Daybreak Cyber Partner Program con provider leader di software e servizi di sicurezza. Attraverso il programma, i partner partecipanti possono usare GPT-5.5 con Trusted Access for Cyber — il loro modello primario per la maggior parte dei workflow difensivi di cybersecurity — nei prodotti e servizi di sicurezza che forniscono ai clienti.
Questo permette ai loro clienti di beneficiare delle capacità difensive del modello e rendere il loro software più resiliente, ma mantiene l’accesso diretto al modello nelle mani dei partner partecipanti. Un modo intelligente di scalare l’impatto senza spalancare le porte a chiunque.
OpenAI collaborerà anche con i partner del programma per continuare a rafforzare le salvaguardie, il monitoring e gli standard di prevenzione degli abusi necessari per deployare queste capacità in modo responsabile nell’ecosistema security. Stanno partendo con un set iniziale di partner e pianificano di espandersi a più organizzazioni nei prossimi mesi.
Patch the Planet: dai finding ai fix nell’open source
Patch the Planet è un’iniziativa costruita per aiutare i maintainer a passare dai finding ai fix. Fondata con Trail of Bits, in collaborazione con HackerOne e Calif, OpenAI sta finanziando security researcher esperti e li sta equipaggiando con Codex Security e i loro modelli avanzati per lavorare direttamente con i maintainer open source.
Il software open source alimenta prodotti, servizi pubblici, developer tool e infrastrutture critiche in tutti i settori. Una vulnerabilità in una libreria di networking ampiamente usata può influenzare migliaia di sistemi downstream. Eppure molti di questi progetti sono sostenuti da team piccolissimi con tempo e finanziamenti limitati.
Una ricerca della Linux Foundation e Harvard ha trovato che il 94% dei progetti ampiamente usati studiati aveva meno di dieci developer responsabili per più del 90% del codice aggiunto in un anno. Pensateci un attimo.
Non sommergere i maintainer di report
Man mano che l’AI rende possibile trovare e patchare più vulnerabilità più velocemente, crea anche più lavoro per i maintainer, che devono setacciare migliaia di report, molti dei quali sono falsi positivi di bassa qualità. I maintainer non dovrebbero essere lasciati con più report e nessuna capacità aggiuntiva di fixarli. Ecco perché Patch the Planet è costruita attorno a review umana esperta di sicurezza.
Ogni engagement inizia con una consultazione tra i security researcher di OpenAI e i maintainer che stanno aiutando. I maintainer definiscono le loro priorità, preferenze e processi di disclosure stabiliti. I security researcher di Patch the Planet gestiscono poi il lavoro end-to-end — validano e deduplicano sia vulnerabilità che patch prima che raggiungano i maintainer, riducendo significativamente il carico sui maintainer e accelerando la remediation.
I progetti partecipanti ricevono ChatGPT Pro, accesso condizionale a Codex Security, e crediti API per sviluppo core, automazione maintainer e workflow di release.
Lo sprint iniziale di cinque giorni su più progetti ha fatto emergere centinaia di issue per review, mergiato dozzine di patch con altre in corso, e costruito workflow riusabili di fuzzing, variant-analysis, differential-testing e specification-based testing. Più di 30 progetti open source si sono impegnati a partecipare, con partecipanti iniziali che includono cURL, Go, Python, Sigstore e pyca/cryptography.
Trovare vulnerabilità è importante, ma è implementare il fix che protegge il mondo. E quello richiede collaborazione e supporto della community.
Proteggere infrastrutture critiche
OpenAI sta anche collaborando strettamente con governi e istituzioni in tutto il mondo per elevare le loro capacità difensive di cybersecurity e proteggere infrastrutture critiche. Hanno lavorato a stretto contatto con il governo USA e agenzie federali rilevanti mentre si preparano per modelli AI sempre più cyber-capaci.
Nell’ultimo mese hanno già stabilito partnership Trusted Access for Cyber con Australia, Canada, Francia, Germania, Giappone, Repubblica di Corea e istituzioni UE come ENISA. Hanno anche una partnership crescente e fidata con il governo UK attorno a cyber, testing e evaluation, e altre aree di interesse reciproco.
Pianificano di lavorare direttamente con operatori idonei di infrastrutture critiche, incluse reti governative, per sviluppare salvaguardie su misura per i sistemi che operano. Il focus di questo lavoro è rendere l’AI avanzata più utile ai difensori, rendendo più difficile per attori malintenzionati causare danni real-world.
Lavoreranno anche con clienti enterprise e partner fidati per incorporare contesto più ampio e identificatori sui sistemi specifici che operano o proteggono, rafforzando le loro salvaguardie di cybersecurity e la capacità di prevenire attività cyber dannose che coinvolgono servizi critici.
Cosa viene dopo
Daybreak mette insieme modelli, Codex Security, Patch the Planet, researcher esperti, maintainer, partner di sicurezza, operatori di infrastrutture critiche e controlli di accesso fidati per aiutare i difensori umani a essere all’altezza della sfida.
Le organizzazioni nei settori pubblico e privato possono lavorare con OpenAI Daybreak per identificare, validare e rimediare vulnerabilità nel software che costruiscono e su cui fanno affidamento. Developer e maintainer possono eseguire Codex Security sul codice che possiedono, revieware i finding e aiutare a implementare i fix. Partner e practitioner di sicurezza possono usare i modelli frontier per rafforzare i loro tool difensivi e portare quelle capacità a più organizzazioni rapidamente.
L’obiettivo è andare oltre l’uso di modelli per trovare più vulnerabilità, verso un mondo di software più sicuro e resilienza cyber. Perché sì, trovare i buchi è importante. Ma è chiuderli che fa la differenza.
