Quando un’AI supera il 96% su benchmark dove l’anno scorso faticava a raggiungere il 20%
Ok, partiamo dai numeri perché sono quelli che mi hanno fatto fermare mentre leggevo. Google ha rilasciato il 12 febbraio 2026 un aggiornamento a Gemini 3 Deep Think – la sua modalità di ragionamento specializzata – e i risultati sui benchmark sono di quelli che ti fanno controllare due volte se hai letto bene.
ARC-AGI-2: 84.6%. Per capirci, i modelli AI precedenti faticavano a superare il 20% su questo test. Gli esseri umani? Mediamente il 60%. Quindi sì, parliamo di un sistema che batte la media umana su un benchmark progettato specificamente per essere difficile per le macchine.
I benchmark che contano davvero
Humanity’s Last Exam – quello che dovrebbe rappresentare le domande più difficili che si possono fare a un’AI – 48.4% senza strumenti. Per confronto: Claude Opus 4.6 si ferma al 40%, GPT-5.2 al 34.5%. Non è un margine sottile.
Ma ecco dove la cosa diventa interessante:
- Codeforces Elo: 3455 – livello ‘Legendary Grandmaster’, raggiunto da una frazione minima di programmatori al mondo
- Medaglia d’oro alle Olimpiadi Internazionali di Matematica 2025
- Medaglia d’oro alle Olimpiadi Internazionali di Fisica 2025
- Medaglia d’oro alle Olimpiadi Internazionali di Chimica 2025
- ARC-AGI-1: 96% – praticamente saturato
Il Codeforces Elo mi ha colpito particolarmente. 3455 contro i 2512 di Gemini 3 Pro Preview e i 2352 di Claude Opus 4.6. Non stiamo parlando di miglioramenti incrementali.
Dove Google sta puntando con questa mossa
C’è un pattern qui che vale la pena notare. Questo aggiornamento segna un deliberato pivot: dall’affollato mercato consumer verso l’infrastruttura AI di alto valore per applicazioni scientifiche e professionali.
Google ha sviluppato Deep Think in stretta collaborazione con scienziati e ricercatori per affrontare sfide di ricerca reali. Quelle dove i problemi mancano di guardrail chiari, le soluzioni non sono univoche, e i dati sono incompleti o disordinati. Insomma, il tipo di problemi che gli umani affrontano davvero.
Lisa Carbone e il bug che aveva superato la peer review
Ecco un caso che trovo illuminante. Lisa Carbone, matematica alla Rutgers University, lavora sulle strutture matematiche richieste dalla comunità della fisica delle alte energie per collegare la teoria della gravità di Einstein con la meccanica quantistica.
Ha usato Deep Think per analizzare un paper tecnico di matematica – in un campo con pochissimi dati di addestramento esistenti. Il modello ha identificato un difetto logico sottile che aveva superato la revisione tra pari umana senza essere rilevato. Un errore invisibile agli esperti umani, trovato da un’AI.
Dal Wang Lab di Duke: cristalli semiconduttori più grandi
Il Wang Lab della Duke University ha utilizzato Deep Think per ottimizzare i metodi di fabbricazione per la crescita di cristalli complessi. L’obiettivo era scoprire potenziali nuovi materiali semiconduttori.
Deep Think ha progettato una ricetta per far crescere film sottili più grandi di 100 μm. Un obiettivo preciso che i metodi precedenti faticavano a centrare. Non teoria, applicazione pratica.
Dallo schizzo all’oggetto stampabile in 3D
Oltre alle prestazioni sui benchmark accademici, Deep Think è costruito per guidare applicazioni ingegneristiche pratiche. Consente ai ricercatori di interpretare dati complessi e agli ingegneri di modellare sistemi fisici attraverso il codice.
Una delle dimostrazioni mostrate da Google permette di trasformare uno schizzo in un oggetto stampabile in 3D. Deep Think analizza il disegno, modella la forma complessa e genera il file necessario per la creazione fisica. Da idea abbozzata a oggetto fisico, passando per un’AI che capisce cosa vuoi fare.
Anupam Pathak, R&D lead nella divisione Platforms and Devices di Google ed ex CEO di Liftware, ha testato il nuovo Deep Think per accelerare il design di componenti fisici. Il passaggio dal virtuale al tangibile diventa più fluido.
Chi può usarlo e come
Deep Think è disponibile nell’app Gemini per gli abbonati Google AI Ultra. Ma la novità vera è un’altra: per la prima volta, l’accesso via Gemini API. Ricercatori, ingegneri e aziende selezionate possono iscriversi a un programma di accesso anticipato tramite Vertex AI.
Fino ad ora Deep Think era disponibile solo nell’app consumer. L’apertura delle API è un segnale chiaro di dove Google vuole posizionarsi.
Il quadro competitivo: numeri contro numeri
Il confronto diretto con i competitor racconta una storia precisa. Su Humanity’s Last Exam: Gemini 3 Deep Think 48.4%, Claude Opus 4.6 al 40%, GPT-5.2 al 34.5%. Su Codeforces: 3455 contro 2352 di Claude Opus 4.6.
Non si tratta di margini sottili o differenze interpretabili. Google sta consolidando una leadership tecnica nel ragionamento AI avanzato che i numeri rendono difficile da contestare.
La domanda che mi rimane è cosa succederà quando queste capacità diventeranno accessibili su larga scala. Un’AI che trova errori in paper peer-reviewed, che progetta ricette per materiali semiconduttori, che trasforma schizzi in oggetti fisici. Siamo in un territorio dove le implicazioni per la ricerca scientifica e l’ingegneria diventano concrete e immediate.
Verso laboratori di ricerca potenziati dall’AI
Il rilascio di Gemini 3 Deep Think rappresenta un punto di svolta per chi lavora in ambito scientifico e ingegneristico. Non stiamo più parlando di AI come assistente per compiti ripetitivi. Parliamo di un sistema che può contribuire attivamente alla scoperta scientifica.
I casi d’uso già in test – dalla matematica avanzata alla scienza dei materiali – suggeriscono un futuro dove i laboratori di ricerca integrano queste capacità nel loro workflow quotidiano. La vera domanda non è più se l’AI possa aiutare la ricerca, ma quanto velocemente cambierà il modo in cui la ricerca viene condotta.
