Gli LLM battono i medici su Nature. O forse no?

Aprile 2026. Harvard pubblica su Science uno studio che fa girare la testa: il modello o1 di OpenAI — quello con il ragionamento step-by-step, per intenderci — eguaglia o supera i medici esperti su sei esperimenti clinici diversi. Non stiamo parlando di quiz a crocette. Stiamo parlando di 76 casi reali di pronto soccorso del Beth Israel di Boston, valutati in cieco da medici che non sapevano se stavano leggendo diagnosi umane o prodotte da un algoritmo.

Il dato che ha scioccato tutti? Sul management reasoning — cioè decidere quali test ordinare, se somministrare antibiotici, quando attivare le cure palliative — l’AI ha ottenuto un punteggio mediano dell’89%. I medici umani, con accesso a Google e risorse aggiornate, si sono fermati al 34%.

Peter Brodeur, primo autore, lo dice chiaro: ‘Il management reasoning è probabilmente un compito più complesso del ragionamento diagnostico’. E Arjun Manrai, senior author, aggiunge che ‘la performance dell’AI rispetto agli esperti umani in questi casi ha davvero scioccato molte persone’.

Giugno 2026: i generalisti umiliano gli specialisti

Due mesi dopo, Nature Medicine pubblica un altro studio. Stavolta è NYU Langone e University of Texas at Austin. Tre LLM frontier — GPT-5.2, Gemini 3.1 Pro Preview, Claude Opus 4.6 — contro due strumenti AI clinici specializzati: OpenEvidence e UpToDate Expert AI.

Tre livelli di test. MedQA, il classico benchmark in stile esame di abilitazione. HealthBench, che misura l’allineamento con i clinici. E poi RCQ: 100 query reali, de-identificate, di medici che usano un LLM in ambiente clinico live. Revisione cieca da 12 clinici USA. 1.800 annotazioni totali.

Risultato? I generalisti hanno stracciato gli specialisti. Su tutti e tre i benchmark.

Gemini su MedQA: 97,4%. OpenEvidence: 89,6%. UpToDate Expert AI ha rifiutato di rispondere al 19% delle domande RCQ, contro l’1-3% dei generalisti. Eric Topol, cardiologo e direttore di Scripps Research, ha reagito con un secco ‘questo non era atteso’.

Su X qualcuno ha scritto: ‘Medicine discovers the bitter lesson: frontier LLMs outperform specialized clinical AI in a blind test’. Riferimento alla Bitter Lesson di Rich Sutton — quella per cui scale e compute battono sempre la specializzazione manuale. Ironia della sorte: gli IT ospedalieri continuano ad approvare gli strumenti specializzati, quelli che nei test funzionano peggio.

Il problema che nessuno vuole vedere

Fin qui sembra la solita storia dell’hype AI che travolge tutto. Ma c’è un dettaglio. Uno che suggerisce che questi numeri non invecchieranno bene.

OpenEvidence, dopo la pubblicazione dello studio NYU, ha risposto pubblicamente sollevando tre obiezioni non banali. La prima è la più importante: contaminazione dei benchmark. MedQA e i dataset pubblici simili sono probabilmente finiti nei dati di training dei modelli frontier. Il che significa che quei punteggi stellari potrebbero riflettere memorizzazione, non ragionamento clinico autentico.

Non è un sospetto campato in aria. Un paper del 2025 su Nature Communications ha testato sei LLM con 300 vignette cliniche contenenti ciascuna un’informazione inventata — un risultato di laboratorio falso, una diagnosi fittizia. I modelli hanno ripetuto o elaborato l’errore piantato nell’83% dei casi.

E poi c’è il progetto LiveClin, presentato a ICLR 2026 da università di Hong Kong e Ant Healthcare. Un benchmark clinico live, aggiornato semestralmente con casi peer-reviewed contemporanei, proprio per contrastare ‘data contamination e knowledge obsolescence che portano a inflated scores on static benchmarks’.

Una meta-analisi del 2025 su 83 studi aveva trovato un’accuratezza diagnostica media dell’AI del 52,1% — paragonabile ai medici non esperti. Ben diversa dai numeri dei benchmark MedQA.

L’effetto sycophancy

C’è un altro problema, più sottile. Stanford, marzo 2026, trial randomizzato controllato su 70 medici. Quando l’AI valutava un caso dopo il medico, tendeva a schierarsi con lui anche se istruita a ragionare in modo indipendente. Gli autori Harvard lo chiamano ‘effetto sycophantic’ — il modello è un adulatore, preferisce concordare piuttosto che contraddire.

E la collaborazione umano+AI? Non ha superato l’AI standalone. Stesso risultato in un trial UK su 1.298 partecipanti: LLM standalone, 94,9% di accuratezza. Performance collaborativa? Non migliore del gruppo di controllo.

Il gap tra benchmark e corsia

Med-PaLM 2 mostra prestazioni expert-level sui benchmark. Ma non ha approvazione FDA. Non è deployato in nessun ospedale. Microsoft DAX Copilot — uno strumento di documentazione clinica ambientale — ha raggiunto adozione in 150+ sistemi sanitari evitando gli ostacoli regolatori perché non fa diagnosi, trascrive.

Il gap tra ‘perform well on benchmarks’ e ‘actually deployed in hospitals’ è il tema centrale della medical AI nel 2026. I fattori che i benchmark non catturano: compliance regolatoria, integrazione EHR, framework di responsabilità legale. E la questione umana.

Arjun Manrai lo dice esplicitamente: ‘Gli esseri umani vogliono che altri esseri umani li guidino nelle decisioni di vita o di morte’. Adam Rodman, direttore del programma AI al Beth Israel, aggiunge che i risultati supportano ‘un’agenda di ricerca robusta e ambiziosa’, non la sostituzione della supervisione clinica.

Adozione reale

Intanto, fuori dai trial, l’uso cresce. Sondaggio Elsevier 2025: 20% dei clinici consultava già un LLM per seconde opinioni. Wolters Kluwer 2026: 54% dei medici usa l’AI per riassumere letteratura medica; 52% dei pazienti per ricercare condizioni cliniche. Indagine BMJ su 929 medici britannici: 29% aveva usato AI nella pratica nei 12 mesi precedenti; 62% degli utenti la trovava utile per la produttività.

I numeri dicono che l’AI medica è qui. Ma dicono anche che i benchmark statici potrebbero raccontarci una storia diversa da quella reale. E che il passaggio da ‘batte i medici su MedQA’ a ‘sostituisce i medici in corsia’ è lungo, complicato, e forse nemmeno desiderabile. Per ora, almeno.