L’AI batte i medici nella diagnosi: studio di Science su 76 casi reali di pronto soccorso

Ok, questo studio pubblicato su Science è uno di quelli che fa alzare le sopracciglia. Non perché prometta la solita rivoluzione AI — quella roba stanca che sentiamo ogni settimana — ma perché per la prima volta hanno messo un LLM (il modello OpenAI o1) a confronto diretto con centinaia di medici veri su casi clinici reali. E il modello ha vinto. Nettamente.

Il test che conta davvero

Hanno usato sei esperimenti diversi. Il più interessante? Settantasei pazienti casuali arrivati al pronto soccorso del Beth Israel Deaconess Medical Center di Boston. Casi veri, dati disordinati presi direttamente dalle cartelle cliniche — non i soliti esercizi ripuliti da manuale. L’AI doveva fare diagnosi differenziale in tre momenti chiave: triage iniziale, visita del medico d’urgenza, ricovero in reparto o terapia intensiva.

Risultato? Al triage iniziale — dove hai meno informazioni e più pressione — o1 ha identificato la diagnosi esatta o molto vicina nel 67,1% dei casi. I due medici esperti che hanno partecipato al test: 55,3% e 50%. Non è un margine da poco quando parliamo di decisioni che si prendono in minuti.

I casi storici del New England Journal of Medicine

Poi c’erano i famosi clinicopathological conferences del NEJM — quei casi complessi che dal 1950 sono il gold standard per testare sistemi diagnostici computerizzati. Roba che ha fatto la storia dell’informatica medica. o1-preview (la versione precedente del modello) ha incluso la diagnosi corretta nel suo differenziale nel 78,3% dei casi. Nel 52% dei casi, la diagnosi giusta era proprio la prima suggerita.

Confronto con GPT-4 su 70 casi: o1 ha prodotto diagnosi esatta o molto vicina nell’88,6% dei casi, GPT-4 nel 72,9% (p=0.015 — statisticamente significativo, per chi mastica questi numeri). In pratica: o1 ha battuto GPT-4 in 17 casi su 70, pareggiato su 48, perso su 5.

Management e ragionamento clinico

Non parliamo solo di diagnosi. Hanno testato anche la capacità di pianificare test diagnostici e gestire i pazienti. Su 136 casi NEJM, o1 ha scelto il test corretto nell’87,5% dei casi, un test comunque utile nell’11%, dannoso solo nell’1,5%.

Sui casi Grey Matters — cinque scenari clinici reali valutati da 25 esperti — o1 ha ottenuto un punteggio mediano dell’89%. GPT-4: 42%. Medici con accesso a GPT-4: 41%. Medici con risorse tradizionali: 34%. La differenza è brutale.

Il dettaglio che cambia tutto

Una cosa che mi ha colpito: hanno fatto lo studio in cieco. Due medici valutavano le diagnosi senza sapere se venivano dall’AI o da colleghi umani. Risultato? Uno dei valutatori ha indovinato correttamente se era AI o umano solo nel 15,2% dei casi (83,6% delle volte ha risposto “non lo so”). L’altro: 3,1% di accuratezza nell’indovinare, 94,4% “non lo so”. In pratica, le diagnosi dell’AI erano indistinguibili da quelle umane — anzi, spesso migliori.

Limiti (che esistono)

Gli autori sono onesti sui limiti. Primo: questo vale solo per input testuali. La medicina vera include segnali visivi (imaging), uditivi (il tono di voce del paziente), il linguaggio del corpo. Le AI attuali sono più limitate su quei fronti. Secondo: lo studio si concentra su medicina interna ed emergenza — chirurgia, pediatria, altre specialità non sono state testate. Terzo: hanno studiato sei aspetti del ragionamento clinico, ma ne esistono decine.

Punto critico: nel pronto soccorso le decisioni vere riguardano triage, dimissione o ricovero, management immediato — non solo accuratezza diagnostica. Questo studio è un proof of concept, non la parola finale su come usare AI in emergenza.

Cosa significa davvero

Da 65 anni — da quando Ledley e Lusted pubblicarono il paper fondativo nel 1950 — il benchmark per testare sistemi diagnostici computerizzati sono stati i casi clinici complessi. Generazioni di sistemi bayesiani, expert systems basati su regole, symptom checkers hanno provato e fallito. Gli LLM li hanno superati tutti.

Gli autori chiudono con un punto secco: “i LLM hanno ormai eclissato la maggior parte dei benchmark di ragionamento clinico, il che rende urgente la necessità di trial prospettici”. Tradotto: basta test su casi storici, servono studi clinici veri con pazienti reali per capire se questa roba migliora davvero gli outcome.

Perché — ed è qui che diventa interessante — errori diagnostici costano vite e soldi. Negli USA si stima che tra il 10% e il 20% delle diagnosi siano sbagliate o ritardate. Se un’AI può ridurre quel numero anche solo del 5%, parliamo di migliaia di vite. Ma serve cautela: deployment scorretto potrebbe creare nuovi rischi.

Il futuro (che è tipo domani)

Lo studio ha usato o1-preview, che è già stato superato da o1 e ora da o3. Se il trend di miglioramento continua — e finora ha continuato — tra sei mesi questi numeri potrebbero essere già obsoleti. Il che rende ancora più urgente capire come integrare questi strumenti nei workflow clinici senza fare disastri.

Per ora, una cosa è chiara: l’AI non è più quella cosa che “forse un giorno” aiuterà i medici. È già qui, e in certi compiti ragiona meglio di loro. La domanda non è più “se” ma “come” la useremo. E soprattutto: come costruiamo sistemi di monitoraggio per assicurarci che non faccia danni quando sbaglia — perché, ovviamente, sbaglierà.