Google Health testa l’AI per lo screening del tumore al seno nel NHS britannico

Il tumore al seno è la prima causa di morte per le donne tra i 35 e i 64 anni nel Regno Unito. La mammografia salva vite — questo è confermato — ma il sistema sanitario britannico ha un problema: mancano radiologi. Non pochi: parliamo del 30% in meno rispetto al necessario, che diventerà 40% entro il 2028.

Attualmente il NHS usa un processo chiamato “double-read”: due radiologi valutano ogni mammografia, e se c’è disaccordo interviene un panel di arbitrato. Funziona, ma richiede tempo e persone che non ci sono.

Google Health ha pubblicato due studi su Nature Cancer che testano un sistema AI per affiancare (o sostituire parzialmente) il secondo lettore umano. Spoiler: i risultati sono interessanti, ma con qualche inghippo.

Primo studio: l’AI da sola funziona?

Lo studio ha analizzato 125.000 mammografie da cinque centri NHS con workflow diversi. L’AI è stata confrontata col primo lettore umano usando un follow-up di 39 mesi — abbastanza lungo per identificare tumori “intervallo” (quelli che compaiono tra uno screening e il successivo) e tumori del round successivo.

Risultato? L’AI ha rilevato più tumori del primo lettore umano senza aumentare i falsi positivi. Il tasso di detection è passato da 7,54 a 9,33 casi ogni 1.000 donne. Cosa più impressionante: ha individuato il 25% dei tumori intervallo che il doppio controllo umano aveva perso.

L’AI se la cava particolarmente bene con:

Tumori invasivi (i più rischiosi)
Donne al primo screening (meno falsi positivi, più detection)
Nessuna disparità evidente per età, etnia, densità mammaria o status socioeconomico

Nella fase prospettica — deployment reale in 12 siti NHS — il sistema ha processato 9.266 casi in circa due mesi per servizio. Tempo mediano dall’esame alla lettura AI: 17,7 minuti. Primo lettore umano: oltre 2 giorni.

Però. Durante il deployment è emerso un “distribution shift” — i dati clinici moderni erano diversi da quelli di training. Il che dimostra che non basta installare l’AI e lasciarla girare: serve calibrazione continua agli ambienti locali.

Secondo studio: l’AI + umani funziona meglio?

Questo è il test vero: 22 radiologi hanno arbitrato 8.732 casi complessi usando due workflow:

Standard: opinioni di due lettori umani
AI-enabled: opinione del primo lettore + output dell’AI con regioni evidenziate

Il campione totale era di 50.000 donne. Follow-up sempre di 39 mesi per verificare se l’AI aiutava a intercettare tumori prima.

Risultato principale: il workflow con AI era “non-inferiore” a quello tradizionale in termini di sensibilità e specificità. Tradotto: stessa qualità di detection.

Ma c’è un beneficio operativo concreto: riduzione stimata del 46% nel numero totale di letture richieste (considerando che l’8,7% dei casi complessi — come quelli con protesi — richiedeva comunque due umani). Contando che le letture di arbitrato richiedono più tempo, questo si traduce in un risparmio del 36-44% del tempo complessivo dei radiologi.

Il problema dell’arbitrato

Qui viene il punto dolente. I panel di arbitrato hanno sovrascritto 93 decisioni corrette dell’AI su casi con tumore — quasi tutti tumori intervallo o del round successivo, difficili da individuare.

Cosa significa? Che gli umani non si fidano abbastanza dell’AI quando questa “vede” qualcosa che loro non vedono. O forse l’AI non spiega abbastanza bene perché ha flaggato quel caso.

Google stessa lo ammette: serve lavoro su explainability e su come gli esperti interpretano output AI che contraddicono il loro giudizio.

Cosa cambia davvero

Se questo sistema venisse adottato su larga scala:

Più tumori individuati, specialmente invasivi e al primo screening
Meno carico di lavoro per i radiologi (che scarseggiano)
Tempi di lettura molto più rapidi

Ma anche:

Più casi che finiscono in arbitrato (perché l’AI è più sensibile)
Rischio che gli arbitri scartino segnalazioni corrette dell’AI
Necessità di calibrazione continua per “data drift”

Non è plug-and-play. È un sistema che richiede monitoraggio, aggiustamenti locali, e — probabilmente — training per i radiologi su come interpretare gli output AI.

Conclusione (senza retorica)

Gli studi dimostrano che l’AI può rilevare più tumori del singolo lettore umano e può sostituire il secondo lettore senza perdere accuratezza complessiva. Questo libererebbe tempo prezioso in un sistema che ne ha disperatamente bisogno.

Perfetto? No. I panel di arbitrato hanno scartato decine di segnalazioni corrette, il sistema va calibrato localmente, e serve migliorare l’explainability.

Ma è un passo concreto verso screening più sostenibili. Non “rivoluzione AI salva il mondo”, ma uno strumento che — usato bene — potrebbe davvero aiutare a rilevare tumori prima e salvare vite.