K-Health rivoluziona la telemedicina: come Gemma 3 di Google DeepMind trasforma l’assistenza medica AI

L’intelligenza artificiale ridefinisce il rapporto medico-paziente

C’è qualcosa di profondamente affascinante nel vedere come un’azienda di telemedicina abbia deciso di ripensare completamente il modo in cui i pazienti interagiscono con un sistema sanitario. K-Health, startup newyorkese fondata nel 2016 con oltre 380 milioni di dollari di finanziamenti alle spalle, ha fatto una scelta che a prima vista sembra controintuitiva: invece di puntare sul modello più grande e potente disponibile, ha scommesso su qualcosa di più piccolo. E i risultati? Beh, stanno facendo parlare.

La piattaforma offre cure primarie virtuali 24 ore su 24 attraverso un sistema che si basa su dati reali – stiamo parlando di milioni di cartelle cliniche provenienti da Maccabi Healthcare Services in Israele e dalla Mayo Clinic. Non simulazioni, non dati sintetici. Informazioni vere di pazienti veri.

Il problema che nessuno voleva ammettere

Ecco la questione: K-Health aveva già un assistente medico AI funzionante. Sulla carta, tutto bene. Nella pratica? I pazienti percepivano qualcosa di freddo, meccanico. La chat “faticava ad apparire conversazionale, empatica e professionale” – parole del team di sviluppo. Tre aggettivi che, messi insieme, rappresentano esattamente quello che un paziente cerca quando sta male alle tre di notte e deve capire se correre al pronto soccorso o aspettare il mattino.

Il team di K-Health operava seguendo una filosofia che suona quasi eretica nel mondo AI attuale: un modello più piccolo e ben addestrato può spesso superare modelli più grandi. L’idea era insegnare al modello la logica decisionale, non semplicemente farlo generare contenuti. Una differenza sottile ma fondamentale.

Perché Gemma 3 e non i soliti noti

Dopo aver valutato Llama e altri modelli open source, la scelta è caduta su Gemma 3 attraverso Vertex AI di Google Cloud. Le ragioni? Un bilanciamento tra performance computazionali ed efficienza dei costi che altri non offrivano. Per il training hanno messo in piedi un’infrastruttura non banale:

  • Cluster GPU H100 multi-nodo con 16 nodi
  • Script riutilizzabili per training e inferenza
  • Varianti Gemma 3 da 4B, 12B e 27B parametri
  • Il modello domain-specific MedGemma 27B

La metodologia scelta si chiama Direct Preference Optimization – DPO per gli amici. In pratica, il team ha creato una funzione di valutazione per giudicare la qualità delle conversazioni su tre criteri: accuratezza dei dettagli medici, coerenza conversazionale, e risultati clinici concreti come referenze di persona o prescrizioni.

Il training nei dettagli

Per ogni caso clinico sono state generate 10 chat sintetiche, valutate tramite la funzione di valutazione. La combinazione della migliore e peggiore chat veniva poi utilizzata per insegnare al modello cosa distingue un’interazione paziente di successo da una fallimentare. Un approccio che ricorda più l’apprendimento umano che la classica ottimizzazione algoritmica.

Trovare il numero giusto di epoch – i cicli di training – si è rivelato critico. Troppo pochi e il modello non impara abbastanza. Troppi e si va in overfitting, con il modello che memorizza invece di generalizzare.

I numeri che hanno fatto saltare sulla sedia

I risultati del training DPO hanno validato la scommessa iniziale. Gemma 3 4B ha mostrato il miglioramento più significativo: il “business score” interno è passato da 0.48 a 0.76 con 10 epoch. Gemma 3 12B ha raggiunto 0.81 dopo 20 epoch. La versione 27B è arrivata a 0.68 partendo da 0.56.

Ma ecco dove la storia diventa interessante. Il team ha scoperto che usando Axolotl AI con Accelerate su una macchina virtuale multi-nodo personalizzata, il tempo di training è sceso del 66% – da 4.5 ore a 1.5 ore. Gradient checkpointing e precisione 8-bit hanno permesso di raggiungere un’accuratezza del 90-95% prevenendo l’overfitting.

Un meccanismo di auto-riflessione permette ora al modello di valutare il proprio output per coerenza fattuale e flusso conversazionale. Il numero medio di chiamate API per chat è passato da 100 a 60. Tradotto: costi più bassi e risposte più veloci.

MedGemma: quando l’AI parla la lingua della medicina

Vale la pena aprire una parentesi su MedGemma, il modello specializzato che K-Health ha testato insieme alle versioni generiche di Gemma 3. Lanciato durante Google I/O 2025, MedGemma è una collezione di modelli ottimizzati per comprensione di testo e immagini mediche.

Le performance sono notevoli. MedGemma 27B ottiene 87.7% sul benchmark MedQA per conoscenza e ragionamento medico – entro 3 punti da DeepSeek R1 ma a circa un decimo del costo di inferenza. Dopo fine-tuning, la versione 4B raggiunge performance state-of-the-art nella generazione di report da radiografie del torace.

Google però mette le mani avanti: MedGemma “non è ancora clinical grade” e non è inteso per uso diagnostico diretto. Gli output richiedono verifica indipendente e correlazione clinica. Una cautela necessaria quando si parla di salute delle persone.

Partnership che contano

K-Health non opera nel vuoto. La rete di partnership include nomi come Cedars-Sinai, Mayo Clinic, Mass General Brigham, Northwell Health. Nel 2024 è stato annunciato un accordo per una soluzione cardiaca preventiva con Mayo Clinic. Nel novembre 2025 è arrivata la partnership con Northwell Health, il più grande sistema sanitario di New York.

Il modello di business dietro l’AI medica

Come genera entrate K-Health? Attraverso fee di membership per accesso alla piattaforma, servizi integrati con sistemi sanitari e assicurazioni, e un’app direct-to-consumer. I costi per gli utenti: 49 dollari al mese per visite illimitate, 73 dollari per visita singola, 449 dollari annui. La piattaforma ha completato oltre 10 milioni di Medical Chat.

Nel 2022 l’azienda ha generato 52 milioni di dollari di entrate. Non è ancora profittevole, ma la valutazione di 900 milioni di dollari suggerisce che gli investitori – tra cui Cedars-Sinai, Elevance Health e persino Gal Gadot – vedono potenziale a lungo termine.

Cosa significa tutto questo per il futuro della sanità

“Questo pilot di successo ha validato la visione di K-Health per un sistema di intake paziente guidato dall’AI e ha stabilito un nuovo benchmark per creare AI efficienti, efficaci e veramente conversazionali in contesti clinici,” ha dichiarato Ran Ilan Ber, VP of Data Science di K-Health.

Il caso K-Health dimostra qualcosa di importante: nel settore healthcare, l’AI più grande non è necessariamente l’AI migliore. Un modello general-purpose più piccolo, fine-tuned su dati decisionali di alta qualità, può superare modelli domain-specific più grandi. È una lezione che va oltre la telemedicina e tocca l’intero ecosistema dell’intelligenza artificiale applicata.

La storia di Google DeepMind nella sanità è stata finora turbolenta – basta pensare alla controversa collaborazione con il Royal Free London NHS che sollevò questioni di privacy. Ma il rilascio di modelli open come Gemma 3 e MedGemma, combinato con casi d’uso commerciali di successo come K-Health, suggerisce un approccio più maturo. L’AI medica sta crescendo, e questa volta sembra farlo nella direzione giusta.