Anthropic trasforma Claude in un chimico (e batte ChemDraw)

Quando un chimico lavora con le molecole, salta continuamente tra rappresentazioni diverse: uno schizzo su lavagna bianca, i dati di uno strumento, una stringa per interrogare un database, la notazione tecnica di un brevetto. Ogni formato codifica la stessa chimica, ma richiede una fluenza completamente diversa.

Capite dove voglio arrivare? Un disegno della caffeina permette di notare la sua somiglianza con l’adenosina — il segnale di sonnolenza del corpo — e dedurre che ci tiene svegli bloccando il recettore. Ma quello stesso schizzo non serve a un cazzo per distinguerla da altre molecole praticamente identiche.

Capire con quale molecola stai lavorando è critico. La chimica è alla base di tutto: dal cibo ai farmaci che ingeriamo, fino alle creme, vernici e plastiche. Riorganizza una manciata di legami tra gli stessi atomi e il glucosio diventa fruttosio — molecole con la stessa formula ma processate attraverso vie metaboliche completamente diverse. Ribalta una molecola nella sua immagine speculare e un sedativo diventa un teratogeno, come successo nel disastro della talidomide. Oltre 10.000 bambini nel mondo con gravi difetti congeniti.

Il lavoro quotidiano dei chimici dipende dal leggere correttamente questi segnali, qualunque sia la rappresentazione richiesta.

Il problema della traduzione (e della scala)

Tradurre tra queste rappresentazioni — rintracciare una struttura da una figura, confrontare il risultato di uno strumento con il prodotto previsto, interrogare un database nella notazione giusta — richiede tempo. E diventa impossibile stare al passo quando la scala esplode: CAS, il più grande registro chimico, cataloga oltre 290 milioni di sostanze e ne aggiunge circa 15.000 nuove ogni giorno.

L’AI è ben posizionata per assumersi questo carico. Eppure rimane ancora largamente aspirazionale nel contesto della chimica.

Gli strumenti di machine learning sono stati presentati per anni come trasformativi per la retrosintesi — il processo di lavorare a ritroso da una molecola target a precursori più semplici per pianificare come costruirla — la previsione di reazioni e la stima di proprietà. Ma i dati di cui questi strumenti hanno bisogno sono difficili da ottenere: scarsi sui risultati negativi, inconsistenti nel formato, bloccati dietro paywall di riviste in abbonamento. E nascosti in informazioni supplementari non strutturate.

La retrosintesi è un caso emblematico: strumenti AI capaci esistono da anni, ma l’adozione è irregolare. Il chimico accademico medio o quello di un piccolo laboratorio ancora non li usa.

I modelli multimodali cambiano le carte in tavola

Anche così, i progressi dell’AI stanno finalmente raggiungendo la chimica. I modelli frontier di oggi sono multimodali e capaci di ragionamento esplicito. Possono leggere una struttura chimica direttamente da una figura di un paper o da uno schizzo a mano, invece di dipendere da un database molecolare pre-curato. E possono leggere i dettagli sperimentali di una sezione metodi o delle informazioni supplementari nella forma in cui sono effettivamente pubblicati.

Possono anche mostrare il loro ragionamento passo dopo passo — il che significa che un chimico può verificare gli output. Niente di tutto ciò elimina il problema dei dati che il settore descrive da anni, ma cambia quali problemi sono trattabili nonostante questo.

La pretesa di Anthropic è modesta: Claude sta iniziando ad assistere concretamente i chimici con il lavoro quotidiano di traduzione, recupero e integrazione che complementa il loro giudizio. E hanno intenzione di continuare ad estenderne l’utilità.

Oggi pubblicano il primo white paper di questo sforzo. Affronta l’input analitico più comune per un chimico: uno spettro NMR.

Claude contro ChemDraw sulla previsione NMR

Quasi ogni piccola molecola — farmaco, pesticida, colorante, fragranza, polimero, subunità di DNA o proteine, materiale inorganico o stato solido funzionale — esiste perché un chimico ne ha determinato la struttura. Dato che queste molecole non possono essere viste con microscopi, i chimici devono affidarsi all’analisi spettrale: sondare una molecola con luce, onde radio o campi magnetici.

Il modo in cui una data molecola assorbe, emette o deflette questa energia dà ai chimici un pattern — uno spettro — con cui possono elucidarla.

La spettroscopia NMR — una delle tecniche canoniche su cui i chimici si affidano — è uno dei passaggi più time-consuming nella chimica sintetica. Per ogni composto, un chimico deve abbinare manualmente ogni picco nello spettro a un atomo nella struttura proposta.

Per questo white paper, hanno testato Claude contro il software NMR dedicato che i chimici usano oggi. Hanno misurato tre modelli Claude (Opus 4.7, Opus 4.6, Sonnet 4.6) contro ChemDraw e MestReNova su 20 composti estratti da preprint di chimica sintetica pubblicati dopo il cutoff di addestramento dei modelli — così da evitare bias di selezione.

Sia ChemDraw che MestReNova fanno previsione forward: usano una struttura disegnata per simulare quale spettro NMR verrà prodotto. Oltre alla previsione forward, hanno voluto vedere se Claude potesse andare nella direzione opposta — partendo da uno spettro sperimentale e proponendo la struttura dietro di esso. Questo è il compito più difficile, e quello che il software esistente attualmente lascia al chimico.

Setup dell’assessment

Hanno estratto 20 composti da preprint ChemRxiv pubblicati dopo il cutoff di addestramento dei modelli, prendendo le prime molecole nuove completamente caratterizzate da ogni paper. I 20 coprono quattro famiglie strutturali, cinque composti ciascuna. Ogni famiglia selezionata perché coinvolge una categoria diversa di sfida NMR.

A ogni strumento è stata data la struttura codificata come stringa SMILES — la notazione testuale che i chimici usano per inserire una molecola nel software — ed è stato chiesto di prevedere dove ogni picco di idrogeno e carbonio sarebbe caduto lungo uno spettro NMR 1D. Un asse orizzontale che misura chemical shifts in ppm, parti per milione.

Dato che i campioni NMR sono disciolti in un liquido, e che la scelta del solvente (cloroformio, DMSO, ecc.) sposta leggermente le posizioni dei picchi, a ogni strumento è stato detto di prevedere lo spettro in qualunque solvente i chimici avessero usato nel paper pubblicato.

I risultati della previsione forward

Poiché l’output di un language model varia tra esecuzioni, ogni modello Claude è stato interrogato tre volte per composto e mediato. ChemDraw e MestReNova restituiscono la stessa risposta ogni volta e sono stati eseguiti una volta. Hanno poi accoppiato ogni picco previsto con la sua controparte sperimentale e misurato il gap in ppm.

Sull’idrogeno, Opus 4.7 è stato il più accurato, con un errore medio di ±0.079 ppm — ben sotto la metà della finestra di tolleranza — e la quota più alta di picchi al suo interno. Sul carbonio, Opus 4.7 e MestReNova erano effettivamente pari, a ±1.37 e ±1.48 ppm. Gli strumenti rimanenti hanno mantenuto lo stesso ordine di classifica su entrambi gli elementi.

Opus 4.6 era prevedibilmente mediocre. Sonnet 4.6 il più debole. Il gap tra loro era più evidente su un singolo idrogeno notoriamente difficile — un protone NH nella famiglia dei cloropiridazine la cui posizione reale cade in una banda stretta tra 6.8 e 7.9 ppm. Opus 4.7 l’ha posizionato leggermente basso ma costantemente. Opus 4.6 ha sparso le sue ipotesi su diversi ppm. Sonnet 4.6 l’ha messo nel range 10–13, ben fuori da dove appare effettivamente.

Mentre Opus 4.7 ha performato in modo abbastanza comparabile a ChemDraw e MestReNova, il gap era più ampio nel prevedere la forma assunta dal picco NMR di un idrogeno e quanto distanti sono i picchi — caratteristiche che contengono anche informazioni strutturali che un chimico legge insieme alla posizione.

Opus 4.7 ha abbinato il pattern di splitting riportato sperimentalmente più spesso di qualsiasi altro strumento. E tutti e tre i modelli Claude hanno previsto la spaziatura dei sotto-picchi entro mezzo hertz circa l’80% delle volte — contro il 26-35% per ChemDraw e MestReNova.

La previsione inversa (struttura da spettro)

Da lì, hanno valutato la previsione inversa, l’elucidazione della struttura: potremmo determinare la struttura di una molecola dal suo spettro? Hanno dato a Opus 4.7 15 problemi di elucidazione e gli hanno chiesto, tre volte ciascuno, di proporre fino a tre strutture candidate classificate.

Ogni problema forniva la formula molecolare esatta del composto (da spettrometria di massa ad alta risoluzione) e i suoi spettri NMR di idrogeno e carbonio. I quindici erano divisi per difficoltà. Gli otto target più semplici — molecole ad anello singolo o a due frammenti — erano posti solo con la formula e gli spettri. I sette target più densi — anelli fusi, spirocicli e simili — erano accompagnati da un suggerimento aggiuntivo: la struttura del materiale di partenza entrato nella reazione.

Opus 4.7 ha recuperato tutte e otto le strutture più semplici in ogni tentativo solo da spettri e formula. Sui sette target più difficili, dato il suggerimento del materiale di partenza, ha restituito la struttura corretta in tutte e tre le esecuzioni per quattro di essi e in due su tre per quelli rimasti.

Cosa significa tutto questo

Per la previsione di dati di routine, Opus 4.7 — un modello general-purpose senza fine-tuning specifico per la chimica — è ora buono quanto o migliore di ChemDraw e MestReNova in media. Inoltre, Claude può anche lavorare il problema al contrario, proponendo una struttura solo dai dati NMR.

Il software dedicato all’elucidazione strutturale esiste da decenni, ma tipicamente richiede NMR 2D (uno spettro con due assi, e l’output è una mappa di contorno piuttosto che una fila di picchi), training specializzato e strumenti con licenza. Claude lo fa dallo stesso spettro di massa ad alta risoluzione e lista di picchi 1D che un chimico incollerebbe in una chat. Senza setup.

Limiti (perché non è tutto rose e fiori)

Questa valutazione mostra che un modello general-purpose può essere competitivo con il software NMR e persino rendere trattabile l’elucidazione inversa 1D. Ma ci sono una manciata di limitazioni degne di nota.

Primo: la valutazione era piccola. 20 composti su quattro scaffold per il task forward, 15 per quello inverso. E ogni scaffold contribuisce una singola classe di modalità di fallimento. Le performance del modello dovrebbero quindi essere lette come indicative piuttosto che precise.

Secondo: sui target inversi più densi, senza il materiale di partenza come input aggiuntivo, il modello poteva ciclare attraverso il suo ragionamento senza impegnarsi in una struttura finale. Ecco perché i sette problemi più difficili erano posti con la struttura del materiale di partenza piuttosto che solo spettri.

Terzo: alcuni scaffold chimici sono stati lasciati non testati. Ad esempio, gli NH eteroaromatici a scambio lento sono campionati solo attraverso cloropiridazine, lasciando fuori sistemi correlati.

Quarto: esperimenti 2D (COSY, HSQC, HMBC) e stereochimica sono fuori scope per design, dato che l’NMR 1D da solo non può fissare la configurazione. Di conseguenza, composti complessi di prodotti naturali non sono stati valutati.

E infine: la copertura dei solventi era limitata a DMSO-d₆, CDCl₃ e D₂O. Metanolo-d₄, benzene-d₆ e acetone-d₆ non sono stati valutati.

Idealmente, vorrebbero vedere come questi numeri reggono su diverse centinaia di composti che coprono 20-30 classi di scaffold, con almeno 15 composti per classe. In modo che la varianza intra-classe possa essere separata dalle differenze tra strumenti.

Prossimi passi

Mentre continuano a migliorare le performance di Claude in chimica, si stanno concentrando specificamente su una manciata di colli di bottiglia che rallentano di più i chimici.

Leggere e renderizzare strutture chimiche — convertire un disegno da una figura, brevetto, slide o schizzo in una forma machine-readable, e passare tra rappresentazioni strutturali e i nomi sistematici usati nella letteratura chimica.

Ragionamento di reazione e sintetico — proporre, valutare e criticare percorsi sintetici, anticipare risultati e ragionare su selettività, condizioni e probabili sottoprodotti.

Meccanismo — spiegare e testare meccanismi di reazione nel linguaggio che un chimico usa effettivamente, con frecce di elettroni, intermedi e argomenti di stato di transizione.

Comprensione della letteratura chimica — leggere la chimica come appare nel lavoro pubblicato, dove la stessa molecola può essere disegnata, nominata, abbreviata o referenziata da un codice. Ed estrarre la chimica che conta da sezioni di metodi, informazioni supplementari e brevetti.

Questi non sono tutti sulla stessa curva di maturità. Dove l’analisi spettrale è abbastanza avanti da poter essere benchmarkabile, altri — come la pianificazione retrosintesi — sono ancora in fase di scoping.

L’obiettivo finale? Assicurarsi che i chimici che lavorano sappiano dove Claude può far loro risparmiare tempo e dove devono ancora affidarsi alla propria expertise. Il che, diciamocelo, è l’unico approccio sensato quando metti AI nelle mani di persone che maneggiano sostanze che possono ucciderti se sbagli un legame.