Claude scopre da solo come allineare l’AI (e batte gli umani)

Anthropic ha appena pubblicato uno studio che fa venire i brividi – nel senso buono. Hanno dato a nove copie di Claude Opus 4.6 un obiettivo: scoprire metodi per migliorare il “weak-to-strong supervision”, cioè come far sì che un modello debole possa insegnare efficacemente a uno forte. Praticamente il proxy del problema vero: come facciamo a controllare AI più intelligenti di noi quando arriveranno?

Il setup: nove Claude che fanno ricerca da soli

Ogni Claude aveva una sandbox per lavorare, un forum condiviso per scambiarsi risultati, storage per il codice e un server remoto che assegnava punteggi. Gli hanno dato qualche hint vago (“prova con interpretability tools”, “guarda il reweighting dei dati”) per evitare che convergessero tutti sulla stessa idea, e poi… li hanno lasciati andare.

Zero micromanaging. Dovevano proporre ipotesi, fare esperimenti, analizzare risultati e coordinarsi tra loro per capire cosa provare dopo.

I risultati fanno girare la testa

Baseline umano: due ricercatori di Anthropic passano sette giorni a iterare sui quattro metodi più promettenti dalla letteratura esistente. Risultato? PGR di 0.23 – cioè recuperano il 23% del gap di performance tra modello debole e modello forte.

Claude dopo cinque giorni (800 ore cumulative tra i nove agenti)? PGR di 0.97. Praticamente chiude l’intero gap.

Costo: $18,000 in token e training. Circa $22 per ora-ricercatore AI. Non male.

Ma funziona davvero o è un hack?

Domanda legittima. Anthropic ha fatto due test di realtà:

Test 1 – Generalizzazione: Prendono i due metodi migliori (scoperti su task di chat) e li applicano a math e coding. Il metodo top funziona bene: PGR 0.94 su math, 0.47 su coding (comunque il doppio del baseline umano). Il secondo metodo? Mixed bag – 0.75 su math, disastro su code.

Test 2 – Production scale: Provano il metodo migliore su Claude Sonnet 4 con infrastruttura di produzione vera. Qui… niente. Nessun miglioramento statisticamente significativo. Il problema è che gli AAR (Automated Alignment Researchers, così li chiamano) tendono a capitalizzare su opportunità specifiche dei modelli e dataset su cui lavorano. Le loro scoperte non sempre trasferiscono altrove.

Gli AAR provano a fregarti

Dettaglio inquietante ma prevedibile: anche in questo ambiente super controllato, i modelli hanno fatto reward hacking. Un AAR su task matematici ha notato che la risposta più comune era di solito quella giusta, quindi ha semplicemente istruito il modello forte a scegliere sempre quella – fregandosene del teacher. Su coding, un altro ha capito che poteva eseguire il codice contro i test e leggere direttamente la risposta corretta.

Anthropic li ha beccati e disqualificati, ma il messaggio è chiaro: qualsiasi deployment di ricercatori automatici richiederà evaluation che gli AAR non possano manomettere, più supervisione umana costante.

Cosa significa tutto questo

Non siamo ancora ad AI-scientist generale. Hanno scelto deliberatamente un problema con metrica oggettiva e singola – la maggior parte dei problemi di alignment sono molto più fuzzy. Ma…

Volume batte taste? Forse i modelli attuali non hanno “research taste” (quel senso istintivo di cosa funzionerà), ma se possono fare brute-force su miliardi di esperimenti a $22/ora, chi se ne frega? Potrebbero arrivare alle stesse conclusioni di un ricercatore con gusto sopraffino, o scoprire direzioni che quei ricercatori avrebbero abbandonato.

Il bottleneck diventa evaluation. Se gli AAR generano ipotesi a raffica, il collo di bottiglia non è più “avere idee” ma “verificare che gli esperimenti siano set up bene e i risultati siano affidabili”.

Alien science in arrivo. Per ora riusciamo ancora a capire cosa fanno gli AAR e perché. Ma col tempo? Le loro idee potrebbero diventare troppo complicate da verificare, o corrotte in modi che fatichiamo a individuare. Scienza aliena, letteralmente.

Il paradosso divertente

Stanno usando Claude per scoprire come allineare modelli futuri più intelligenti di Claude. Che poi useranno quei metodi per allineare modelli ancora più intelligenti. Che scopriranno metodi ancora migliori. È turtles all the way up – sperando che non cada il castello a un certo punto.

Codice e dataset sono pubblici. Qualcuno proverà a replicare con altri modelli? Scommetto di sì.