Alibaba insegna ai modelli AI a pensare più a lungo (e meglio)

Il team Qwen di Alibaba ha sviluppato un nuovo algoritmo di training per modelli di ragionamento che assegna pesi diversi ai singoli token in base a quanto ogni passaggio influenza la catena di ragionamento successiva, invece di trattare tutti i token allo stesso modo.

L’approccio ha portato a catene di ragionamento notevolmente più lunghe, con il modello che impara autonomamente a verificare i risultati intermedi e a controllare soluzioni alternative — comportamento emerso naturalmente dal segnale di reward pesato.

Il problema del reward piatto

Quando un modello linguistico impara a ragionare attraverso reinforcement learning, tipicamente riceve un semplice giudizio pass/fail alla fine di ogni risposta generata. Quel reward viene poi distribuito uniformemente su ogni singolo token nella sequenza. Non importa se un token segna il punto di svolta logico chiave o è solo una virgola.

Il team Qwen sostiene che questa assegnazione di credito grossolana è una delle ragioni principali per cui i modelli di ragionamento raggiungono un tetto con metodi di training comuni come GRPO (Group Relative Policy Optimization). Le catene di ragionamento crescono fino a una certa lunghezza e poi si stabilizzano.

FIPO: guardare avanti per premiare meglio

Con Future-KL Influenced Policy Optimization (FIPO), il team vuole superare quel collo di bottiglia. Invece di valutare ogni token da solo, l’algoritmo guarda avanti: come cambia il comportamento del modello a valle dopo aver generato questo particolare token?

FIPO calcola lo spostamento cumulativo di probabilità attraverso tutti i token seguenti e usa quel segnale per distribuire reward più precisamente. I token che avviano una catena di ragionamento produttiva ottengono una quota maggiore. I token che mandano il modello in un vicolo cieco ne ottengono meno.

Niente modelli ausiliari, stessi risultati

I tentativi precedenti di risolvere il problema del reward piatto si basavano principalmente su metodi basati su PPO che usano un modello di valore separato per stimare un punteggio di beneficio per ogni token.

Quel modello ausiliario richiede tipicamente pre-training su dati lunghi di chain-of-thought, il che significa che filtra conoscenza esterna. I ricercatori affermano che questo rende difficile capire se i guadagni di performance provengono dall’algoritmo stesso o sono semplicemente ereditati dall’helper pre-addestrato. FIPO salta completamente il modello ausiliario e fornisce comunque risultati comparabili.

Processi di pensiero che raddoppiano mentre l’accuratezza sale

Il team ha testato FIPO su Qwen2.5-32B-Base, un modello senza alcuna esposizione precedente a dati sintetici di long-CoT. Lo hanno addestrato esclusivamente sul dataset pubblico di DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), una popolare variante open-source di training GRPO, per mantenere equo il confronto.

I risultati sono chiari. Mentre la lunghezza media della chain-of-thought di DAPO si ferma intorno ai 4.000 token, FIPO supera i 10.000. Sul benchmark matematico AIME 2024, l’accuratezza salta dal 50 al 56 percento, con picco al 58 percento. Questo mette FIPO davanti sia a Deepseek-R1-Zero-Math-32B a circa il 47 percento che a o1-mini di OpenAI a circa il 56 percento. Sul più difficile AIME 2025, i punteggi salgono dal 38 al 43 percento.

I ricercatori notano che non sono solo alcune risposte anomale a diventare più lunghe. L’intera distribuzione delle lunghezze delle risposte si sposta verso l’alto, dalle risposte più brevi a quelle più lunghe. Questo suggerisce un cambiamento fondamentale nel modo in cui il modello affronta i problemi.

Il modello inizia a fare fact-checking su se stesso

Il paper delinea quattro fasi che il modello attraversa durante il training. All’inizio, sforna modelli di pianificazione superficiali — sostanzialmente schemi senza vera matematica che terminano in una risposta allucinata. Nella seconda fase, dove i modelli addestrati con DAPO rimangono per il resto del training, il modello esegue una catena di ragionamento lineare pulita e si ferma alla prima risposta che trova.

Nella fase tre, il modello inizia spontaneamente a controllare due volte i propri risultati intermedi. Raggiunge una risposta ma poi passa a un approccio diverso, passando dalla manipolazione algebrica all’interpretazione geometrica, per esempio, per verificare. Entro la fase quattro, il modello esegue una verifica sistematica multi-pass, ricalcolando grandi numeri quadrati passo dopo passo e lavorando attraverso la derivazione completa più volte.

Il paper nota che questo comportamento assomiglia molto alle strategie di scaling a tempo di inferenza nella serie o di OpenAI e in Deepseek-R1, ma FIPO lo ottiene solo attraverso reinforcement learning, senza dati sintetici di long-CoT.

Ancora primi giorni

FIPO è stato testato solo su problemi matematici, addestrato su un singolo dataset e testato solo su modelli base senza pre-training long-CoT. Le sequenze più lunghe aumentano anche i costi computazionali. Quindi c’è ancora molto testing che deve essere fatto, secondo il team.

Inoltre, se questi guadagni si trasferiscano ad altri domini come il codice o la logica simbolica è ancora una questione aperta. C’è anche un gap di performance rispetto alla distillazione da modelli teacher più grandi. Il reinforcement learning puro insegna a un modello meno dell’istruzione diretta da uno più forte.

Il team afferma che pianifica di rendere open-source il sistema di training insieme a tutte le configurazioni.