Qwen3-Max-Thinking: il modello AI di Alibaba che sfida i colossi del ragionamento

Un rilascio che ha fatto alzare qualche sopracciglio

Ok, partiamo dal dato grosso: Alibaba ha tirato fuori Qwen3-Max-Thinking, e no, non è la solita minestra riscaldata. Stiamo parlando di oltre un trilione di parametri – sì, avete letto bene, un trilione con la T maiuscola – e prestazioni che lo piazzano al terzo posto nella classifica globale LMArena. Davanti a GPT-5-Chat in diverse categorie. Lasciatemi ripetere: un modello open-source che batte roba proprietaria.

La modalità thinking è sbarcata a novembre 2025, qualche mese dopo il lancio di Qwen3-Max a settembre. E qui viene il bello: 100% di accuratezza su AIME 2025 e HMMT. Quei benchmark che fanno sudare anche i matematici umani. Non il 99%, non il 98%. Il 100%.

Cosa rende questo modello diverso dagli altri

Scetticismo comprensibile, lo so. Quanti annunci roboanti abbiamo visto nel 2025? Troppi. Ma qui ci sono alcune differenze concrete che vale la pena guardare.

L’uso adattivo degli strumenti

La prima cosa che mi ha colpito: il modello decide da solo quando usare strumenti esterni. Non dovete più dire “usa Google” o “esegui questo codice”. Qwen3-Max-Thinking capisce quando serve una ricerca, quando ha bisogno della memoria e quando tirare fuori l’interprete di codice. Emerge dal training, non è una feature hardcoded.

Tradotto in pratica: meno allucinazioni, accesso a informazioni in tempo reale, risposte più personalizzate. L’interprete di codice permette di eseguire snippet al volo e applicare ragionamento computazionale a problemi complessi. Non male per un chatbot.

Il test-time scaling che funziona davvero

Qui divento un po’ nerd, abbiate pazienza. Il test-time scaling è quella roba dove butti più calcolo durante l’inferenza per ottenere risultati migliori. Semplice no? Beh, non proprio.

Il problema classico: aumenti i percorsi paralleli e finisci con ragionamenti ridondanti. Alibaba ha fatto una mossa intelligente: invece di moltiplicare le traiettorie parallele, hanno limitato quel numero e ridiretto la potenza di calcolo verso riflessioni iterative. C’è un meccanismo di “take-experience” che distilla insights dai round precedenti, evitando di riderivare conclusioni già note.

I numeri? GPQA passa da 90.3 a 92.8, LiveCodeBench v6 da 88.0 a 91.4, IMO-AnswerBench da 89.5 a 91.5. Con lo stesso consumo di token. Efficienza, non solo potenza bruta.

I benchmark: cosa dicono davvero

Guardate, i benchmark vanno presi con le pinze. Lo sappiamo tutti. Ma quando vedi un pattern coerente su 19 valutazioni diverse, qualcosa significa.

MMLU-Pro: 85.7 (GPT-5.2-Thinking fa 87.4, Claude-Opus-4.5 arriva a 89.5)
GPQA (STEM): 87.4 contro il 92.4 di OpenAI – c’è ancora gap qui
HMMT Feb 25: 98.0 – praticamente perfetto
Arena-Hard v2: 90.2 – primo posto, battendo tutti i competitor
HLE con strumenti: 49.8 – miglior risultato in assoluto

Dove fa fatica? Coding agentico con SWE Verified (75.3 contro l’80.9 di Claude) e alcuni benchmark di tool use. Non è perfetto. Ma è competitivo in un modo che un modello open-source non dovrebbe essere.

La questione prezzo – e qui si fa interessante

Pronti al numero? $1.20 per milione di token in input, $6.00 in output. GPT-5 sta a $1.25/$10.00, Claude a $3.00/$15.00. Stiamo parlando di metà costo rispetto a OpenAI e 2,5 volte meno di Anthropic.

Per chi fa girare workload seri, questa differenza si sente. E pure tanto.

Come iniziare a usarlo

L’API è compatibile con OpenAI – potete usare le stesse librerie che già conoscete. Il nome del modello è qwen3-max-2026-01-23, serve un account Alibaba Cloud e una API key dalla console Model Studio.

C’è anche compatibilità con il protocollo Anthropic, il che significa che funziona con Claude Code. Configuri le variabili d’ambiente, punti al modello Qwen, e il gioco è fatto. Stesso flusso di lavoro, modello diverso sotto il cofano.

Supporto linguistico

119 lingue supportate, addestramento su 36 trilioni di token. Il modello usa un’architettura Mixture-of-Experts sparsa – i parametri totali sono oltre un trilione, ma non li attiva tutti contemporaneamente. Ecco perché riesce a essere efficiente nonostante le dimensioni.

Cosa significa per il settore AI

Alibaba sta giocando una partita diversa. Hanno lanciato l’app Qwen per consumatori, l’API per sviluppatori, e stanno spingendo su due fronti: Qwen3-Max-Instruct per task standard e Qwen3-Max-Thinking per workflow agentici potenziati da strumenti.

La licenza Apache 2.0 – per chi non mastica legalese tech – significa zero vincoli commerciali. Usatelo, modificatelo, vendeteci servizi. Nessuna clausola nascosta tipo GPL che vi obbliga a rilasciare tutto open-source.

Il contesto gestisce fino a 262k token. Per darvi un’idea, sono circa 200 pagine di testo denso. Abbastanza per analizzare interi codebase o documenti lunghi in un colpo solo.

Prospettive e dubbi aperti

Non ho risposte definitive su come questo cambierà il mercato. Ma alcune cose mi sembrano chiare.

Il gap tra modelli proprietari e open-source si sta chiudendo. Velocemente. Quando un modello accessibile compete con – e in alcuni casi batte – alternative che costano il doppio, qualcosa si muove nell’equilibrio del settore.

I limiti ci sono ancora. Sui task di coding agentico Claude resta davanti. Su alcuni benchmark di conoscenza GPT-5 mantiene il vantaggio. Ma la traiettoria è quella che conta, e Qwen sta salendo.

Per chi lavora con AI quotidianamente, vale la pena provarlo. Non come sostituto totale – almeno non ancora – ma come alternativa da avere nel toolkit. Soprattutto considerando il prezzo.