Qwen3.6-Plus: il modello che vuole diventare un agente vero

Alibaba ha rilasciato Qwen3.6-Plus, e stavolta – a differenza dei soliti rilasci dove cambiano tre virgole nel changelog – pare che abbiano fatto sul serio. Il modello è già disponibile via API su Alibaba Cloud Model Studio, e le cifre sui benchmark sono… interessanti. Ma sapete cosa mi ha colpito? Non tanto la potenza bruta (che c’è), quanto l’approccio: stanno costruendo un agente multimodale nativo, non solo un chatbot più grosso.

Coding: finalmente qualcosa di concreto

Ok, numeri. SWE-bench Verified: 78.8%. Terminal-Bench 2.0: 61.6%. Sono cifre serie – tipo “il modello può effettivamente fixare bug in repository reali” serio, non “ah carino, ha passato FizzBuzz” serio. L’hanno testato su roba come frontend web development, giochi 3D, scene complesse. E qui viene la parte che mi interessa: si integra con OpenClaw, Claude Code, Qwen Code.

Tradotto: potete collegarlo al vostro workflow esistente senza reinventare tutto da zero. Hanno anche aggiunto questa feature preserve_thinking nell’API – fondamentalmente il modello tiene traccia del suo ragionamento attraverso tutti i turni di conversazione. Per task lunghi con tanti step, questo fa la differenza tra un agente che si dimentica cosa stava facendo e uno che porta a termine il lavoro.

Un esempio pratico

Nei demo mostrano un caso d’uso che mi ha fatto alzare le sopracciglia: gestione di un calendario personale per la consegna di una tesi. Il prompt dice “ho tre file di pianificazione che si contraddicono, il mio advisor ha aggiunto roba stamattina, dammi UN piano affidabile”. Il modello:

Riconcilia i file in conflitto
Identifica lo stato reale di ogni task (non si fida delle label, verifica)
Costruisce uno schedule time-blocked dalle 08:00 alle 15:00
Output: HTML + JSON strutturato

Questo è il tipo di task che un normale LLM fa finta di capire e poi ti sputa fuori una risposta generica. Qwen3.6-Plus invece esegue.

Multimodale: non solo “vedo un’immagine”

La parte vision è dove secondo me stanno puntando davvero. Non si sono fermati a “il modello riconosce oggetti nelle foto”. Hanno costruito un loop completo: percezione → comprensione → ragionamento → esecuzione.

Visual grounding che funziona

C’è un demo dove gli dai due immagini: una scena di strada con varie persone, e un close-up di una persona specifica. Il task: trova quella persona nella scena affollata e dammi le coordinate del bounding box. Il modello non solo la trova – cosa che ok, face recognition, ce l’hanno tutti – ma ti mostra il ragionamento: “Persona 1: uomo con giacca nera, non corrisponde. Persona 2: donna con capelli scuri, no sciarpa a righe, esclusa. Persona 3…”

Alla fine: {"bbox_2d": [451, 553, 486, 735], "label": "the target person"}. Preciso.

Da screenshot a codice funzionante

Visual coding: gli mostri uno screenshot di UI, un mockup, anche solo un’idea descritta a parole, e ti genera il frontend. Non placeholder – codice vero che gira. Hanno esempi di 3D aquarium simulati, flight games in prima persona, animazioni complesse con effetti typewriter.

La cosa che mi ha colpito: un task dove chiedi “crea una presentazione PowerPoint a 5 slide sulla vita di Van Gogh, con testo E immagini”. Il modello non solo scrive il contenuto – genera le immagini con tool esterni, le integra, costruisce una narrativa visuale coerente. Periodo olandese con palette scure → esplosione di colore a Parigi → picco creativo ad Arles → ultimi giorni. Ogni slide ha immagini generate ad hoc che riflettono lo stile del periodo.

Video: oltre il “cosa vedo”

Video understanding non è nuovo. Quello che Qwen3.6-Plus fa di diverso è l’editing e l’estrazione strutturata. Un esempio: video di una lecture universitaria → appunti strutturati con timestamp, concetti chiave, formule. Oppure: editing video diretto – gli dai un video grezzo di 29 minuti e chiedi “editalo”, e il modello decide tagli, transizioni, gestisce il montaggio.

Questo è il tipo di task che richiede comprensione temporale (cosa succede quando), relazioni cross-frame (come si collegano scene diverse), e capacità di decision-making (cosa tenere, cosa tagliare). Non è “riconosco che in questo frame c’è un gatto”.

GUI agents: il vero salto

C’è un demo di computer-using agent che mi ha fatto pensare “ok, questa è la direzione”. Task: “Crea una lista di macchine da caffè drip in offerta, range $25-60, finitura nera”.

Il modello:

Capisce che deve fare ricerca web
Naviga su siti e-commerce
Filtra per caratteristiche specifiche
Estrae dati strutturati
Compila una lista

Tutto in autonomia. Percezione (screen understanding) → ragionamento (cosa cliccare dopo) → azione (esecuzione). Loop continuo fino a task completato.

I numeri, per chi li vuole

Benchmark highlights (confronto con Claude Opus 4.5, Gemini-3 Pro, GPT-5.2):

GPQA: 90.4% (primo posto, su reasoning STEM difficile)
LiveCodeBench v6: 87.1%
WMT24++ (traduzione multilingua, subset hard): 84.3%
CountBench (spatial reasoning): 97.6%
OmniDocBench (document understanding): 91.2%

Questi non sono miglioramenti del 2-3% che fanno hype da keynote. Sono salti che si vedono nell’uso pratico.

Cosa manca (perché niente è perfetto)

Hanno ammesso limiti: “I capelli hanno ancora momenti strani con pose complesse.” Il che è onesto – meglio che promettere perfezione e poi deludere. VideoMMMU: 84.0%, leggermente sotto Gemini (87.6%). Non dominano su tutto, e va bene così.

Come provarlo

API disponibile subito via Alibaba Cloud Model Studio. Protocollo OpenAI-compatible, quindi integrazione indolore. Hanno anche compatibilità Anthropic API – significa che funziona con Claude Code out of the box.

Feature nuova: preserve_thinking. Di default è false (il modello scarta il reasoning dei turni precedenti, tiene solo quello corrente). Se lo metti true, mantiene tutto il contesto di ragionamento attraverso i turni. Per task agentic lunghi, questo riduce token sprecati e migliora consistenza.

Esempio pratico con OpenClaw

Installazione rapida:

curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=<your_key>
openclaw dashboard

Editi ~/.openclaw/openclaw.json, aggiungi configurazione Model Studio, e sei pronto. Il fatto che si integri con tool esistenti (Cline, OpenCode, Kilo Code) significa che non devi buttare il tuo setup attuale.

Direzione futura

Qwen dice che nei prossimi giorni rilasceranno varianti più piccole open-source. Il che è interessante – modelli più piccoli che girano local, con (presumibilmente) subset di queste capability.

Focus dichiarato: “repository-level tasks sempre più complessi, task long-horizon”. Tradotto: vogliono che il modello gestisca progetti interi, non solo singoli file o funzioni. Da “scrivi questa funzione” a “refactora questa codebase di 50k righe mantenendo backward compatibility”.

Pensiero finale

Qwen3.6-Plus non è il solito update incrementale dove marketing gonfia changelog per generare buzz. È un tentativo serio di costruire un agente multimodale che effettivamente lavori: vede, ragiona, agisce, itera. I numeri sono forti, l’integrazione è pratica, gli use case mostrati sono concreti.

Perfetto? No. I capelli nelle pose complesse fanno ancora cose strane, alcuni benchmark non li dominano. Ma il percorso è chiaro: da assistente passivo a esecutore attivo. E questo – più dei numeri di benchmark – è quello che conta.

Disponibile ora. API compatibili. 1M context window di default. Se state costruendo tool che richiedono reasoning visuale + code generation + esecuzione agentic, vale la pena testarlo.