Qwen 3.5: la serie di modelli AI che ridefinisce il rapporto tra prestazioni e risorse

Quando l’architettura batte la forza bruta

Alibaba Cloud ha rilasciato Qwen 3.5 Medium Model Series il 24 febbraio 2026, e qui c’è qualcosa che vale la pena approfondire. Parliamo di quattro modelli – Qwen3.5-Flash, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B e Qwen3.5-27B – che dimostrano un concetto che nell’AI spesso viene dimenticato: l’intelligenza non scala linearmente con i parametri.

Il modello 35B-A3B (35 miliardi di parametri totali, 3 miliardi attivi) supera il precedente flagship Qwen3-235B-A22B-2507 su praticamente ogni benchmark rilevante. Questo non è un dettaglio tecnico da passare sotto silenzio – è la prova che architettura, qualità dei dati e reinforcement learning contano più delle dimensioni pure.

L’architettura ibrida che cambia le regole

La vera innovazione di Qwen 3.5 sta nell’architettura. Alibaba ha combinato Gated Delta Networks (attenzione lineare) con Sparse Mixture-of-Experts in un rapporto 3:1 tra layer lineari e layer di attenzione standard. In termini pratici? Il 75% del modello usa attenzione lineare, più efficiente computazionalmente, mentre solo il 25% impiega l’attenzione tradizionale.

Il 35B-A3B usa 256 esperti ma ne attiva solo 8 per token – questo significa 3 miliardi di parametri che lavorano in modo mirato invece di 22 miliardi che processano tutto indiscriminatamente. Il risultato: su TAU2-Bench (benchmark per sistemi agentici) raggiunge 81.2 punti contro i 58.5 del modello precedente da 235B.

Supporto multimodale nativo

Tutti i modelli della serie supportano testo, immagini e video attraverso early fusion multimodale. Il contesto nativo è di 262.144 token, estendibile fino a 1.010.000 token tramite YaRN. Per dare un riferimento concreto: 1 milione di token equivale a circa 750.000 parole, sufficiente per processare romanzi completi o intere codebase in una singola sessione.

I quattro modelli della serie: specializzazioni diverse

Qwen3.5-35B-A3B: efficienza in 8GB di VRAM

Questa variante MoE (Mixture of Experts) rappresenta il punto di equilibrio ottimale della serie. Con soli 3 miliardi di parametri attivi per forward pass, gira su GPU con 8GB+ di VRAM tramite quantizzazione GGUF. Su Mac richiede 21GB di RAM.

Supera il flagship precedente su benchmark di linguaggio, visione, coding e comportamento agenticо. La community Unsloth AI ha confermato che funziona localmente su Mac con 24GB di RAM via GGUF, rendendo accessibile un modello di questa classe anche senza infrastruttura cloud.

Qwen3.5-122B-A10B: il leader per task agentici

Con 122 miliardi di parametri totali e 10 miliardi attivi, questo modello domina i benchmark agentici:

• BFCL-V4 (function calling): 72.2 vs 55.5 di GPT-5-mini (+30%)
• BrowseComp (navigazione web): 63.8
• Terminal-Bench 2 (interazione terminale): 49.4

È compatibile con NVIDIA DGX Spark e rappresenta la scelta per scenari enterprise dove gli agenti AI devono interagire con sistemi complessi.

Qwen3.5-27B: l’unico modello denso

A differenza degli altri membri della serie, il 27B è un modello completamente denso – tutti i 27 miliardi di parametri sono attivi a ogni forward pass, con FFN (Feed-Forward Network) standard invece dell’architettura MoE.

Su SWE-bench Verified (benchmark per coding) raggiunge 72.4, alla pari con GPT-5-mini. Questo risultato è particolarmente rilevante perché SWE-bench misura la capacità di risolvere issue reali da repository GitHub, non esercizi di programmazione sintetici.

Qwen3.5-Flash: production-ready con contesto da 1M

Qwen3.5-Flash è la versione hosted di produzione allineata con 35B-A3B. Offre contesto da 1 milione di token di default e tool integrati ufficiali. Il pricing è aggressivo: $0.10 per milione di token in input, $0.40 per milione in output.

Per confronto, GPT-5-mini costa circa 25 volte di più, mentre Claude Sonnet 4.6 arriva a $1.30 per milione di token in input. Questa strategia di pricing rende Qwen3.5-Flash particolarmente interessante per applicazioni con volumi elevati.

Performance su benchmark chiave

I risultati sui benchmark standardizzati mostrano una competitività diretta con modelli proprietari di fascia alta:

• Humanity’s Last Exam: 27B raggiunge 48.5 (terzo posto), con 397B-A17B a 48.3 (quarto) e 122B-A10B a 47.5 (quinto)
• MMMU-Pro (ragionamento visivo): il 27B eguaglia Claude Sonnet 4.5 a 75.0
• TAU2-Bench (agenti): 35B-A3B supera significativamente il precedente flagship (81.2 vs 58.5)

Un membro della community (Paul Fidika) ha evidenziato che Claude Sonnet 4.6 (79.6) e Opus 4.5 (80.6) su SWE-bench Verified non compaiono nei grafici comparativi di Alibaba – un dettaglio che suggerisce come la selezione dei benchmark possa influenzare la percezione delle performance.

Licenza Apache 2.0: implicazioni per l’adozione

Tutti i modelli open-weight della serie sono rilasciati sotto licenza Apache 2.0. Questo significa zero vincoli commerciali: è possibile modificarli, integrarli in prodotti proprietari e vendere servizi basati su questi modelli senza obblighi di rilascio del codice.

La scelta di Apache 2.0 invece di licenze più restrittive (come GPL) rimuove barriere all’adozione enterprise, dove i dipartimenti legali spesso bloccano l’uso di software con clausole virali.

Disponibilità e supporto degli strumenti

I pesi open-weight sono disponibili su Hugging Face e ModelScope. L’API cloud è accessibile tramite Alibaba Cloud Model Studio. Per test interattivi, chat.qwen.ai offre accesso diretto a tutti e quattro i modelli.

I framework supportati includono SGLang, vLLM, llama.cpp, Ollama e Unsloth. Questa ampia compatibilità facilita l’integrazione in pipeline esistenti senza richiedere riscritture significative del codice.

Reazione della community tecnica

La community AI ha accolto il rilascio con interesse particolare per il rapporto prezzo/prestazioni. Unsloth AI ha confermato che Qwen3.5-35B-A3B gira localmente su Mac con 24GB di RAM tramite GGUF, rendendo accessibile un modello di questa classe anche a sviluppatori individuali.

Il dibattito più interessante riguarda l’architettura MoE: la differenza rispetto al 235B non è solo nei parametri attivi (3B vs 22B), ma nell’hybrid architecture con attenzione lineare sul 75% dei layer e solo 9 esperti attivi su 256. Questo significa lavoro computazionale più mirato invece di elaborazione generale su tutti i parametri.

Yupp.ai ha reso disponibili i modelli per test gratuiti, facilitando la valutazione diretta senza necessità di setup locale o sottoscrizioni cloud.

Prospettive per l’integrazione AI

Qwen 3.5 dimostra che l’evoluzione dei modelli linguistici non segue necessariamente la strada della crescita dimensionale. L’architettura ibrida con sparse MoE e attenzione lineare offre un percorso alternativo: prestazioni competitive con requisiti hardware più accessibili.

Per sviluppatori e aziende, questo si traduce in:

• Deployment locale possibile su hardware consumer di fascia alta
• Costi operativi ridotti per applicazioni cloud
• Licenza permissiva per integrazione in prodotti commerciali
• Performance competitive con modelli proprietari su task specifici

La disponibilità di modelli con specializzazioni diverse (35B-A3B per uso generale, 122B-A10B per agenti, 27B per coding) permette di scegliere il tool giusto per ogni scenario, ottimizzando il rapporto tra prestazioni e risorse.