Qwen3.5-Omni: il modello multimodale che capisce (quasi) tutto

Alibaba ha rilasciato Qwen3.5-Omni, e questa volta non è la solita marchetta AI dove changelog dice ‘performance improvements’ e tu non vedi mezza differenza. Parlo di un modello che processa testo, immagini, audio e video – tutto insieme, nativamente. Non è tipo quei sistemi dove incolli tre modelli diversi e speri che parlino tra loro.

Cosa significa ‘omnimodale’ quando non è marketing speak

Il modello gestisce 10+ ore di audio in input. Oppure 400 secondi di video 720p (a 1 FPS, ok, non aspettatevi miracoli). Context window da 256k token. È stato addestrato su oltre 100 milioni di ore di dati audio-visivi. Quelle cifre che fanno girare la testa.

Tre versioni: Plus, Flash e Light. Plus è il mostro pesante, Flash è quello che userete davvero, Light è per quando il budget server piange.

Dai test ai fatti

Qwen3.5-Omni-Plus ha ottenuto risultati state-of-the-art su 215 benchmark diversi. Batte Gemini 3.1 Pro su comprensione audio, riconoscimento vocale, traduzione e dialogo. Pari su audio-visual. Supporta riconoscimento vocale in 113 lingue e sintesi vocale in 36.

Un caso che mi ha colpito: il modello genera caption audio-visive controllabili, con timestamp automatici e descrizioni dettagliate dei personaggi. Tipo screenplay-level. Non ‘persona parla’, ma ‘uomo sulla trentina, tono ansioso, voce che trema leggermente’.

La parte strana: Audio-Visual Vibe Coding

Hanno osservato una capacità emergente – il modello scrive codice basandosi su istruzioni audio-visive. Tipo, gli mostri un video di qualcuno che spiega cosa vuole e lui genera il codice. Non so quanto sia pratico, ma è inquietante nel modo giusto.

Real-time interaction (quella vera)

Oltre ai test offline, hanno lavorato sull’interazione in tempo reale:

Interruzione semantica: il modello capisce quando lo stai interrompendo davvero vs quando stai solo facendo ‘mh-mh’ di conferma o c’è rumore di fondo
WebSearch e FunctionCall: decide autonomamente se cercare su web per rispondere a domande real-time
Voice control end-to-end: modifica volume, velocità, emozione su richiesta vocale
Voice cloning: carichi un sample audio e l’assistente AI usa quella voce

ARIA: il trucco per non mandare tutto in vacca

Problema: nello streaming vocale, testo e audio hanno efficienza di encoding diversa. Risultato? Omissioni, errori di lettura, numeri pronunciati male.

Soluzione: ARIA (Adaptive Rate Interleave Alignment) – allinea dinamicamente unità di testo e audio. Mantiene la performance real-time ma migliora naturalezza e robustezza della sintesi vocale. È uno di quei fix che leggi e pensi ‘ovvio, perché nessuno ci aveva pensato prima’.

Architettura Thinker-Talker

Qwen3.5-Omni usa un’architettura a due componenti:

Thinker: riceve segnali visivi e audio, processa tutto e produce testo
Talker: prende input multimodali e output testuali dal Thinker, genera speech contestuale

Entrambi usano Hybrid-Attention MoE. Le rappresentazioni vocali sono codificate con RVQ (metodo proposto in Qwen3-Omni), che rimpiazza le operazioni DiT computazionalmente pesanti. Design chunk-wise streaming per supportare interazione real-time.

Qwen3-Omni vs Qwen3.5-Omni

Confronto diretto con la generazione precedente:

Backbone: da MoE a Hybrid-MoE
Context: da 32k a 256k token
Audio: ora gestisce 10 ore (vs limiti precedenti)
Captioning: da solo audio a audio-visual
Interruzione semantica: prima non supportata
WebSearch/Tool: novità assoluta
Voice control e clone: aggiunti ora
Talker: da dual-track autoregression a interleave con ARIA

Multilingua serio

Riconoscimento vocale: da 11 lingue + 8 dialetti cinesi a 74 lingue + 39 dialetti cinesi. Sintesi vocale: da 29 lingue + 7 dialetti a 36 lingue totali.

Performance speech generation

Testato contro ElevenLabs, Gemini 2.5 Pro, GPT-Audio e Minimax su stabilità custom voice e voice cloning:

Custom Voice Stability (WER, più basso è meglio):

Seed-zh: Qwen 1.07 vs ElevenLabs 13.08
Seed-en: Qwen 1.35 vs ElevenLabs 1.17 (praticamente pari)
Seed-hard: Qwen 6.24 vs ElevenLabs 27.70
Multilingual: Qwen 2.06 vs ElevenLabs 12.62

Voice Clone: Qwen raggiunge similarity 0.79 sul test pubblico (20 lingue) vs ElevenLabs 0.65 e Minimax 0.76.

Il verdetto pratico

Perfetto? No. I capelli hanno ancora momenti strani con pose complesse (sempre loro, maledetti). Ma rispetto a Qwen3-Omni, il salto è tangibile.

Disponibile via Offline API e Realtime API. Licenza Apache 2.0 – fate quello che volete, zero vincoli commerciali.

La cosa che mi ha lasciato perplesso: Audio-Visual Vibe Coding. Se funziona davvero in production, cambia il modo di pensare l’interfaccia tra umani e codice. Se è solo demo-ware, è comunque un glimpse inquietante del futuro.