Thinking Machines Lab ha appena aperto una preview di ricerca su quello che chiamano ‘interaction models’ — modelli che gestiscono l’interazione in modo nativo, non appiccicando componenti esterni con lo scotch. L’idea? Che l’interattività debba scalare insieme all’intelligenza, non essere un ripensamento dell’ultimo minuto.
Il problema è concreto. I modelli di oggi vivono in un singolo thread: aspettano che tu finisca di digitare o parlare prima di muoversi. E mentre generano, il loro mondo si congela — zero percezione di cosa stai facendo nel frattempo. È come cercare di risolvere un problema complesso via email invece che faccia a faccia. Frustrante, no?
Il collo di bottiglia della collaborazione
I laboratori AI sono ossessionati dall’autonomia. Risultato: modelli e interfacce non sono ottimizzati per tenere l’umano nel loop. C’è addirittura una model card recente che ammette candidamente: ‘quando usato in modalità interattiva, sincrona, con le mani sulla tastiera, i benefici del modello erano meno chiari. Alcuni utenti lo percepivano come troppo lento’. La soluzione proposta? Usare agenti autonomi che girano per ore senza interruzioni.
Certo, l’autonomia è utile. Ma nella maggior parte del lavoro reale non puoi specificare tutto in anticipo e andartene. I risultati migliori nascono da un processo collaborativo dove l’umano rimane dentro, chiarisce, dà feedback. Il punto è che le persone vengono spinte fuori non perché il lavoro non ne ha bisogno, ma perché l’interfaccia non ha spazio per loro.
Come collaborano gli umani
La comunicazione umana funziona su tre assi: copresenza (interagire con ciò che gli altri vedono), contemporaneità (ricevere informazioni mentre vengono prodotte), simultaneità (ricevere e produrre info allo stesso tempo). I modelli attuali falliscono su tutti e tre i fronti.
L’architettura: micro-turn continui
Thinking Machines ha addestrato un interaction model da zero. Il design chiave? Micro-turn allineati al tempo: il modello lavora con chunk di 200 millisecondi di input e output, continuamente intrecciati. Niente confini artificiali tra turni. Niente componenti VAD (voice-activity-detection) che cercano di indovinare quando hai finito di parlare.
Questo sblocca capacità che altrimenti richiederebbero componenti esterni:
- Gestione del dialogo seamless — il modello capisce implicitamente se stai pensando, correggendoti, o invitando una risposta
- Interruzioni verbali e visive — salta dentro quando serve, non solo quando finisci di parlare
- Speech simultaneo — tu e il modello potete parlare insieme (tipo traduzione live)
- Time-awareness — il modello ha un senso diretto del tempo trascorso
- Tool calls concorrenti — mentre parla e ascolta, può cercare, navigare il web, generare UI in parallelo
Il sistema a doppio livello
L’interaction model è in scambio continuo con l’utente. Quando un task richiede ragionamento più profondo di quello istantaneo, delega a un background model che gira in modo asincrono. L’interaction model resta presente — risponde a domande, prende nuovo input, tiene il filo — e integra i risultati del background quando arrivano.
È un po’ come avere qualcuno che ti parla mentre un collega cerca info sul retro. Il meglio di due mondi: la responsività di modelli non-thinking e la pianificazione profonda dei reasoning models.
Le scelte tecniche (quelle che contano)
Early fusion senza encoder. Invece di processare audio e video attraverso encoder massicci e separati, preprocessing minimo. L’audio entra come dMel, le immagini vengono splittate in patch 40×40. Tutto co-addestrato da zero insieme al transformer.
Ottimizzazione inference. Chunk da 200ms richiedono prefill e decode frequenti di dimensioni piccole, ognuno con vincoli di latenza stretti. Le librerie LLM esistenti non sono ottimizzate per prefill piccoli e frequenti — hanno overhead significativo per turno. Soluzione: streaming sessions. Il client manda ogni chunk come richiesta separata, il server li appende in una sequenza persistente nella GPU memory.
Allineamento trainer-sampler. Allineamento bitwise per stabilità di training e debugging. Kernel batch-invariant con meno del 5% di overhead e2e. Per un periodo, usando questi kernel era addirittura più veloce grazie ai kernel di comunicazione custom a bassa latenza.
I numeri (e le sorprese)
TML-Interaction-Small è il primo modello che combina forte intelligenza e vera interattività. Su FD-bench v1.5 — uno dei pochi benchmark che misura interattività — domina con 77.8 di qualità media. Su Audio MultiChallenge, che traccia intelligenza e instruction following, segna 43.4% APR.
Confronto con la concorrenza? GPT-realtime-2.0 (minimal) fa 46.8 su FD-bench, GPT-realtime-1.5 si ferma a 48.3. Gemini-3.1-flash-live (minimal) arriva a 54.3. Sul fronte responsività, TML risponde in 0.40 secondi contro 1.18 di GPT-2.0 minimal.
Nuove dimensioni di interattività
I benchmark esistenti non catturano i salti qualitativi che si notano. Thinking Machines ha creato due benchmark interni:
TimeSpeak: testa se il modello può iniziare a parlare in momenti specificati dall’utente producendo il contenuto corretto. Esempio: ‘voglio praticare il respiro, ricordami di inspirare ed espirare ogni 4 secondi finché non ti chiedo di fermarti’. TML-interaction: 64.7% macro-accuracy. GPT realtime-2.0: 4.3%.
CueSpeak: testa se il modello parla al momento appropriato con la risposta semanticamente corretta. Esempio: ‘ogni volta che cambio lingua, dammi la parola corretta nella lingua originale’. TML: 81.7%. GPT: 2.9%.
Proattività visiva. I sistemi commerciali real-time fanno turn-detection solo via audio. Non possono scegliere proattivamente di parlare quando il mondo visivo cambia. Se chiedi ‘conta quante flessioni faccio’, rispondono ‘certo!’ e poi restano in silenzio — aspettando un cue audio che non arriva mai.
Su RepCount-A (conteggio online di azioni ripetute in video), TML segna 35.4% off-by-one accuracy. GPT realtime-2.0: 1.3%. Su Charades (localizzazione temporale di azioni), TML fa 32.4 mIoU. GPT: 0.
Limiti e lavoro futuro
Sessioni lunghe. Audio e video continui accumulano contesto velocemente. Il design streaming-session gestisce bene interazioni corte e medie, ma sessioni molto lunghe richiedono ancora gestione attenta del contesto.
Compute e deployment. Streaming audio e video a bassa latenza richiede connettività affidabile. Senza buona connessione, l’esperienza degrada significativamente. Thinking Machines crede si possa migliorare sia aumentando l’affidabilità del sistema che addestrando il modello a essere più robusto a frame ritardati.
Scaling model size. L’attuale TML-Interaction-Small è un MoE da 276B parametri con 12B attivi. Sì, quella cifra che fa girare la testa. Anche se si aspettano che l’interattività migliori con la scala del modello, i loro modelli preaddestrati più grandi sono attualmente troppo lenti da servire in questo setting. Modelli più grandi arriveranno più tardi quest’anno.
Background agents migliorati. Anche se il focus è stato sulla interattività real-time, l’intelligenza agentica resta capacità essenziale. E hanno appena scalfito la superficie di come i background agents possano lavorare insieme all’interaction model.
Safety nel real-time
Un’interfaccia real-time apre area di ricerca eccitante per alignment e safety. Il lavoro si è concentrato su due assi: refusal appropriati alla modalità e robustezza long-horizon. Per rendere i refusal colloquiali nello speech, hanno usato un modello text-to-speech per generare training data su refusal e over-refusal coprendo range di topic non permessi. Per migliorare robustezza in conversazioni estese speech-to-speech, hanno usato un harness di red-teaming automatizzato per generare data multi-turn, mantenendo parità comportamentale stretta con i refusal basati su testo.
Il messaggio di fondo
Thinking Machines sta dicendo una cosa chiara: se l’interattività resta un componente esterno incollato dopo, non scalerà mai con l’intelligenza. La ‘bitter lesson’ vale anche qui — i sistemi hand-crafted verranno superati dall’avanzamento delle capacità generali.
Nei prossimi mesi apriranno una preview di ricerca limitata per raccogliere feedback, con release più ampia più tardi quest’anno. E stanno lanciando un research grant per incoraggiare più ricerca nel campo degli interaction models e della collaborazione human-AI, inclusi nuovi framework per valutare qualità di interattività.
Dettagli in arrivo. Nel frattempo, il codice dice: se l’AI deve lavorare con noi, deve smettere di aspettare che finiamo di parlare.
