Realtime TTS-2: il modello vocale che sente come parli (e risponde di conseguenza)

Inworld AI ha lanciato Realtime TTS-2, e stavolta non è la solita marchetta su “emozionalità senza precedenti”. Il modello ascolta davvero l’audio delle conversazioni precedenti — non solo il testo trascritto. Sente il tono, il ritmo, lo stato emotivo di chi parla. Poi prende istruzioni vocali in linguaggio naturale, tipo come diresti a un doppiatore “parla stanca ma calorosa, come se fossi appena tornata da una lunga giornata”.

Quattro cose che lo rendono diverso dal precedente TTS 1.5:

Voice Direction: prompt vocali in inglese comune

Invece di selezionare “triste” da un menu a tendina, scrivi una direzione testuale come faresti con un LLM. Tipo [speak sadly, as if something bad just happened] prima del testo da sintetizzare. Il modello capisce sfumature tipo “frenetica, senza fiato, urgente” o “sussurrando”. Funzionano anche marker non verbali inline: [laugh], [sigh], [breathe], [clear_throat], [cough] — li piazzi dove serve, il modello li inserisce come eventi audio, non li pronuncia.

Conversational Awareness: sente l’audio precedente

La stessa frase suona diversa dopo una battuta rispetto a dopo una brutta notizia. Il modello lo sa perché ha sentito il turno precedente — non una trascrizione, l’audio vero. Tono, ritmo, stato emotivo si trasferiscono automaticamente nei turni successivi. Nell’API Realtime il contesto audio scorre automaticamente attraverso la sessione, zero configurazione extra.

Crosslingual: una voce, 100+ lingue

Stesso speaker, stesso timbro vocale attraverso oltre 100 lingue. Puoi switchare lingua a metà frase — tipo “I’ll grab a coffee. ¿Quieres uno? お疲れさま” — e la voce rimane la stessa persona. Nessun flag lingua da specificare, il modello gestisce le transizioni automaticamente.

Advanced Voice Design: crei voci da una descrizione testuale

Niente audio di riferimento, niente casting call. Scrivi una descrizione tipo “voce femminile luminosa ed entusiasta con accento California Valley, circa 20 anni” e ottieni una voce salvabile e riutilizzabile. Tre modalità di stabilità: Expressive (più creativa, per conversazioni consumer), Balanced (default), Stable (più consistente, per IVR e narrazioni lunghe dove il drift di pitch sarebbe inaccettabile).

Il pipeline completo: Listening → Thinking → Expressing

La maggior parte degli agent vocali incolla insieme pipeline da quattro vendor diversi, perdendo tutto il segnale a ogni passaggio. Inworld ha costruito ogni layer internamente:

  • Realtime STT: trascrive e profila lo speaker (età, accento, pitch, stile vocale, tono emotivo, ritmo) in un singolo passaggio
  • Realtime Router: seleziona il modello giusto per il momento (stesso utente, modello diverso per una chat notturna stanca vs escalation di supporto complessa)
  • Realtime TTS-2: prende l’audio precedente, lo stato emotivo dell’utente, la storia della conversazione e le istruzioni del developer, e decide come dire la frase. Sub-200ms al primo chunk.

Tutto su una connessione WebSocket persistente. L’output di ogni stage è l’input del successivo. La conversazione stessa è l’input.

Classifiche e comparazioni

Realtime TTS 1.5 già classificato #1 su Artificial Analysis Speech Arena, davanti a Google ed ElevenLabs. TTS-2 spinge oltre sulla direzionalità — quella dimensione che conta nei deployment enterprise reali. Inworld è l’unico provider che offre:

  • Voice direction avanzata (descrizioni free-form, non solo tag predefiniti)
  • Multi-turn aware speech synthesis
  • Voice profiling (capire il contesto dell’utente)
  • Single customizable speech-to-speech API
  • User-aware LLM routing

Pricing e disponibilità

Disponibile oggi via Inworld API e Inworld Realtime API come research preview. Clienti su TTS 1.5: upgrade cambiando solo il model identifier, zero altre modifiche al codice. Pricing a consumo con tier volumetrici — stesso metering di TTS 1.5, nessun aumento di prezzo model-side per chi fa upgrade.

Demo live su realtime.ai — parli nel microfono, il sistema ti sente, profila la tua voce, seleziona un modello, risponde in TTS-2. Tutto dentro la Realtime API, tutto su una connessione persistente.

Migrazione da altri provider

La maggior parte dei team swappa l’endpoint, cambia il model identifier, e riclona eventuali voci usando l’audio di riferimento originale invece dell’output di un modello precedente (preserva più fedeltà). La Realtime API parla il protocollo OpenAI Realtime con estensioni Inworld — client OpenAI Realtime esistenti si connettono cambiando solo l’URL.

SDK first-party per Node e Python. Docs complete su docs.inworld.ai, pricing su inworld.ai/pricing.