Google ha rilasciato Gemini 3.1 Flash TTS, il nuovo modello text-to-speech che – a detta loro – migliora qualità audio e controllo espressivo. La cosa interessante? Gli audio tags, che permettono di dirigere lo stile vocale usando comandi in linguaggio naturale.
Audio tags: regia vocale via testo
Ok, questa è la parte che mi ha fatto alzare le sopracciglia. Invece di smanettare con parametri tecnici, embeddi comandi direttamente nel testo – tipo indicazioni di regia teatrale – e il modello regola tono, ritmo, accento al volo.
In Google AI Studio hanno costruito un’interfaccia da “director’s chair”:
- Scene direction – definisci l’ambiente, dai istruzioni di dialogo. Il contesto aiuta i personaggi a rimanere coerenti attraverso più turni conversazionali
- Speaker-level specificity – assegni Audio Profiles unici a ogni personaggio, poi usi Director’s Notes per modulare velocità, tono, accento. Con i tag inline cambi espressione anche a metà frase
- Export seamless – quando hai trovato il setup giusto, esporti i parametri come codice Gemini API per riusare quella voce identica in altri progetti
Tradotto: costruisci personaggi vocali memorabili e poi li porti dove serve, mantenendo consistenza.
Numeri e posizionamento
Sul leaderboard TTS di Artificial Analysis – che raccoglie migliaia di preferenze umane in blind test – 3.1 Flash TTS ha preso Elo score 1,211. Artificial Analysis lo ha piazzato nel “quadrante più attraente” per il mix di qualità alta e costo basso.
Supporto nativo per dialoghi multi-speaker, oltre 70 lingue, controllo creativo granulare. Il modello porta controllo avanzato di stile, ritmo e accento anche su mercati non-anglofoni – utile per chi deve creare esperienze vocali localizzate su scala globale.
SynthID watermarking
Tutto l’audio generato da 3.1 Flash TTS viene watermarkato con SynthID – filigrana impercettibile tessuta direttamente nell’output audio. L’idea è permettere detection affidabile di contenuti AI-generated per contrastare misinformazione.
Il watermark è permanente, resiste a compressione e manipolazioni comuni. Per i dettagli sull’approccio safety, c’è la model card ufficiale.
Disponibilità
Il modello sta rollando oggi in preview:
- Developer: Gemini API e Google AI Studio
- Enterprise: Vertex AI
- Workspace users: Google Vids
Gli early tester – developer ed enterprise – stanno già segnalando l’impatto degli audio tags: precisione creativa nuova, trasformazione da testo semplice a performance vocale ad alta fedeltà.
Per sperimentare: Google AI Studio Playground ha i controlli configurabili attivi.
