Gemini 3.1 Flash TTS: Google lancia il text-to-speech con controllo granulare

Google ha rilasciato Gemini 3.1 Flash TTS, il nuovo modello text-to-speech che – a detta loro – migliora qualità audio e controllo espressivo. La cosa interessante? Gli audio tags, che permettono di dirigere lo stile vocale usando comandi in linguaggio naturale.

Audio tags: regia vocale via testo

Ok, questa è la parte che mi ha fatto alzare le sopracciglia. Invece di smanettare con parametri tecnici, embeddi comandi direttamente nel testo – tipo indicazioni di regia teatrale – e il modello regola tono, ritmo, accento al volo.

In Google AI Studio hanno costruito un’interfaccia da “director’s chair”:

Scene direction – definisci l’ambiente, dai istruzioni di dialogo. Il contesto aiuta i personaggi a rimanere coerenti attraverso più turni conversazionali
Speaker-level specificity – assegni Audio Profiles unici a ogni personaggio, poi usi Director’s Notes per modulare velocità, tono, accento. Con i tag inline cambi espressione anche a metà frase
Export seamless – quando hai trovato il setup giusto, esporti i parametri come codice Gemini API per riusare quella voce identica in altri progetti

Tradotto: costruisci personaggi vocali memorabili e poi li porti dove serve, mantenendo consistenza.

Numeri e posizionamento

Sul leaderboard TTS di Artificial Analysis – che raccoglie migliaia di preferenze umane in blind test – 3.1 Flash TTS ha preso Elo score 1,211. Artificial Analysis lo ha piazzato nel “quadrante più attraente” per il mix di qualità alta e costo basso.

Supporto nativo per dialoghi multi-speaker, oltre 70 lingue, controllo creativo granulare. Il modello porta controllo avanzato di stile, ritmo e accento anche su mercati non-anglofoni – utile per chi deve creare esperienze vocali localizzate su scala globale.

SynthID watermarking

Tutto l’audio generato da 3.1 Flash TTS viene watermarkato con SynthID – filigrana impercettibile tessuta direttamente nell’output audio. L’idea è permettere detection affidabile di contenuti AI-generated per contrastare misinformazione.

Il watermark è permanente, resiste a compressione e manipolazioni comuni. Per i dettagli sull’approccio safety, c’è la model card ufficiale.

Disponibilità

Il modello sta rollando oggi in preview:

Developer: Gemini API e Google AI Studio
Enterprise: Vertex AI
Workspace users: Google Vids

Gli early tester – developer ed enterprise – stanno già segnalando l’impatto degli audio tags: precisione creativa nuova, trasformazione da testo semplice a performance vocale ad alta fedeltà.

Per sperimentare: Google AI Studio Playground ha i controlli configurabili attivi.

Gemini 3.1 Flash TTS: Google lancia il text-to-speech con controllo granulare

Audio tags: regia vocale via testo

Numeri e posizionamento

SynthID watermarking

Disponibilità

Quick Links

Get In Touch