Solaria-3: il modello speech-to-text che funziona davvero (anche con l’audio che fa schifo)

Gladia ha appena rilasciato Solaria-3, e lo dichiara senza mezzi termini: è il modello speech-to-text più accurato per le lingue europee. Non su quegli audio da laboratorio che nessuno usa mai. Proprio sulle chiamate vere: quelle con il rumore di fondo, gente che parla sopra gente, accenti che fanno piangere, e team che mescolano tre lingue in una riunione.

Il problema, dicono da Gladia, è sempre stato questo: i modelli fanno numeri strepitosi sui benchmark pubblici — tipo LibriSpeech, che usa registrazioni di audiolibri, speaker singolo, zero rumore, dizione perfetta. Poi li metti su una chiamata commerciale vera, magari con un non-madrelingua e un ufficio rumoroso, e il WER (Word Error Rate, cioè quante parole sbagliano) schizza dal 4% al 15%. I benchmark non mentivano. Misuravano semplicemente audio che non esiste nel mondo reale.

I numeri che contano (quelli veri)

Solaria-3 è stato testato su due tipi di dati: benchmark pubblici — Earnings22, Switchboard, Common Voice, FLEURS, VoxPopuli — e soprattutto sul dataset interno di Gladia fatto di registrazioni vere di clienti in cinque lingue europee. Questo secondo set è critico: è molto più difficile fare overfitting su audio che nessun altro ha visto.

Su Earnings22 Cleaned AA — lo standard di settore per audio finanziario e business — Solaria-3 raggiunge 6,4% WER. È l’unico modello sotto il 7%, davanti ad AssemblyAI (6,9%), ElevenLabs (7,7%), Speechmatics (7,8%), Mistral (7,9%) e Deepgram (12,0%). Sul dataset interno inglese di Gladia, fatto di meeting professionali e chiamate di supporto, Solaria-3 arriva al 9,6% WER — un miglioramento del 26% rispetto a Solaria-1 (12,9%).

Ma è su Switchboard — il benchmark telefonico più duro, audio degradato a 8kHz — che il distacco diventa imbarazzante: Solaria-3 fa 33,9% WER, l’unico sotto il 35%. ElevenLabs? 55,2%. Che su milioni di ore di audio da contact center non è ‘un po’ peggio’. È un fallimento critico.

Quando gli altri modelli allucinano

Prendiamo un esempio concreto: chiamata earnings di 15 minuti (Qudian Q3 2021). Deepgram storpia il nome dell’azienda e scrive tutti i numeri come parole (‘twenty twenty one’ invece di ‘2021’). Il che rende il parsing downstream inaffidabile su ogni singola chiamata finanziaria che processa. Solaria-3: 4,2% WER. Deepgram: 10,7%.

Oppure: briefing earnings di 20 minuti con speaker non-madrelingua (TDK Q3 FY2022). L’inglese accentato è ancora uno dei problemi più duri nello speech-to-text. Solaria-3 guida anche contro Mistral, che va bene su audio pulito ma crolla con accento pesante e compressione combinati. Solaria-3: 11,2%. ElevenLabs: 16,0% — e parafrasa invece di trascrivere.

Ma il caso più estremo è su audio con rumore di fondo pesante. Riferimento: ‘We are on a four-year mission. We didn’t and it cost us the game. It can be very worrying. We need to regroup. Four policemen were wounded.’ Solaria-3: 0,0% WER, trascrizione perfetta. ElevenLabs: 103,4% WER. Centotre percento. Significa che ha allucinato più parole di quante ne fossero effettivamente dette. Sotto condizioni rumorose, il fallimento non è solo imprecisione. È confabulazione. E i modelli che allucinano contenuto su audio degradato sono inadatti a qualsiasi caso d’uso dove conta la fedeltà a ciò che è stato detto.

Europa multilingue (quella vera)

Gladia è europea. E Solaria-3 lo dimostra: miglioramenti consistenti su inglese, francese, tedesco, spagnolo e italiano, misurati su dataset di produzione veri. Inglese: −26% WER. Francese: −18%. Italiano: −10%. Spagnolo: −9%. Tedesco: −3%.

I guadagni emergono sul vocabolario che conta di più in produzione: nomi propri, termini di dominio, nomi di luoghi, verbi precisi dove una parola sbagliata cambia il significato della frase. Esempio: ‘Al acabar la temporada volvió al Alcorcón.’ Alcorcón è una città di 170.000 persone vicino Madrid. Ogni provider tranne Solaria-3 lascia cadere il prefisso ‘Al’, producendo una parola che non esiste. Per logistica, customer service, business locale spagnolo: questa classe di errore conta.

Oppure: francese conversazionale con balbettio. Riferimento: ‘Non, observe, attends et émerveille-toi… il s’agit, il-il-il advient, pardon, il advient ce que le bébé ou le fœtus même aurait eu besoin…’ Solaria-3 cattura fedelmente ‘il, il, il advient’. Solaria-1 e Mistral appiattiscono le esitazioni, lasciano cadere parole. Nelle trascrizioni verbatim — verbali di riunioni, cartelle mediche, deposizioni legali — le esitazioni non sono rumore da pulire. Sono parte del record.

Dove Solaria-1 vince ancora

Gladia non fa finta che Solaria-3 debba sostituire Solaria-1 ovunque. Ecco dove il modello precedente resta migliore: Multilingual LibriSpeech (audio pulito, letto ad alta voce, tante lingue): Solaria-3 fa 8,0% WER contro il 5,9% di Solaria-1. Regressione relativa del 36%. VoxPopuli (audio istituzionale formale): 2,9% contro 2,2%, regressione del 32%. E copertura linguistica ampia: Solaria-3 è ottimizzato per cinque lingue. Solaria-1 ne copre 100+, di cui 42 che nessun’altra API supporta.

I due modelli sono costruiti per lavorare insieme, non per sostituirsi.

Provarlo (gratis)

Solaria-3 è live nelle API di Gladia oggi. Gratis per 5 giorni con il codice TRY-SOLARIA-3 (Billing → Add payment method → Add promo code). Per usarlo, basta impostare ‘model’: ‘solaria-3’ nella richiesta di trascrizione. Dopo il trial, tariffe API standard.

Se avete domande o volete condividere feedback su come Solaria-3 performa sul vostro audio, scrivete a support@gladia.io o unitevi al Discord di Gladia. Solaria-1 resta disponibile e completamente supportato.

Perché alla fine il punto è semplice: i benchmark pubblici misurano la perfezione in laboratorio. Solaria-3 misura cosa succede quando l’audio è quello che avete davvero: accenti, rumore, interruzioni, lingue mischiate. E lì, per ora, guida il campo.