Microsoft lancia MAI-Transcribe-1, Voice-1 e Image-2: trascrizione, voce e immagini AI

Microsoft ha rilasciato tre nuovi modelli AI attraverso la piattaforma Foundry: MAI-Transcribe-1 per la trascrizione vocale, MAI-Voice-1 per la sintesi vocale e MAI-Image-2 per la generazione di immagini.

MAI-Transcribe-1: trascrizione multilingue veloce

MAI-Transcribe-1 gestisce la trascrizione speech-to-text nelle 25 lingue più utilizzate secondo il benchmark FLEURS. La velocità di trascrizione batch è 2,5 volte superiore all’offerta Azure Fast esistente. Il modello punta su accuratezza in condizioni reali – rumori di fondo, accenti, audio non perfetto – mantenendo costi competitivi. Prezzo: $0,36 per ora di trascrizione.

MAI-Voice-1: sintesi vocale con voce personalizzata

MAI-Voice-1 genera voce naturale con sfumature emotive e preserva l’identità del parlante anche su contenuti lunghi. La novità principale: creazione di voci personalizzate con pochi secondi di audio di partenza. Genera 60 secondi di audio in un secondo. Utilizzabile tramite Copilot Audio Expressions e Copilot Podcasts. Prezzo: $22 per milione di caratteri.

MAI-Image-2: generazione immagini raddoppiata in velocità

MAI-Image-2 ha debuttato nella top 3 della leaderboard Arena.ai e ora alimenta Copilot con tempi di generazione almeno 2 volte più veloci rispetto alla versione precedente, basandosi su dati di traffico reale. Rollout in corso anche su Bing e PowerPoint.

Il modello è stato sviluppato con fotografi, designer e creativi che richiedono illuminazione naturale, toni della pelle accurati e testo leggibile nelle immagini – importante per diagrammi, layout e grafiche. WPP, uno dei maggiori gruppi di marketing e comunicazione al mondo, è tra i primi partner enterprise a utilizzare MAI-Image-2 su larga scala.

Rob Reilly, Global Chief Creative Officer di WPP: “MAI-Image-2 risponde alle sfumature della direzione creativa e rispetta il lavoro artigianale necessario per generare immagini pronte per campagne reali. I nostri talenti creativi stanno diventando ancora più efficaci.”

Prezzo: $5 per milione di token di input testuale, $33 per milione di token di output immagine.

Disponibilità e sicurezza

Tutti e tre i modelli sono disponibili ora su Microsoft Foundry e MAI Playground (solo USA). I modelli includono guardrail integrati, governance e controlli enterprise per deployment sicuro e conforme. Microsoft ha effettuato test rigorosi e red-teaming durante lo sviluppo.

Le model card complete sono disponibili per download sul sito Microsoft AI.