BiDi, il modello audio di OpenAI che trasforma gli assistenti vocali

la svolta nell’interazione vocale con l’intelligenza artificiale

OpenAI sta lavorando a BiDi (“bidirectional”), un modello audio che punta a cambiare radicalmente il modo in cui parliamo con gli assistenti vocali. Il rilascio è previsto per il primo trimestre del 2026, ma quello che davvero mi ha colpito non è la data – è l’approccio. Perché BiDi non è tipo quei rilasci dove il changelog dice “performance improvements” e tu non vedi mezza differenza.

Sapete quella sensazione quando interrompete un assistente vocale e lui si blocca, confuso, come se avesse perso il filo? Ecco, BiDi dovrebbe risolvere proprio questo. Il modello processa la voce in tempo reale e adatta la risposta mentre state ancora parlando. Non aspetta il vostro turno – lavora contemporaneamente, in full-duplex.

cosa significa tecnicamente “bidirezionale”

Ok, momento tecnico per un secondo. I modelli vocali attuali – incluso GPT-realtime – funzionano a turni: ti ascoltano, aspettano che finisci, processano, poi rispondono. Quattro step sequenziali: speech-to-text, rilevamento del turno (Voice Activity Detection), elaborazione LLM, text-to-speech. La latenza si accumula.

BiDi processa l’audio in entrambe le direzioni simultaneamente, con target di latenza sotto gli 800ms. Probabilmente elabora l’audio end-to-end come spettrogrammi – approccio log-Mel simile a Whisper – saltando la conversione intermedia in testo. Il che significa che quando cambiate idea a metà frase, il modello sta già adattando la risposta in base a quello che avete appena detto.

risposte più naturali ed emotive

L’architettura produce risposte che suonano più umane. Non solo in termini di tono – quello lo facevano già – ma proprio nella capacità di gestire le interruzioni. Pensate a una chiamata al customer support: decidete a metà conversazione di cambiare un articolo invece di restituirlo. Un assistente classico si perderebbe. BiDi, almeno sulla carta, dovrebbe gestire fluidamente il cambio di direzione.

E qui OpenAI ha fatto la mossa intelligente: utilizzo di strumenti e applicazioni esterne. Il modello non è solo bravo a chiacchierare – può interagire con sistemi esterni mentre continua la conversazione. Praticamente, potrebbe controllare il vostro ordine, modificarlo, e confermarvi il tutto senza mai interrompere il flusso.

il dispositivo hardware dietro BiDi

BiDi non nasce nel vuoto. È il fondamento software per il dispositivo audio-first che OpenAI sta sviluppando con Jony Ive – sì, quello di Apple. La società io di Ive è stata acquisita da OpenAI per circa 6,5 miliardi di dollari nel maggio 2025. Il device – atteso per inizio 2027 – sarà privo di schermo e incentrato sull’interazione vocale.

OpenAI sta valutando una famiglia di prodotti: occhiali smart, smart speaker senza display, e circolano anche voci su un dispositivo a forma di penna che integri voce, scrittura a mano e ChatGPT. L’idea è chiara: se il modello audio è abbastanza buono, lo schermo diventa opzionale.

riorganizzazione interna per l’audio

Negli ultimi due mesi OpenAI ha unificato i team di engineering, product e ricerca dedicati all’audio sotto la guida di Kundan Kumar, ex ricercatore audio di Character.AI. Questo segnala un focus strategico su conversazioni AI emotivamente espressive e orientate alla personalità. Non è solo una questione di funzionalità – vogliono che l’assistente abbia carattere.

il contesto competitivo

Mentre OpenAI sviluppa BiDi, i competitor arrancanno. Google ha posticipato a marzo 2026 il tramonto di Google Assistant in favore di Gemini Live – feedback negativi sulla affidabilità del nuovo assistente. Apple ha rinviato “Siri V2” alla primavera 2026 dopo un cambio di leadership, alle prese con la natura non deterministica degli LLM per trigger di azioni specifiche del dispositivo.

Meta sta lavorando sui Ray-Ban smart glasses con array a 5 microfoni per amplificare conversazioni in ambienti rumorosi. Tesla integra Grok di xAI nei veicoli per un assistente vocale conversazionale. Il mercato si sta muovendo veloce, ma sembra che tutti stiano ancora cercando di capire come rendere affidabili questi sistemi.

benchmark attuali e aspettative

Il modello corrente di OpenAI ha raggiunto l’82,8% sul Big Bench Audio evaluation per il ragionamento. BiDi dovrà superare questa soglia – soprattutto considerando che supporterà un dispositivo senza feedback visivo. Quando non puoi vedere cosa sta facendo il sistema, le allucinazioni o gli errori diventano molto più problematici.

Nel 2025 OpenAI ha già rilasciato gpt-4o-transcribe e gpt-4o-mini-transcribe (miglioramenti del word error rate rispetto a Whisper), gpt-4o-mini-tts-2025-12-15 (circa 35% di WER più basso), e la Realtime API in general availability dal 28 agosto. BiDi costruisce su queste fondamenta.

applicazioni pratiche oltre il customer support

L’esempio del customer support è lampante, ma le applicazioni vanno oltre. Pensate a sessioni di brainstorming dove l’AI non aspetta che finiate il pensiero – vi segue, vi interrompe con suggerimenti, adatta le idee in tempo reale. O a traduzioni simultanee dove il sistema deve processare una lingua mentre sta ancora producendo output in un’altra.

Per sviluppatori e professionisti del web, BiDi potrebbe significare assistenti di coding vocali che capiscono quando state ripensando un approccio a metà spiegazione. Non dover ripetere tutto da capo perché avete cambiato idea su un dettaglio implementativo.

prospettive per sviluppatori e integrazioni

La Realtime API di OpenAI è già disponibile – streaming audio bidirezionale a bassa latenza per developer. BiDi probabilmente evolverà questa API, aggiungendo capacità di gestione interruzioni e elaborazione più naturale. Per chi sviluppa applicazioni vocali, questo significa ripensare l’UX: non più “parla-ascolta-rispondi”, ma conversazioni fluide dove utente e sistema si sovrappongono.

C’è anche la questione dell’integrazione con strumenti esterni. Se BiDi può davvero interagire con API e database mentre mantiene la conversazione, le possibilità per automazioni vocali complesse si moltiplicano. Workflow multi-step gestiti interamente a voce, con l’AI che conferma azioni e chiede chiarimenti senza rompere il flusso.

Scetticismo comprensibile – quanti aggiornamenti AI quest’anno hanno promesso rivoluzioni e poi nella pratica cambiava poco? Ma se BiDi mantiene anche solo metà di queste promesse, stiamo guardando a un cambio significativo nel modo in cui interagiamo con l’intelligenza artificiale. Non più assistenti che aspettano pazientemente il loro turno, ma sistemi che conversano davvero.