Ok, fermiamoci un secondo. Avete presente quei video deepfake dove vedi subito che qualcosa non va? Magari il labiale è quasi giusto, ma gli occhi sono morti, o il personaggio annuisce come un automa? Ecco, LPM 1.0 prova a risolvere proprio quello — e dai test che ho visto, ci riesce in modo inquietante.
Cosa fa davvero
LPM (Live Performance Model) prende un’immagine statica e la trasforma in un personaggio video che può parlare, ascoltare, cantare. In tempo reale. Con conversazioni full-duplex — tipo, mentre tu parli lui ti guarda e reagisce, poi risponde con labiale sincronizzato. Non è roba pre-registrata: genera tutto al volo.
La parte che mi ha fatto alzare le sopracciglia? La durata illimitata. Non stiamo parlando di clip da 10 secondi. Nei loro test hanno generato video di 45 minuti continui mantenendo l’identità del personaggio stabile. Quarantacinque minuti. Senza che il modello si dimentichi com’è fatto il tizio che sta animando.
Come funziona (senza troppo nerdismo)
Il sistema accetta tre tipi di input contemporaneamente:
- Immagini di riferimento — non solo il volto frontale, ma anche profili, espressioni diverse, il corpo. Questo elimina il problema classico dove l’AI deve inventarsi come sono i denti o le rughe d’espressione quando non le vede.
- Audio — per il labiale quando parla, ma anche per generare comportamenti di ascolto quando l’altra persona parla.
- Testo — per controllare emozioni, postura, tipo di interazione. Puoi scrivere roba tipo “parla mentre è sdraiato su una poltrona” e il modello capisce.
La cosa intelligente è che hanno separato il flusso “parla” dal flusso “ascolta”. Quando il personaggio ascolta, non sta fermo come un manichino — annuisce, alza un sopracciglio, cambia lo sguardo. Micro-espressioni che fanno sembrare viva la conversazione.
I numeri che contano
Tecnicamente parliamo di un modello che gira a 480p in modalità streaming. Non è 4K da cinema, ma per videochiamate o NPC nei videogiochi è più che sufficiente. E soprattutto: funziona in tempo reale. Zero delay percettibile tra input audio e video generato.
Hanno testato il sistema su personaggi fotorealistici, anime 2D, character 3D da videogiochi, persino creature non-umanoidi. Zero fine-tuning necessario — dai le immagini di riferimento e parte.
Le parti dove diventa interessante
Canto. Il modello sincronizza il labiale con le melodie, gestisce le note prolungate, adatta il movimento del corpo al ritmo. Funziona in più lingue — cinese, inglese, portoghese nei test. Ho visto clip dove il personaggio canta veloce (stress test per i testi rap) e il labiale tiene.
Emozioni. Non è solo “felice/triste/arrabbiato”. Hanno testato sfumature tipo “vergogna vs rimorso”, “diffidenza vs scetticismo”, transizioni emotive (tipo “sorriso → rabbia → nostalgia → sorriso”). Il tipo di roba che separa un’animazione robotica da una performance credibile.
Conversazioni lunghe. Hanno collegato LPM a ChatGPT e Doubao (un modello audio-to-audio) per creare conversazioni complete. Tu parli → il personaggio ti ascolta e reagisce in tempo reale → il modello A2A processa la risposta → il personaggio parla. Ciclo continuo. Nei test hanno fatto girare conversazioni da 22 e 45 minuti senza perdita di coerenza.
Le cose che mancano (perché ci sono sempre)
Primo: non vedrete questo modello. Il team ha dichiarato esplicitamente — zero rilascio pubblico, zero API, zero demo online. Solo paper accademico. Motivazione ufficiale: sicurezza, prevenzione abusi, necessità di framework responsabili prima di qualsiasi release.
Secondo: a 480p vedi ancora artefatti. Non è indistinguibile dal reale — lo dicono loro stessi nel disclaimer. C’è ancora un gap qualitativo rispetto a video veri.
Terzo: tutti gli input nei demo sono sintetici. Immagini generate, audio generato, zero persone reali. Questo risolve problemi legali ma limita i casi d’uso pratici.
Perché dovrebbe interessarvi
Se lavorate con NPC nei videogiochi, questo cambia le carte in tavola. Invece di animazioni canned potete avere personaggi che reagiscono in tempo reale a quello che dice il giocatore, con espressioni appropriate al contesto.
Per assistenti virtuali o personaggi per streaming, stessa storia — finalmente una presenza video che non sembra un PowerPoint animato.
Per il resto di noi? Probabilmente non vedremo LPM 1.0 direttamente, ma la direzione è chiara: i personaggi AI stanno smettendo di sembrare marionette. E questo, a seconda di come la vedete, è eccitante o leggermente inquietante.
Io continuo a pensare a quegli NPC nei videogiochi che ripetono le stesse tre animazioni in loop. Tra cinque anni quella roba sembrerà preistoria.
