Cosa rende diverso questo rilascio
Lightricks ha rilasciato LTX-2.3 il 5 marzo 2026. Non è il classico aggiornamento dove il changelog dice “performance improvements” e poi nella pratica non cambia niente. Qui parliamo di un upgrade sostanziale del loro sistema di generazione video, pensato per chi deve integrarlo in pipeline di produzione vere – non demo da keynote.
L’ecosistema completo comprende codice sorgente, pesi del modello addestrato, documentazione per il training, API per l’integrazione e LTX Studio per chi preferisce lavorare via browser. Tutto sotto licenza Apache 2.0, che tradotto significa: fate quello che volete, usatelo nei vostri prodotti, zero vincoli commerciali.
Miglioramenti sulla fedeltà visiva
Il salto principale riguarda quanto il risultato finale assomiglia a quello che avevi in mente. Un nuovo VAE video e uno spazio latente riprogettato producono dettagli più nitidi – quelle piccole texture che nei modelli precedenti sparivano nella compressione ora sopravvivono. L’interpolazione dell’ultimo frame è stata riscritta per evitare quei finali bruschi che sembrano un freeze improvviso.
L’image-to-video tiene meglio la coerenza rispetto alla versione precedente. Nei test comparativi su ritratti fotografici, la differenza nella texture della pelle era evidente – meno effetto “pelle di plastica”, più variazioni realistiche. Il modello vecchio tendeva a fondere i capelli in una massa uniforme, tipo i caschi LEGO. Questo invece preserva i fili individuali anche quando il soggetto si muove.
Stabilità del movimento
Un problema ricorrente nei modelli precedenti era l’instabilità nei movimenti piccoli. Una mano che si muove lentamente poteva trasformarsi in un blob sfocato per qualche frame, poi tornare normale. LTX-2.3 riduce questi artifact attraverso un training mirato su movimenti a bassa velocità e transizioni graduali.
Su AI Arena, dove gli utenti valutano output senza sapere quale modello li ha generati, LTX-2.3 si è piazzato quarto assoluto e primo tra i modelli open-source. Non male considerando che sopra ci sono solo modelli proprietari che costano abbonamenti mensili.
Comprensione dei prompt e controllo strutturato
Il connettore testuale è stato ingrandito per interpretare meglio le istruzioni complesse. Movimenti di camera tipo “slow dolly-in verso il soggetto mentre la camera inclina leggermente verso l’alto” vengono ora risolti correttamente senza dover ingegnerizzare il prompt per venti minuti.
I keyframe e il controllo strutturato sono integrati dalla fase di pre-training attraverso obiettivi multi-task. Questo rende fluide le transizioni tra scene diverse e i workflow multi-shot dove devi mantenere coerenza tra clip separate.
Endpoint disponibili
Il sistema offre sette modalità operative: text-to-video, image-to-video, audio-to-video, extend-video, retake-video. I primi due hanno anche varianti “fast” per chi ha fretta e può accettare qualità leggermente inferiore. Tutti supportano LoRA fine-tuning se dovete adattare il modello al vostro stile specifico.
Formato portrait 9:16 supportato nativamente – non serve più croppare output 16:9. Potete scegliere tra 24 e 48 FPS a seconda del look che volete ottenere. Output 4K nativo fino a 20 secondi di durata, che per molti workflow è più che sufficiente.
Audio migliorato e sincronizzazione
La qualità audio ha fatto un passo avanti su tutta la linea. Il nuovo vocoder aumenta la chiarezza dei dialoghi – meno quella sensazione di “parlare dentro un barattolo” che avevano i modelli precedenti. Il realismo dei suoni ambientali è migliorato, specialmente per rumori complessi tipo pioggia o traffico dove servono molti layer sovrapposti.
L’allineamento cross-modale tra video e audio è più stretto. Se nel video compare una porta che si chiude, il suono corrisponde al timing visivo entro pochi millisecondi. Sembra banale ma nei modelli precedenti potevi avere disallineamenti evidenti.
Filtraggio dei dati e riduzione del rumore
Un problema ricorrente nell’audio generato era il rumore di fondo – quel sibilo costante che ti obbliga poi a passare tutto in post-produzione per pulirlo. Un filtraggio più robusto in fase di training e un processing migliorato dei dati riducono questi artifact. Non spariscono completamente, ma la differenza è udibile.
Architettura e integrazione
LTX-2.3 usa un’architettura DiT-based, che è diventata lo standard per questo tipo di modelli. L’integrazione con ComfyUI funziona out-of-the-box se siete nel mondo Stable Diffusion. È disponibile anche su fal.ai per chi preferisce servizi cloud invece di gestire l’infrastruttura in locale.
Per girarlo in locale servono GPU serie – almeno una 3090 se volete tempi ragionevoli. Su hardware consumer tipo una 1660 preparatevi a tempi di generazione da ore per clip di qualche secondo. La versione quantizzata riduce i requisiti ma ovviamente impatta sulla qualità finale.
Il contesto del rilascio
Lightricks è una company AI-first fondata da Zeev Farbman, che ne è ancora CEO. Il modello originale LTX-2 fu presentato al CES 2026 il 6 gennaio, combinando generazione audio e video sincronizzati in output 4K a 50 FPS. LTX-2.3 rappresenta due mesi di iterazione basata sui feedback della community e sui casi d’uso reali.
I pesi del modello sono disponibili su Hugging Face, il codice su GitHub. La documentazione include guide per il training personalizzato se avete dataset proprietari da cui partire. Per chi vuole solo usarlo senza capire come funziona internamente, le API sono il percorso più rapido.
A chi serve davvero
Se state sperimentando con generazione video, questo è un buon punto di partenza perché è open-source e ben documentato. Se dovete integrarlo in pipeline di produzione, l’API production-ready e la licenza permissiva lo rendono praticabile.
Per chi viene da modelli precedenti, l’upgrade ha senso principalmente se la fedeltà visiva era il vostro collo di bottiglia. Se invece i problemi erano altri – tipo generare movimenti specifici o mantenere coerenza su clip lunghe – alcuni miglioramenti ci sono ma non aspettatevi miracoli.
Il fatto che sia arrivato quarto su AI Arena in test ciechi contro modelli proprietari è un segnale che il gap tra open-source e closed-source si sta riducendo. Non stiamo ancora parlando di parità, ma la distanza è minore rispetto a un anno fa.
