Matrix-Game 3.0: Generazione Video Interattiva in Tempo Reale con Memoria a Lungo Termine

Con l’avanzamento della generazione video interattiva, i modelli di diffusione stanno dimostrando sempre più il loro potenziale come world model. Tuttavia, gli approcci esistenti faticano ancora a raggiungere simultaneamente coerenza temporale a lungo termine basata su memoria e generazione in tempo reale ad alta risoluzione, limitando la loro applicabilità in scenari reali.

Cosa è Matrix-Game 3.0

Matrix-Game 3.0 è un world model interattivo potenziato dalla memoria, progettato per generare video a 720p in tempo reale su sequenze lunghe. Costruito su Matrix-Game 2.0, introduce miglioramenti sistematici attraverso dati, modello e inferenza.

Come funziona: tre pilastri

1. Data Engine su scala industriale

Un motore dati infinito che integra dati sintetici basati su Unreal Engine, raccolta automatizzata su larga scala da giochi AAA e augmentation di video reali. Il risultato? Quadruple Video-Pose-Action-Prompt di alta qualità su scala.

2. Framework di training per coerenza a lungo termine

Modella i residui di predizione e re-inietta frame generati imperfetti durante il training. Il modello base impara così l’auto-correzione. Nel frattempo, il recupero e l’iniezione di memoria camera-aware permettono al modello base di raggiungere coerenza spaziotemporale su orizzonti lunghi.

3. Strategia di distillazione autoregressiva multi-segmento

Basata su Distribution Matching Distillation (DMD), combinata con quantizzazione del modello e distillazione del decoder VAE. Questo consente inferenza efficiente in tempo reale.

Error-Aware Interactive Base Model

Il modello base usa un Diffusion Transformer bidirezionale unificato che modella congiuntamente frame latenti passati, frame correnti con rumore e condizioni di azione (mouse/tastiera) all’interno di una singola architettura.

Durante il training, un meccanismo di raccolta degli errori registra i residui di predizione δ = x̂ᵢ − xⁱ in un buffer di errore, mentre l’iniezione di errore x̃ᵢ = xⁱ + γδ introduce perturbazioni controllate per simulare condizionamento imperfetto. Questo colma il divario tra training su dati puliti e inferenza autoregressiva rumorosa, consentendo al modello di imparare l’auto-correzione su rollout a lungo termine.

Memory-Augmented Generation

I frame di memoria recuperati vengono incorporati come condizioni aggiuntive tramite un meccanismo di self-attention congiunto. I latent di memoria, i latent dei frame passati e i latent dei frame correnti con rumore sono posizionati nello stesso spazio di attenzione.

La selezione di memoria camera-aware recupera solo contenuti storici rilevanti per la vista, basandosi sulla posa della camera e sulla sovrapposizione del campo visivo, accompagnata da codifica Plücker relativa per rappresentazione geometrica cross-view. Un latent sink persistente (il primo frame) funge da ancora globale per lo stile e l’aspetto della scena.

Distillazione Few-Step Allineata Training-Inference

Viene introdotto uno schema di inferenza auto-generato multi-segmento per lo studente bidirezionale, basato su Distribution Matching Distillation (DMD). Lo studente esegue rollout multi-segmento che imitano l’inferenza few-step effettiva: ogni segmento parte da rumore casuale, con frame passati presi dalla coda del segmento precedente e memoria recuperata da un pool di memoria aggiornato online.

Il segmento finale viene usato per il matching di distribuzione, garantendo così coerenza training-inference. Combinato con quantizzazione INT8 per i layer di attenzione DiT, un decoder VAE leggero potato (MG-LightVAE, fino a 5.2× di speedup) e recupero di memoria camera-aware basato su GPU, la pipeline completa raggiunge fino a 40 FPS di generazione in tempo reale a risoluzione 720p usando 8 GPU per l’inferenza DiT e 1 GPU per la decodifica VAE.

Risultati sperimentali

Matrix-Game 3.0 raggiunge fino a 40 FPS di generazione in tempo reale a risoluzione 720p con un modello 5B, mantenendo coerenza di memoria stabile su sequenze lunghe un minuto. Scalare fino a un modello 2×14B migliora ulteriormente qualità di generazione, dinamiche e generalizzazione.

Perché è importante

Questo approccio fornisce un percorso pratico verso world model distribuibili su scala industriale. La capacità di generare video interattivi ad alta risoluzione in tempo reale con memoria a lungo termine apre nuove possibilità per applicazioni in gaming, simulazione e realtà virtuale.