Galileo-0: il critico AI che trova gli errori fisici nei video generati

Physion Labs ha rilasciato Galileo-0, un sistema che analizza i video generati dall’AI cercando errori fisici. Non si limita a dire “questo video fa schifo” — ti spiega esattamente cosa è andato storto, quando è successo e perché viola le leggi della fisica.

Il problema: i video sembrano veri ma non lo sono

Nel loro studio Physion-Eval, hanno scoperto una cosa inquietante: l’83,3% dei video in terza persona e il 93,5% di quelli in prima persona contengono almeno un errore fisico riconoscibile da un umano. I modelli generativi sono diventati bravissimi a creare immagini convincenti, ma la fisica? Quella è un’altra storia.

Hanno costruito un dataset di 10.990 analisi dettagliate fatte da esperti umani, catalogando 22 tipi diversi di errori fisici. Ogni glitch viene registrato con timestamp precisi, etichette strutturate e spiegazioni in linguaggio naturale.

Perché serve un critico automatico

Gli umani sono bravissimi a trovare questi errori, ma costa una fatica bestiale. Per un video di 8 secondi senza problemi ci vogliono 2,5 minuti solo per verificare che sia tutto a posto. Se ci sono errori? Si arriva a 18 minuti per video con complessità media (1-5 glitch) e oltre 45 minuti per quelli difficili (più di 5 glitch).

Il problema è che la maggior parte delle persone non addestrate sono pessimi critici: o non vedono proprio gli errori, o si accorgono che qualcosa non va ma non sanno dire cosa. Gli esperti umani restano il gold standard, ma non scalano.

Come funziona Galileo-0

Il sistema usa una pipeline a due stadi, ispirata ai metodi di object detection come Fast R-CNN:

Stage 1 (percezione spaziotemporale): Galileo propone candidati di potenziali glitch attraverso spazio e tempo, restringendo la ricerca agli eventi che potrebbero contenere comportamenti fisicamente inconsistenti
Stage 2 (ragionamento spaziotemporale): Ispeziona ogni candidato per determinare se viola davvero le aspettative fisiche. Un gatto che sparisce dietro un oggetto? Non è un glitch. Un autobus fermo con le ruote che girano? Quello sì

Hanno addestrato il loro modello multimodale proprietario usando le tracce di ragionamento degli esperti umani come supervisione.

I risultati

Hanno testato Galileo-0 su quattro categorie principali di glitch:

Discontinuità nell’esistenza degli oggetti
Cambiamenti nell’identità o negli attributi degli oggetti
Inconsistenze strutturali o nelle parti degli oggetti
Inconsistenze testuali o linguistiche

I video provengono dai modelli più recenti disponibili al momento della raccolta dati: Veo3, Kling, Sora2, Wan2.6, Seedance, sia closed-source che open-source.

Come metrica principale usano la micro F1 a livello di glitch. Un glitch predetto viene considerato corretto se ha overlap temporale con quello reale (IoU temporale ≥ 0.3) e similarità semantica nella spiegazione (STS ≥ 0.5).

Galileo-0 straccia tutti i modelli multimodali state-of-the-art:

Galileo-0: 63,26% F1 su tutte le categorie
GPT-5.4: 38,89%
Gemini 3.1 Pro: 36,48%
Qwen3.5-Plus: 35,15%
GLM-5V Turbo: 25,42%
Pegasus 1.2: 3,40%

Il gap è particolarmente ampio sulle categorie testuali, dove Galileo-0 raggiunge 84,10% F1 contro il 53,20% di GPT-5.4. Sulle categorie relative agli oggetti — che sono più difficili — Galileo-0 è ancora primo con 37,17% F1.

Cosa rende Galileo-0 diverso

Una capacità chiave che gli altri modelli non hanno: Galileo-0 produce regioni spaziotemporali altamente localizzate per ogni glitch. In molti casi, l’evidenza decisiva è confinata in una piccola regione e una breve finestra temporale — una parola specifica in un testo, una mano umana, la testa di un’ascia.

Il rilevamento dei glitch relativi agli oggetti resta comunque una sfida enorme. Gli oggetti coinvolti e i modi in cui falliscono variano enormemente: una tazza può sparire da un tavolo, la testa di un’ascia può staccarsi, una mano può non fare contatto corretto con un oggetto, un piccolo oggetto può svanire brevemente durante il movimento. Questi errori sono spesso sottili, brevi, confinati in regioni piccole — difficile persino identificare la regione rilevante prima di determinare se c’è stata una violazione fisica.

E adesso?

I world critics aprono una strada verso modelli video ottimizzati non solo per l’aspetto, ma per la plausibilità fisica. Un critico che può determinare quando inizia un glitch, dove accade e perché viola le aspettative fisiche rende i fallimenti leggibili a livello di oggetti, interazioni e dinamiche degli eventi.

Galileo-0 è un primo passo. Il suo ragionamento può diventare più accurato, più robusto su fallimenti sottili e a lungo termine, più ampio nei tipi di glitch che copre. Quella copertura può anche crescere oltre categorie fisse del mondo reale per supportare nozioni personalizzate di plausibilità per ambienti diversi — inclusi mondi le cui regole fisiche differiscono da quelle delle scene terrestri quotidiane.