ChatGPT non riconosce il 92% dei video fake creati da Sora: il paradosso di OpenAI

Quando l’AI non riconosce i propri figli

C’è qualcosa di profondamente ironico in quello che sta succedendo. OpenAI vende Sora, uno strumento capace di generare video talmente realistici da ingannare chiunque. Poi offre ChatGPT come assistente “intelligente”. E ChatGPT? Non riesce a distinguere i video fake creati dalla sua stessa azienda da quelli reali.

Lo studio di NewsGuard parla chiaro: xAI’s Grok fallisce nel 95% dei casi. ChatGPT sbaglia il 92,5% delle volte. Persino Gemini di Google, il “migliore” del gruppo, manca il bersaglio nel 78% dei test. Numeri che fanno riflettere.

Il test: 20 video basati su fake news verificate

Gli analisti di NewsGuard hanno creato 20 video con Sora partendo da affermazioni provabilmente false presenti nel loro database. Poi hanno fatto le domande che farebbe un utente normale: “È reale?” e “È generato dall’AI?”.

I risultati sono stati devastanti. Senza watermark visibili:

Grok ha fallito nel 95% dei casi
ChatGPT ha sbagliato il 92,5% delle volte
Gemini ha mancato il 78% dei video

Ma ecco il punto che mi ha fatto alzare le sopracciglia: ChatGPT viene dalla stessa azienda che produce Sora. OpenAI vende uno strumento per creare deepfake convincenti e contemporaneamente offre un chatbot che non sa riconoscerli. Quando NewsGuard ha chiesto spiegazioni, silenzio totale.

I watermark? Una protezione che non protegge

Sora aggiunge un watermark visibile a tutti i video generati. Un logo animato con la scritta “Sora” che attraversa il frame. Dovrebbe essere la garanzia che il contenuto è artificiale. In teoria.

Nella pratica? Poche settimane dopo il lancio di Sora a febbraio 2025, sono spuntati diversi servizi online gratuiti per rimuovere quel watermark. Zero competenze tecniche richieste. Zero soldi necessari. Gli analisti di NewsGuard ne hanno usato uno per la loro indagine.

E anche quando il watermark rimane intatto, i problemi non finiscono. Grok ha fallito nel 30% di questi casi, ChatGPT nel 7,5%. Solo Gemini ha identificato correttamente tutti i video marchiati. Però c’è un dettaglio gustoso: quando gli hanno mostrato un video fake su presunti jet consegnati dal Pakistan all’Iran, Grok ha affermato che il filmato proveniva da “Sora News”. Un telegiornale che non esiste.

Il problema dei metadati C2PA

Oltre al watermark visibile, i video Sora contengono anche uno invisibile. Metadata secondo lo standard industriale C2PA, verificabili su verify.contentauthenticity.org. Sembrava una buona idea.

Peccato che basti fare click destro e “Salva con nome” invece di usare il pulsante di download ufficiale per scaricare un video completamente pulito, senza nessun metadato. L’ho verificato personalmente in un test rapido. E quando ho chiesto a ChatGPT di analizzare un video che conteneva dati C2PA, mi ha risposto con sicurezza che non c’erano content credentials nel clip. Nessuno.

Chatbot che inventano prove per eventi mai accaduti

Qui la faccenda diventa preoccupante. In una precedente indagine, NewsGuard aveva creato un video fake che mostrava un agente ICE che arrestava un bambino di sei anni.

Sia ChatGPT che Gemini hanno considerato il filmato autentico. Entrambi hanno dichiarato che fonti giornalistiche confermavano l’evento e che era avvenuto al confine USA-Messico. Fonti inventate per un evento mai accaduto.

Un altro video fake mostrava un dipendente Delta che cacciava un passeggero per aver indossato un cappello “Make America Great Again”. Tutti e tre i modelli lo hanno classificato come genuino.

Vi rendete conto delle implicazioni? Chiunque voglia diffondere disinformazione politica può usare Sora per creare video convincenti, sapendo che persino i controlli basati su AI falliranno. E i chatbot non solo non rilevano i fake, ma confermano attivamente la loro autenticità inventando prove.

Trasparenza? Quale trasparenza?

I sistemi testati hanno anche un problema di onestà. I chatbot raramente avvisano gli utenti che non possono riconoscere contenuti generati dall’AI. Quanto spesso lo fanno?

ChatGPT: 2,5% dei test
Gemini: 10% dei test
Grok: 13% dei test

Nel restante 90% e passa delle volte, i sistemi forniscono valutazioni sicure ma sbagliate. Quando hanno chiesto a ChatGPT se un video Sora su presunti ID digitali preinstallati sugli smartphone britannici fosse genuino, ha risposto che “il video non sembra essere generato dall’AI”.

Niko Felix, responsabile comunicazione di OpenAI, ha confermato a NewsGuard che “ChatGPT non ha la capacità di determinare se un contenuto è generato dall’AI”. Ma non ha spiegato perché il sistema non comunica questa limitazione di default agli utenti. xAI non ha risposto a due richieste di commento su Grok.

Gemini riconosce solo i propri contenuti

Google sta provando un approccio diverso. Promuove la capacità di Gemini di identificare contenuti creati con il proprio generatore di immagini Nano Banana Pro. In cinque test, Gemini ha riconosciuto correttamente tutte le proprie immagini AI, anche dopo la rimozione dei watermark.

Come ci riesce? Usa SynthID, uno strumento che marca invisibilmente i contenuti come generati dall’AI. Questa marcatura dovrebbe sopravvivere anche a modifiche come il ritaglio.

Ma c’è un problema grosso come una casa. Elijah Lawal, responsabile comunicazione di Google, ha ammesso che la verifica funziona solo per contenuti Google. Gemini non sa riconoscere video Sora o prodotti di altri fornitori. È come avere un sistema di sicurezza che funziona solo nella tua stanza mentre il resto della casa brucia.

Il futuro della verifica dei contenuti AI

Quello che emerge da questa indagine è un ecosistema profondamente disfunzionale. Le aziende vendono strumenti sempre più potenti per creare contenuti fake. Le protezioni come i watermark si aggirano in cinque minuti. I chatbot che dovrebbero aiutarci a distinguere il vero dal falso non solo falliscono, ma mentono con sicurezza.

E mentre le elezioni, i conflitti e le crisi si susseguono, la capacità di diffondere disinformazione su scala industriale cresce più velocemente delle difese. Affidarsi ai chatbot per verificare i contenuti potrebbe involontariamente amplificare la disinformazione invece di contenerla.

OpenAI ha lanciato Sora 2 come app gratuita per iPhone il 30 settembre 2025. Un milione di download in cinque giorni. Nei test di NewsGuard, Sora 2 ha prodotto video realistici che promuovevano affermazioni provabilmente false nell’80% dei casi quando sollecitato a farlo.

Forse è il momento di smettere di chiedere all’AI di controllare l’AI. O almeno di pretendere che le aziende ammettano quello che i loro prodotti non sanno fare.