Ideogram 4.0: 9,3 miliardi di parametri, open-weight, e batte tutti sul testo

Ideogram ha appena rilasciato il suo primo modello open-weight. E non è il solito esperimento da ricercatori: stiamo parlando di 9,3 miliardi di parametri che generano immagini da testo con una precisione sul rendering tipografico che lascia indietro persino modelli da 80 miliardi.

Il numero che fa alzare le sopracciglia? 0.97 di accuratezza OCR sul benchmark X-Omni. Tradotto: Ideogram 4.0 scrive testo nelle immagini meglio di chiunque altro nel mondo open-source, e si piazza secondo assoluto — dietro solo a GPT Image 2 — quando designer grafici umani votano alla cieca quale immagine preferiscono.

Architettura: un encoder che vede, prompt che sono database

Due scelte lo distinguono da FLUX, Hunyuan e gli altri. Prima: il text encoder è Qwen3-VL-8B-Instruct, un modello vision-language. Il DiT non consuma un solo hidden state finale, ma concatena gli output di 13 layer intermedi. Più informazione, più contesto, più grounding.

Seconda scelta — questa è quella radicale — il modello è addestrato esclusivamente su caption strutturate in JSON. Non frasi libere. Schema validato, con descrizioni per ogni elemento, bounding box opzionali, palette di colori in hex, e blocchi di stile separati.

Ogni prompt che date al modello viene parsato come JSON e validato prima della generazione. Se non è valido, viene rifiutato. Sembra rigido? È il contrario: vi dà leve di controllo che un prompt in linguaggio naturale non può neanche sognare.

Cosa vi portate a casa con il JSON

Tre cose concrete. Palette conditioning: fino a 16 colori hex per immagine (e 5 per elemento) che pilotano direttamente le dominanti cromatiche, senza passare da descrizioni vaghe tipo ‘tonalità calde autunnali’. Layout con bounding box: ogni elemento può essere posizionato con coordinate normalizzate 0–1000, e il modello le rispetta grazie allo spazio posizionale condiviso del Multimodal RoPE. Testo tipizzato: gli elementi di testo portano la stringa letterale da renderizzare e una descrizione visiva separata per lo stile — ecco come ottengono rendering multi-riga e multi-font precisi.

Un esempio? Potete ancorare sei blocchi di testo per titolo, sottotitolo, data, tagline, credits e RSVP, ciascuno con posizione, scala e rotazione indipendenti. Oppure piazzare 28 bounding box per oggetti su uno scaffale e una riga di inventario in sovraimpressione. Il modello segue.

Classifier-free guidance asimmetrica

Il sampler usa CFG asimmetrica: il ramo incondizionato non sostituisce i token di testo con padding — li elimina del tutto, e gira solo sui token immagine. I due rami possono essere schedulati in modo indipendente durante il sampling, il che permette di bilanciare aderenza al prompt e qualità dell’immagine in fasi diverse.

Il preset V4_QUALITY_48, per dire, fa 45 step con guidance weight = 7, poi 3 step finali di ‘polish’ a gw = 3 vicino a t = 0. Risultato: dettagli fini senza sovrasaturare la composizione globale. I preset più veloci (V4_DEFAULT_20 con 20 step e V4_TURBO_12 con 12) seguono la stessa forma, solo compressa.

Benchmark: piccolo, efficiente, e davanti a tutti sul testo

Layout control (7Bench mIoU): 0.69. Text rendering (X-Omni OCR inglese): 0.97. Spatial reasoning (SpatialGenEval): 0.76. Prompt alignment (Prism-bench): 0.89.

Il grafico parametri vs accuratezza OCR è brutale: Ideogram 4.0 con 9,3B siede da solo nell’angolo piccolo-ma-forte, davanti a Z-Image Base (6,15B), HiDream-O1 (17B), Qwen-Image (20B), FLUX.2 dev (32B) e Hunyuan Image v3 (80B MoE, ~13B attivi per token). Nessun altro modello open-weight gli si avvicina sul testo.

Il ranking ELO da 4.366 voti di designer grafici — alla cieca, senza sapere quale modello avesse prodotto quale immagine — mette GPT Image 2 primo (1141 ELO) e Ideogram 4.0 secondo (1062). Nano Banana 2, Grok Imagine, Luma 1.1, FLUX.2 Pro, Hunyuan v3, Krea v2 e FLUX.2 dev seguono sotto i 1000 punti. Primo tra gli open-weight, e distacco netto.

Risoluzione flessibile, un solo set di pesi

Da thumbnail quadrati 1024×1024 a banner ultrawide 2048×768, passando per wallpaper verticali 1024×1792 e header social 1584×396. La noise schedule si auto-aggiusta per risoluzione, quindi non serve un modello dedicato per ogni formato. Un deployment, tutti i casi d’uso.

Safety e quantizzazione

Tre layer di mitigazione: dati di pre-training filtrati con classificatori NSFW multi-categoria, procedure di post-training che riducono ulteriormente la probabilità di output non sicuri, e screening a runtime di ogni prompt e output tramite Hive moderation nella pipeline di riferimento. Ridistribuzioni del modello devono implementare filtri equivalenti o più forti.

Le quantizzazioni: checkpoint fp8 e nf4 pubblici. La variante nf4 gira su una singola GPU da 24 GB — quindi il vostro workstation con una 4090 o una A5000 ce la fa senza cluster.

Pesi, codice, licenza

Tutto pubblico su Hugging Face (pesi) e GitHub (codice inferenza, guida ai prompt, preset sampler, licenza). Apache 2.0 — che tradotto significa: fateci quello che volete, anche commercialmente.

Ideogram sta assumendo Research Scientists e Research Engineers per lavorare sui modelli generativi di prossima generazione. Se vi interessano 9 miliardi di parametri che scrivono meglio di modelli otto volte più grandi, sapete dove guardare.