Mistral OCR 4: il modello che legge documenti meglio di tutti (e lo fa anche in 170 lingue)

Mistral ha rilasciato OCR 4, e no, non è l’ennesimo modello che estrae testo da PDF. Questa volta c’è molto di più: bounding box per localizzare ogni elemento, classificazione dei blocchi (titoli, tabelle, equazioni, firme), punteggi di confidenza inline. Il tutto su 170 lingue — incluse quelle dove i competitor di solito crollano.

Il dato interessante? Negli A/B test ciechi con annotatori umani, OCR 4 ha battuto tutti i sistemi di document AI testati con un win rate medio del 72%. Non si parla di confronti automatici su stringhe (quelli hanno troppi artefatti), ma di preferenze umane su documenti reali. Che è un po’ come dire: ‘Abbiamo fatto leggere 600+ documenti a persone vere, e sette volte su dieci hanno scelto il nostro output’.

Cosa c’è di nuovo (e perché conta)

OCR 3 convertiva pagine in testo pulito. OCR 4 restituisce una rappresentazione strutturata del documento. Ogni blocco ha coordinate precise, un tipo assegnato, e un livello di confidenza per pagina e per parola. Tradotto: i sistemi downstream non sanno solo cosa dice il documento, ma anche dove si trova ogni elemento, che ruolo ha, e quanto il modello è sicuro di quella lettura.

I bounding box — la feature più richiesta secondo Mistral — permettono di evidenziare testo nel contesto originale e costruire pipeline dati affidabili. I tipi di blocco e i punteggi di confidenza invece alimentano citazioni ancorate alle fonti, redazioni, e workflow con verifica umana solo dove serve davvero.

Integrazione con Search Toolkit

OCR 4 è un componente di ingestion del Mistral Search Toolkit, il framework di ricerca open-source e componibile annunciato all’AI Now Summit. L’output strutturato diventa input pronto per citazioni nel workflow di ingestion, retrieval e valutazione del toolkit — pensato per RAG e ricerca enterprise.

Ah, e gira in un singolo container. Il che significa deploy completamente self-hosted: i documenti restano nella vostra infrastruttura per motivi di residenza dati, sovranità, compliance. E supporta batch processing ad alto throughput senza svuotare il conto in banca.

I numeri (e i loro limiti)

Su OlmOCRBench, OCR 4 raggiunge 85.20 — il punteggio più alto tra i modelli testati da Mistral. Su OmniDocBench fa 93.07. Ma Mistral stessa mette le mani avanti: questi benchmark hanno limiti noti nel modo in cui segnano certi output.

Quando hanno fatto l’audit dei mismatch dietro i punteggi, la maggior parte non erano errori del modello ma artefatti di come i benchmark confrontano l’output. Categorie ricorrenti:

  • Errori nel ground truth: annotazioni di riferimento sbagliate — testo mancante o in più, trascrizioni di regioni oscurate, typo (tipo il nome di un autore scritto male nel reference ma letto correttamente dal modello). L’output corrisponde al documento originale, ma viene comunque segnato come sbagliato.
  • Notazione matematica equivalente: LaTeX diverso che renderizza identico viene contato come mismatch. L’equazione è corretta; il confronto tra stringhe no.
  • Segmentazione delle equazioni: se un’espressione viene emessa come singola equazione o divisa in più frammenti inline influenza il match, anche quando il contenuto renderizzato è identico.
  • Ordine di lettura multi-colonna: parole spezzate su un confine di colonna (tipo ‘certifi-cati’) e assunzioni sull’ordine delle colonne causano estrazioni corrette segnate come errori di reading order.
  • Attribuzione del tipo di blocco: il benchmark non si aspetta header/footer nell’output. Mistral li rimuove prima dello scoring, ma il test cerca poi una stringa che è anche il titolo della pagina (e che dovrebbe essere presente) e la segnala erroneamente come mancante.

Questi artefatti si concentrano in documenti matematici, scientifici e multi-colonna. E più spesso penalizzano output corretti che premiano output sbagliati. Quindi il punteggio aggregato va preso come direzionale, non definitivo.

Benchmark multilingue interno

Sul Crawl Multilingual evaluation di Mistral, OCR 4 raggiunge .98 e guida in tutti gli otto gruppi linguistici testati — inglese, Europa occidentale, Europa orientale, Medio Oriente, cinese, Asia orientale, Sud-est asiatico, e lingue specializzate (hindi, giapponese, georgiano, bengalese, armeno, ebraico, greco, gujarati, tamil, malayalam, kannada, telugu).

Il gap è più ampio proprio sulle lingue specializzate e a basse risorse, dove molti sistemi competitor degradano bruscamente. OCR 4 invece mantiene alta accuratezza.

Casi d’uso (quelli veri)

OCR 4 supporta sia pipeline ad alto volume che workflow interattivi su documenti, tra cui:

  • Parsing ed estrazione di documenti complessi e multilingue
  • RAG: contenuto strutturato, classificato, pronto per citazioni, chunking semantico e risposte ancorate alle fonti. Con Search Toolkit, l’output di OCR 4 entra direttamente nelle pipeline di retrieval.
  • Workflow agentici: fornire agli agenti primitive strutturali per completare task come compilazione form, elaborazione fatture, check di compliance — specialmente in legal, servizi finanziari, healthcare.
  • Pipeline dati strutturate che usano i punteggi di confidenza per abilitare uso efficiente di verificatori umani: estrazione form/fatture, redazioni, processi guidati da compliance.
  • Ricerca enterprise e knowledge base: OCR come componente data-source per ingestion custom ed estrazione entità.

I primi utenti stanno applicando OCR 4 per trasformare fatture in campi strutturati, digitalizzare archivi aziendali, estrarre testo pulito da report tecnici e scientifici, e alimentare ricerca enterprise.

Aidan Donohue di Rogo: ‘Abbiamo messo a confronto Mistral OCR 4 con i principali parser di documenti agentici su un dataset di QA finanziario denso di grafici e figure, e abbiamo raggiunto accuratezza equivalente a costi circa 8x più bassi e latenza 17x inferiore. Per use case in produzione su scala, quel delta si compone velocemente’.

Ivan Mihailov di Anaqua: ‘Mistral OCR è circa 4x più veloce per pagina rispetto al nostro provider attuale, un risultato impressionante per i workflow di docketing ad alto volume dove la velocità è critica per gestire le timeline IP dei nostri clienti’.

API vs Document AI: cosa cambia

OCR 4 è disponibile via un singolo endpoint API. Ogni richiesta esegue lo stesso modello OCR sottostante e restituisce sempre contenuto estratto, bounding box, tipi di blocco, punteggi di confidenza, e testo strutturato in markdown. Quello che varia è quanto ci metti sopra.

Usa OCR 4 in modalità estrazione pura quando vuoi:

  • Incorporare estrazione documenti veloce e accurata direttamente nella tua app, agente, o pipeline dati
  • Lavorare direttamente con la risposta raw, bounding box, tipi di blocco e punteggi di confidenza per guidare logica downstream custom
  • Eseguire ingestion ad alto volume o batch con pieno controllo su throughput e costo via Batch API
  • Self-hosting per requisiti stretti di data-privacy, sovranità o compliance

Attiva le capacità Document AI (stesso endpoint, parametri aggiuntivi) quando vuoi:

  • Restituire JSON strutturato in uno schema che definisci tu — passi uno schema JSON insieme al documento, e l’output OCR viene alimentato a mistral-small-2603 per generare contenuto sagomato sulle tue spec
  • Annotare immagini rilevate con JSON strutturato passando uno schema di annotazione immagine, che triggera una chiamata addizionale a un modello vision-language per immagine
  • Usare un prompt custom insieme a uno schema JSON per guidare come il contenuto estratto del documento completo viene interpretato o riassunto
  • Abilitare utenti business, team di soluzioni o pilot a produrre risultati strutturati senza scrivere logica di parsing downstream

La regola pratica: se ti serve contenuto estratto raw, usa OCR 4 così com’è. Se ti serve l’output rimodellato in formato strutturato, annotato con campi domain-specific, o processato con istruzione custom, aggiungi i parametri Document AI alla stessa chiamata. Ottieni sempre il risultato OCR comunque; Document AI aggiunge semplicemente layer strutturati sopra.

Disponibilità e prezzi

OCR 4 è disponibile via API su Mistral Studio, Amazon SageMaker, Microsoft Foundry, e presto Snowflake Parse Document. Per organizzazioni con requisiti stringenti di data-privacy, c’è anche l’opzione self-hosting — le informazioni sensibili restano dentro la vostra infrastruttura.

Prezzi: $4 per 1.000 pagine via API, con sconto del 50% sulla Batch API (quindi $2 per 1.000 pagine). Document AI costa $5 per 1.000 pagine.

Kimmi Grewal, VP AI Ecosystem Partnerships di Microsoft: ‘La disponibilità di Mistral Document AI con OCR 4 in Microsoft Foundry segna una pietra miliare importante nella nostra partnership. Insieme, stiamo abilitando i clienti a portare comprensione di documenti strutturata e avanzata direttamente nei loro workflow AI’.

C’è un Getting Started with OCR 4 Cookbook che copre prima estrazione, lavoro con bounding box, e classificazione blocchi. E un webinar OCR 4 in produzione il 7 luglio alle 18:00 CET.

Nota sugli usi fuori scope: OCR 4 è un modello di comprensione documenti, non un decision-maker. Non è inteso per diagnosi mediche, consulenza legale o giudizi, decisioni finanziarie ad alto rischio, sistemi safety-critical, processing real-time/latency-sensitive, o input non-documentali (audio raw, video, ecc.).