Mistral Small 4: il modello che unifica chat, ragionamento e visione

Mistral AI ha rilasciato Small 4, e questa volta hanno fatto una cosa interessante: invece di continuare a sfornare modelli specializzati separati, hanno deciso di unificare tutto in un unico modello. Chat veloce, ragionamento profondo, comprensione di immagini – tutto nello stesso pacchetto.

Cosa rende Small 4 diverso

Partiamo dal dato più concreto: è un modello da 119 miliardi di parametri totali, ma ne usa solo 6 miliardi alla volta (8 se contiamo embedding e output). Come ci riescono? Mixture of Experts – 128 esperti, 4 attivi per token. Tradotto: il modello attiva solo le parti che servono per ogni specifica richiesta, invece di far lavorare tutto il cervellone ogni volta.

La parte che mi ha colpito: hanno aggiunto un parametro reasoning_effort. Praticamente puoi dire al modello quanto deve pensarci su. Con reasoning_effort="none" ottieni risposte veloci stile chat normale, come il vecchio Small 3.2. Con reasoning_effort="high" il modello si prende il suo tempo e ti mostra il ragionamento passo-passo, tipo quello che faceva Magistral.

I numeri che contano davvero

Ok, mettiamo da parte il marketing e guardiamo cosa significa nella pratica. Rispetto a Mistral Small 3:

40% di riduzione nel tempo totale di completamento (setup ottimizzato per latenza)
3x più richieste al secondo (setup ottimizzato per throughput)

Ma c’è un dettaglio più interessante nei benchmark. Su LCR (Livecode Reasoning Challenge), Small 4 ottiene uno score di 0.72 con output da 1.6K caratteri. I modelli Qwen? Stesso risultato, ma con output da 5.8-6.1K caratteri. Praticamente 3.5-4x più lunghi.

Perché dovrebbe interessarvi? Output più corti = latenza più bassa, costi di inference ridotti, esperienza utente migliore. Non è solo una questione di eleganza – è proprio che paghi meno e l’utente aspetta meno.

Multimodalità vera

Small 4 accetta sia testo che immagini in input. Niente più “scusa, devi usare un altro modello per quello”. Parsing di documenti con grafici? Check. Analisi visiva? Check. Chat con screenshot? Check.

Contesto da 256k token – abbastanza per analizzare documenti lunghi o tenere conversazioni estese senza perdere il filo.

Requisiti hardware (la parte che fa male)

Minimo sindacale per farlo girare:

4x NVIDIA HGX H100, oppure
2x NVIDIA HGX H200, oppure
1x NVIDIA DGX B200

Setup consigliato per performance ottimali:

4x NVIDIA HGX H100, oppure
4x NVIDIA HGX H200, oppure
2x NVIDIA DGX B200

Quindi no, non lo farete girare sul vostro laptop. Ma per deployment enterprise, questi numeri sono gestibili.

Licenza Apache 2.0

E qui Mistral ha fatto la mossa giusta: Apache 2.0. Zero vincoli commerciali, modificalo come vuoi, usalo per quello che ti pare. Open source vero, non quel “quasi-open-ma-non-proprio” che vediamo in giro.

Già disponibile su vLLM, llama.cpp, SGLang, Transformers. Se lavori con questi framework, puoi iniziare subito senza riscrivere mezza infrastruttura.

Chi dovrebbe usarlo

Developer che fanno automazione di codice, esplorazione di codebase, workflow agentici. Enterprise che hanno bisogno di chat assistant, comprensione documenti, analisi multimodale. Ricercatori che lavorano su math, ricerca, ragionamento complesso.

L’architettura personalizzabile lo rende ideale per fine-tuning su casi specifici. Non sei bloccato con quello che esce dalla scatola.

Dove provarlo

Mistral API e AI Studio per test immediati. Repository Hugging Face per chi vuole sporcarsi le mani. Prototipazione gratuita su build.nvidia.com con accelerazione NVIDIA. Per produzione, disponibile come NVIDIA NIM – inference ottimizzata e containerizzata pronta all’uso.

Fine-tuning custom con NVIDIA NeMo se hai bisogno di specializzarlo per il tuo dominio.

Il punto

Mistral Small 4 non è rivoluzionario nel senso “tecnologia mai vista”. È rivoluzionario nel senso “finalmente qualcuno unifica le cose in modo sensato”. Un modello, tre use case, licenza vera open source, performance concrete.

Non più “uso questo per chat, quello per ragionamento, quell’altro per le immagini”. Un modello, configurabile al volo, che fa tutto. E i numeri dicono che lo fa bene.