OpenAI ha appena rilasciato GPT-5.4 mini e nano, due nuovi modelli ottimizzati per carichi di lavoro ad alto volume. Non sono i più potenti della famiglia GPT-5.4, ma sono quelli che rispondono più velocemente quando la latenza conta davvero.
GPT-5.4 mini: il compromesso intelligente
GPT-5.4 mini migliora rispetto a GPT-5 mini su coding, ragionamento, comprensione multimodale e uso di tool – e gira più del doppio più veloce. Su alcuni benchmark come SWE-Bench Pro e OSWorld-Verified si avvicina pericolosamente al fratello maggiore GPT-5.4, ma a una frazione del costo e del tempo.
I numeri? Su SWE-Bench Pro raggiunge il 54.4% contro il 57.7% di GPT-5.4 completo, ma costa meno e risponde molto prima. Per task di coding dove devi iterare velocemente – edit mirati, navigazione della codebase, debug – questo modello ha senso.
GPT-5.4 nano: quando ogni millisecondo conta
Nano è la versione più piccola ed economica della famiglia. OpenAI lo consiglia per classificazione, estrazione dati, ranking e subagent di coding che gestiscono task di supporto semplici. È un upgrade significativo rispetto a GPT-5 nano, ma ovviamente fa meno cose del mini.
Pensatelo così: quando avete un sistema che coordina più agenti, il modello grande può fare planning e decisioni, mentre i nano gestiscono i task ripetitivi in parallelo. Tipo cercare nel codebase o processare documenti di supporto.
I casi d’uso concreti
Questi modelli sono stati progettati per situazioni dove la latenza plasma direttamente l’esperienza:
- Assistenti di coding che devono sentirsi reattivi
- Subagent che completano task di supporto velocemente
- Sistemi che usano il computer catturando e interpretando screenshot
- Applicazioni multimodali che ragionano su immagini in tempo reale
Su OSWorld-Verified (task di computer use), GPT-5.4 mini raggiunge il 72.1% – praticamente GPT-5.4 livello (75%) ma molto più veloce. GPT-5 mini si fermava al 42%.
Cosa dicono quelli che l’hanno già provato
Aabhas Sharma, CTO di Hebbia: “GPT-5.4 mini ha performato bene o meglio di modelli competitivi su diversi task di output e citation recall, a un costo molto più basso. Ha anche ottenuto pass rate end-to-end più alti e source attribution più forte del modello GPT-5.4 più grande.”
Tradotto: a volte il modello mini funziona meglio del fratello maggiore per certi workflow specifici. Non sempre più grande significa migliore.
Pattern di utilizzo: subagent multipli
OpenAI spinge molto sul concetto di composizione. Invece di usare un solo modello per tutto, puoi costruire sistemi dove:
- GPT-5.4 fa planning, coordinamento e giudizio finale
- GPT-5.4 mini gestisce subtask più ristretti in parallelo
- GPT-5.4 nano esegue operazioni ripetitive a costi minimi
In Codex, per esempio, il modello grande decide cosa fare e delega ai mini subagent che eseguono rapidamente e in scala. Questo pattern diventa più utile man mano che i modelli piccoli diventano più capaci.
Disponibilità e prezzi
GPT-5.4 mini è disponibile oggi su API, Codex e ChatGPT.
Nell’API supporta input testuali e immagini, tool use, function calling, web search, file search, computer use e skills. Context window di 400k token. Costo: $0.75 per 1M token in input, $4.50 per 1M in output.
In Codex usa solo il 30% della quota di GPT-5.4 – circa un terzo del costo per task più semplici. Codex può delegare automaticamente ai mini subagent quando il lavoro non richiede ragionamento intensivo.
In ChatGPT, GPT-5.4 mini è disponibile per utenti Free e Go tramite la feature “Thinking” nel menu +. Per gli altri utenti funziona come fallback quando GPT-5.4 Thinking raggiunge il rate limit.
GPT-5.4 nano è disponibile solo via API: $0.20 per 1M token in input, $1.25 per 1M in output.
Performance nel dettaglio
Alcuni numeri dai benchmark:
- SWE-Bench Pro: GPT-5.4 (57.7%), mini (54.4%), nano (52.4%), GPT-5 mini (45.7%)
- Terminal-Bench 2.0: GPT-5.4 (75.1%), mini (60.0%), nano (46.3%)
- GPQA Diamond: GPT-5.4 (93.0%), mini (88.0%), nano (82.8%)
- OSWorld-Verified: GPT-5.4 (75.0%), mini (72.1%), nano (39.0%)
La cosa interessante è il rapporto performance/latenza. GPT-5.4 mini raggiunge pass rate vicini a GPT-5.4 girando molto più veloce. Nei grafici che OpenAI ha pubblicato, mini è quasi sempre il punto ottimale sulla curva accuracy vs latency.
Quando usare cosa
GPT-5.4: quando serve il massimo della capacità, reasoning profondo, task complessi che giustificano latenza più alta.
GPT-5.4 mini: coding assistants, subagent per task moderatamente complessi, computer use, applicazioni dove latenza conta ma serve comunque buona performance.
GPT-5.4 nano: classificazione, estrazione dati, ranking, subagent semplici, task ripetitivi dove velocità e costo dominano.
La regola generale? Il modello migliore spesso non è il più grande – è quello che risponde abbastanza velocemente, usa i tool in modo affidabile, e performa bene su task professionali senza farti aspettare.
