Claude Sonnet 4.6: il modello AI che cambia le regole del coding e dell’automazione

Claude Sonnet 4.6: cosa cambia davvero nel panorama dell’intelligenza artificiale

Il 17 febbraio 2026 Anthropic ha lanciato Claude Sonnet 4.6, rappresentando uno dei balzi più significativi mai visti nel settore dell’intelligenza artificiale applicata allo sviluppo. Non è il solito aggiornamento incrementale che promette miracoli e consegna decimali di miglioramento. Questo è qualcosa di radicalmente diverso, e i numeri lo confermano senza ambiguità.

Da oggi, Sonnet 4.6 è il modello predefinito su claude.ai e Claude Cowork per gli utenti dei piani Free e Pro. Il prezzo resta lo stesso: $3/$15 per milione di token. Ma il fatto che il costo non sia salito mentre le performance schizzano verso l’alto dovrebbe dirvi tutto quello che c’è da sapere.

Un salto nel coding: quando l’intelligenza artificiale batte i predecessori in modo netto

Parliamo di coding, dove Sonnet 4.6 ha fondamentalmente riscritto il playbook. Gli sviluppatori che hanno avuto accesso anticipato hanno preferito questa versione rispetto a Sonnet 4.5 il 70% delle volte. Se questo numero vi suona solo decente, aspettate il prossimo dato: contro Claude Opus 4.5 (il modello più intelligente di soli tre mesi fa), Sonnet 4.6 vince ancora, il 59% delle volte.

La differenza non è solo velocità bruta. Gli sviluppatori riportano che legge il contesto molto più efficacemente prima di modificare il codice. Non duplica la logica condivisa quando potrebbe consolidarla. È il tipo di miglioramento che sembra banale finché non lo vedete in pratica, e poi vi chiedete come facevate prima senza.

In Claude Code, i test iniziali mostrano preferenza per Sonnet 4.6 sulla versione precedente con valori consistenti. Ecco perché importa: significa che per la stragrande maggioranza dei compiti di sviluppo quotidiani, non dovete pagare il 5x di Opus. Potete usare Sonnet e ottenere risultati superiori.

Computer use: quando l’IA non delega più, agisce

Qui le cose diventano davvero interessanti. Ogni organizzazione ha software legacy che non può automatizzare: sistemi costruiti 20 anni fa senza API moderne, tool specializzati che nessuno ha mai documentato adeguatamente. Anthropic è stata la prima, nell’ottobre 2024, a introdurre un modello general-purpose che potesse davvero usare il computer.

Sul benchmark OSWorld-Verified (lo standard industiale per misurare questa capacità), Sonnet 4.6 ottiene il 72.5%. Contro il 61.4% di Sonnet 4.5. Contro il 38.2% di GPT-5.2 di OpenAI.

Datevi un momento per elaborare questo: il nuovo modello medio di Anthropic batte il flagship di OpenAI quasi il doppio nel computer use. Non di poco, ma significativamente. Confrontate con 16 mesi fa, quando Sonnet 3.5 aveva raggiunto il 14.9%. In poco più di un anno il punteggio si è quasi quintuplicato.

Gli early adopter stanno già riferendo capacità a livello umano: navigazione di fogli di calcolo complessi, compilazione di moduli web multi-step, automazione di task che richiederebbero ore di click manuali. L’IA non simula più l’utente umano. Lo sostituisce.

Sicurezza contro gli attacchi: resistenza record agli injection

Anthropic ha migliorato significativamente la resistenza agli attacchi di prompt injection. Sonnet 4.6 non è solo superiore a Sonnet 4.5 su questo fronte: raggiunge performance simili a Opus 4.6. In un contesto dove la sicurezza contro adversarial prompts è diventata critica per applicazioni in produzione, è un cambio di paradigma.

I benchmark principali: i numeri senza marketing

Ecco quello che vedete quando togliete il marketing:

SWE-bench Verified: 79.6% (media su 10 trial; con modifica del prompt, 80.2%). Questo misura direttamente la capacità di risolvere problemi di ingegneria del software reali
OSWorld-Verified: 72.5%. Computer use, come detto
ARC-AGI-2: 60.4% con effort massimo. Questo è il test di ragionamento simbolico più difficile
Terminal-Bench 2.0: Risultati competitivi su task da linea di comando
Vending-Bench Arena: Test di simulazione economica dove Sonnet 4.6 ha sviluppato una strategia affascinante: investire pesantemente in capacità di produzione nei primi 10 mesi, poi pivottare brutalmente verso la redditività nel finale. Ha finito ben avanti alla concorrenza

Notate cosa manca da questa lista? Claim generici su ‘miglioramenti’ vagi. Sono tutti test standardizzati, riproducibili, su cui potete verificare i risultati voi stessi.

1 milione di token: quando il contesto non è più un vincolo

La finestra di contesto da 1 milione di token (ancora in beta) è sufficiente per contenere interi codebase, contratti lunghi per decine di pagine, o cinquanta paper di ricerca in una singola richiesta. E Sonnet 4.6 ragiona efficacemente attraverso tutto questo contesto senza degradazione significativa.

Tradotto in pratica: potete caricare un intero progetto e chiedere al modello di analizzarlo, suggerire refactor, identificare vulnerabilità di sicurezza. Potete passare tutta la documentazione legale di un contratto e fargli trovare inconsistenze. Il tipo di compiti che prima richiedeva umani perché il contesto non bastava.

Cosa dicono i partner enterprise che l’hanno testato

I feedback non arrivano da messaggi di marketing. Arrivano da aziende che hanno built product su questa intelligenza artificiale:

Databricks: Sonnet 4.6 eguaglia Opus 4.6 su OfficeQA, il test che misura quanto bene un modello legge documenti enterprise (grafici, PDF, tabelle). Per loro significa zero ragione per pagare il premium di Opus
Replit: Il rapporto performance-costo è straordinario. Supera sui loro eval di orchestrazione e gestisce i workload agentici più complessi
Cursor: Miglioramento notevole su task a lungo orizzonte e problemi più difficili rispetto a Sonnet 4.5
GitHub: Già eccellente su fix di codice complessi, specialmente quando è essenziale cercare in grandi codebase
Box: Superamento di Sonnet 4.5 di 15 punti percentuali nel Q&A con ragionamento pesante
Pace: 94% sul benchmark assicurativo. Il modello con le migliori performance per computer use mai testato da loro

Cosa puoi fare oggi con Sonnet 4.6: aggiornamenti di prodotto

Sulla Claude Developer Platform, il modello supporta sia adaptive thinking che extended thinking, più context compaction in beta. I tool di web search e fetch ora scrivono ed eseguono automaticamente codice per filtrare ed elaborare i risultati di ricerca. Non sono wrapper sopra Sonnet: eseguono vero codice.

Per gli utenti di Claude in Excel, l’add-in supporta ora connettori MCP, permettendo al modello di lavorare con strumenti come S&P Global, LSEG, Daloopa, PitchBook, Moody’s e FactSet. Significa che puoi fare analisi finanziarie complesse senza uscire dal foglio di calcolo.

Disponibilità e pricing: perché il costo non è salito

Il prezzo API rimane $3 input / $15 output per milione di token, identico a Sonnet 4.5. Opus 4.6 costa $15/$75 (5x di più). È disponibile su tutti i piani Claude, Claude Cowork, Claude Code, API Anthropic, Amazon Bedrock, e Azure AI Foundry. La stringa da usare in API è `claude-sonnet-4-6`.

Il free tier è stato aggiornato a Sonnet 4.6 di default. Ora include file creation, connectors, skills e context compaction. Se usate Claude gratuitamente e finora vi è sembrato limitato, oggi è il giorno in cui cambia.

Valutazioni di sicurezza: cosa dice la ricerca

Anthropic ha condotto valutazioni di sicurezza estensive. I ricercatori di sicurezza hanno concluso che Sonnet 4.6 ha ‘un carattere generalmente caldo, onesto, prosociale e a volte divertente, comportamenti di sicurezza molto forti e nessun segnale di preoccupazioni significative riguardo a forme ad alto rischio di disallineamento’.

Tradotto dal linguaggio accademico: il modello non cerca di agirvi alle spalle. Non sviluppa comportamenti sleali. Non tenta di convincervi che è una persona quando chiaramente non lo è. La sicurezza non è una scatola che spuntate; è comportamento osservato nei test.

Il contesto competitivo: quando il gap si riduce davvero

Anthropic ha una valutazione di circa 380 miliardi di dollari a febbraio 2026. Questo rilascio arriva due settimane dopo Claude Opus 4.6. E qui c’è il dato che dovrebbe farvi pensare.

Il gap di performance tra Sonnet e Opus non è mai stato così ridotto. Su SWE-bench, la differenza tra le due versioni 4.6 è solo 1.2 punti percentuali. È la differenza più piccola tra i tier Sonnet e Opus in qualunque generazione di Claude. Significa che per la maggior parte degli usi, pagare per Opus non ha senso.

Nel computer use, GPT-5.2 di OpenAI ottiene il 38.2% su OSWorld-Verified. Sonnet 4.6 il 72.5%. Gemini 3 Pro è competitivo su ragionamento visivo e benchmark multilingua, ma rimane indietro nelle categorie agentiche dove conta davvero per il business.

Quello che vedete è una casa di carte che inizia a crollare. Non per OpenAI o Google, che continueranno a investire massicciamente. Ma per il concetto stesso che ‘hai bisogno del modello flagship per compiti seri’. Con Sonnet 4.6, questa affermazione diventa sempre più fragile.

Prospettive future: dove va l’intelligenza artificiale da qui

Siamo a un punto di inflessione visibile. Un anno fa gli sviluppatori chiedevano ‘quando l’IA riuscirà a fare X?’ Oggi la domanda è ‘come integro X nella mia pipeline prima che la concorrenza lo faccia?’. Il cambio non è nei modelli migliori. È nei modelli medi che diventano improvvisamente sufficienti per compiti importanti.

Il fatto che il pricing non sia salito mentre le performance schizzano verso l’alto suggerisce una cosa: la corsa non è più sulla qualità assoluta. È sulla accessibilità. Sulla capacità di essere il modello scelto da default da milioni di sviluppatori che non vogliono pensarci troppo.

Sonnet 4.6 è la versione di questo che dice ‘smettila di aspettare il modello perfetto e inizia a costruire qualcosa di reale’.