Il nuovo modello che sta facendo tremare il mercato del software
Il 5 febbraio 2026, mentre Wall Street ancora digeriva un crollo da 285 miliardi di dollari nel settore software, Anthropic ha rilasciato Claude Opus 4.6. Tre giorni prima OpenAI aveva lanciato la sua app desktop Codex. Coincidenza? Difficile crederci. La guerra per l’intelligenza artificiale enterprise si combatte settimana per settimana.
Ma parliamo di cosa rende questo rilascio diverso dai soliti annunci pieni di hype. E no, non vi dirò che è “un punto di svolta nell’evoluzione dell’AI” – quella frase l’avete già letta mille volte.
Un milione di token: cosa significa davvero
La finestra di contesto da 1 milione di token è la novità che fa alzare le sopracciglia. Per darvi un’idea concreta: stiamo parlando di circa 750.000 parole. Tipo 10-15 paper scientifici completi che il modello riesce a tenere in memoria durante una conversazione.
Il problema che risolve si chiama “context rot” – quel fenomeno per cui i modelli AI iniziano a dimenticare pezzi della conversazione man mano che si allunga. Sul benchmark MRCR v2, che è fondamentalmente un test del tipo “trova l’ago nel pagliaio”, Opus 4.6 raggiunge il 76%. Il precedente Sonnet 4.5? Un misero 18.5%. Gemini 3 Pro di Google, che pure offre 1M di token, crolla al 26.3%.
C’è un però, ovviamente. Per prompt oltre i 200.000 token il prezzo sale: 10 dollari per milione di token in input, 37.50 in output. Non proprio economico, ma se dovete analizzare intere codebase o librerie di documentazione, probabilmente ne vale la pena.
Agent teams: quando un agente solo non basta più
Ecco la funzionalità che mi ha fatto fermare a riflettere. In Claude Code ora potete assemblare team di agenti che lavorano insieme sui task. Non un singolo agente che fa tutto in sequenza, ma più agenti che:
- Lavorano in parallelo su parti diverse del compito
- Si coordinano autonomamente tra loro
- Comunicano direttamente senza passare da voi
Scott White, Head of Product di Anthropic, l’ha paragonato ad avere un team di sviluppatori talentuosi che lavorano per te. La metafora regge, almeno sulla carta. Nella pratica? I primi test su revisioni di codebase e progetti che si dividono in lavori indipendenti sembrano promettenti.
Adaptive thinking e context compaction
Due feature tecniche che cambiano il modo in cui si usa il modello. L’adaptive thinking sostituisce l’extended thinking precedente con quattro livelli di “sforzo”: low, medium, high e max. Il modello decide da solo quando ragionare più a fondo basandosi sul contesto. Tradotto: non dovete più specificare manualmente quanto deve pensare prima di rispondere.
Il context compaction invece riassume automaticamente il contesto più vecchio quando la conversazione si allunga troppo. In teoria questo abilita conversazioni potenzialmente infinite. In pratica? Vedremo come regge su task realmente lunghi.
I numeri che contano: benchmark e prestazioni
Ok, preparatevi ai numeri. Su Terminal-Bench 2.0, il test per la codifica agente, Opus 4.6 ottiene il 65.4% – il punteggio più alto del settore. GPT-5.2 con Codex CLI? 64.7%. Differenza minima, ma una differenza.
Dove il distacco si fa serio è su GDPval-AA, che misura le prestazioni su task di knowledge work in finanza, legale e altri domini. Opus 4.6 raggiunge 1606 punti Elo, contro i 1462 di GPT-5.2. Per chi non mastica rating Elo: 144 punti di differenza significano circa il 70% di probabilità di ottenere risultati migliori.
Su Humanity’s Last Exam, un test di ragionamento multidisciplinare particolarmente tosto, Opus 4.6 guida tutti i modelli frontier con il 53.1%. E su BrowseComp, che misura la capacità di trovare informazioni difficili online, raggiunge l’84% – di nuovo, il punteggio più alto.
Il caso cybersecurity
Durante i test pre-rilascio, Opus 4.6 ha scoperto autonomamente oltre 500 vulnerabilità zero-day in software open-source. Sì, avete letto bene. Cinquecento. Questo apre scenari interessanti per la sicurezza difensiva – e anche qualche preoccupazione legittima su cosa potrebbe fare nelle mani sbagliate.
Integrazioni enterprise: PowerPoint ed Excel
Anthropic sta chiaramente puntando al mercato enterprise. Claude in PowerPoint è in research preview: un pannello laterale che legge layout esistenti, font e slide master, poi genera o modifica slide rispettando gli elementi di design. Può convertire bullet point in diagrammi mantenendo il branding aziendale.
Claude in Excel ha ricevuto miglioramenti sostanziali. Gestisce task più complessi, può pianificare prima di agire, ingerisce dati non strutturati e determina la struttura corretta. Non è più solo un assistente che scrive formule – sta diventando qualcosa di più.
Cosa dicono le aziende che lo stanno usando
Rakuten racconta di aver fatto chiudere autonomamente a Opus 4.6 tredici issue e assegnarne dodici ai membri giusti del team in un solo giorno. Un’organizzazione di circa 50 persone attraverso 6 repository, gestita dall’AI che sapeva anche quando escalare a un umano.
SentinelOne ha usato il modello per una migrazione di codebase multi-milione di linee. Il loro Chief AI Officer dice che ha “funzionato come un ingegnere senior” – pianificando in anticipo, adattando la strategia man mano che imparava, finendo in metà del tempo previsto.
Box riporta un miglioramento delle prestazioni del 10% in task ad alto ragionamento su contenuti legali, finanziari e tecnici. Notion lo descrive come “meno uno strumento e più un collaboratore veramente capace”.
Il contesto di mercato: perché questo rilascio fa rumore
Il timing non è casuale. Il 3 febbraio 2026, due giorni prima del lancio, il basket Goldman Sachs delle azioni software USA è sceso del 6% – il calo più grande in un giorno dall’aprile 2025. Thomson Reuters ha perso il 18%. Gli investitori temono che strumenti come Claude Code e Cowork possano sconvolgere le aziende di software enterprise consolidate.
Secondo un sondaggio Andreessen Horowitz del gennaio 2026, il 44% delle imprese ora usa Anthropic in produzione – da quasi zero nel marzo 2024. Claude Code ha raggiunto 1 miliardo di dollari di run rate revenue solo sei mesi dopo essere diventato generalmente disponibile.
Sicurezza: miglioramenti e vulnerabilità
Il system card di Anthropic afferma che Opus 4.6 mostra un profilo di sicurezza buono o migliore di qualsiasi altro modello frontier, con il tasso più basso di over-refusal – quei rifiuti inutili che frustrano gli utenti – di qualsiasi modello Claude recente.
Ma c’è una nota stonata: il modello è leggermente più vulnerabile agli attacchi di indirect prompt injection rispetto al predecessore. Per applicazioni AI agentiche questo è un problema serio. Anthropic non riporta più i risultati per le direct prompt injection, dove Opus 4.5 aveva ottenuto i migliori risultati.
Prezzi e disponibilità
Opus 4.6 è disponibile su claude.ai, via API (model ID: claude-opus-4-6) e sulle principali piattaforme cloud: Amazon Bedrock, Microsoft Foundry e Google Vertex AI.
I prezzi standard restano invariati rispetto a Opus 4.5: 5 dollari per milione di token in input, 25 in output. Per l’inferenza solo su server USA c’è un sovrapprezzo del 10%.
Cosa aspettarsi nei prossimi mesi
La direzione è chiara: dall’AI come assistente di codifica all’AI come team di ingegneria coordinato. Progetti che prima richiedevano settimane di lavoro sequenziale potrebbero completarsi in ore. Questo cambierà il modo in cui le organizzazioni pensano alla loro strategia tecnologica nel 2026.
Le integrazioni native con PowerPoint ed Excel segnalano l’intenzione di Anthropic di posizionare Claude non come strumento esterno ma come intelligenza integrata nei flussi di lavoro esistenti. La competizione con OpenAI rimane serrata, con prestazioni comparabili su molti benchmark e lanci di prodotti quasi simultanei.
La vera differenziazione potrebbe emergere non dalle prestazioni pure, ma dalle integrazioni enterprise, dai controlli di sicurezza e dalla capacità di mantenere un profilo robusto mentre si espandono le capacità autonome. E forse, dalla velocità con cui riusciranno a convincere le aziende che affidare 50 persone a un’AI è una buona idea.
