Anthropic ha rilasciato Claude Opus 4.7, l’ultimo aggiornamento della sua famiglia di modelli AI. Disponibile da oggi su API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry, il modello punta a migliorare le capacità di coding avanzato e autonomia operativa.
Cosa cambia rispetto a Opus 4.6
Il salto più evidente? Software engineering complesso. Gli early tester riportano di poter delegare task di programmazione che prima richiedevano supervisione costante. Opus 4.7 gestisce lavori lunghi e articolati con maggiore rigore, segue le istruzioni alla lettera (a volte fin troppo, dicono alcuni dev) e verifica autonomamente i propri output prima di consegnarli.
La visione è migliorata parecchio: il modello processa immagini fino a 2.576 pixel sul lato lungo (~3,75 megapixel), più del triplo rispetto ai modelli Claude precedenti. Tradotto: screenshot densi, diagrammi tecnici complessi, extraction di dati da documenti visivamente ricchi. Roba che prima semplicemente non funzionava bene.
Benchmark e prestazioni reali
I numeri dicono che Opus 4.7 batte Opus 4.6 su diversi fronti:
- +13% di risoluzione su un benchmark interno di coding a 93 task
- Risolve 3x più production task su Rakuten-SWE-Bench
- 98,5% su visual-acuity benchmark di XBOW (contro 54,5% di Opus 4.6)
- +10-15% di successo su Factory Droids con meno errori negli strumenti
- 21% di errori in meno su OfficeQA Pro di Databricks
Dalle testimonianze dei tester emerge un pattern: il modello “pensa più a fondo” sui problemi, resiste meglio a dati dissonanti, e – cosa nuova – ha opinioni. Non si limita ad annuire all’utente, ma contesta scelte tecniche discutibili. Alcuni dev lo descrivono come “un collega migliore”.
Cybersecurity: rilascio controllato
Qui la questione si fa delicata. La scorsa settimana Anthropic aveva annunciato Project Glasswing, evidenziando rischi e benefici dei modelli AI per la sicurezza informatica. Mythos Preview – il loro modello più potente – resta a rilascio limitato proprio per le sue capacità cyber avanzate.
Opus 4.7 è il primo modello su cui testano nuove protezioni: capacità cyber ridotte rispetto a Mythos (tramite interventi durante il training) e safeguard automatici che bloccano richieste ad alto rischio. I professionisti della security che vogliono usare il modello per scopi legittimi (vulnerability research, pen testing, red-teaming) possono aderire al Cyber Verification Program.
Cosa significa per gli sviluppatori
Ramp nota “role fidelity più forte” in workflow multi-agente. Notion parla di “primo modello a passare i nostri test implicit-need”. Replit lo ha adottato perché raggiunge “stessa qualità a costo inferiore”. Cognition (Devin) dice che “lavora coerentemente per ore” su investigazioni profonde che prima non erano affidabili.
Il guadagno sembra concentrarsi su task asincroni, long-running, multi-step. Dove serve autonomia sostenuta, non solo una risposta veloce. Harvey (legal AI) riporta 90,9% di accuratezza su BigLaw Bench con “reasoning calibration migliore” e gestione più intelligente di ambiguità nei documenti.
Note tecniche per chi migra
Due cose da sapere se passate da 4.6 a 4.7:
Tokenizer aggiornato: stesso input = ~1,0-1,35× token in più, dipende dal tipo di contenuto. Miglior processing, ma costa di più in token.
Extended thinking: a effort level più alti, il modello “pensa di più”, specialmente nei turni successivi di conversazioni agentiche. Più affidabile su problemi difficili, ma genera più output token.
Potete controllare l’uso dei token via parametro effort, task budget, o prompting più conciso. Anthropic dice che nei loro test interni l’effetto netto è favorevole, ma consiglia di misurare su traffico reale.
Novità accessorie
Oltre al modello:
- Effort control granulare: nuovo livello
xhightrahighemaxper bilanciare meglio reasoning e latenza - Task budgets in beta: su API, per guidare come Claude spende i token su run lunghi
- Comando /ultrareview: in Claude Code, sessione dedicata che legge i cambi e segnala bug/design issue come farebbe un reviewer attento (3 ultrareview gratis per Pro/Max)
- Auto mode esteso: per utenti Max, Claude prende decisioni autonome riducendo interruzioni (ma con meno rischio che skippare tutte le permission)
Pricing e disponibilità
Stesso prezzo di Opus 4.6: $5 per milione di input token, $25 per milione di output token. Disponibile oggi su tutti i prodotti Claude, API (claude-opus-4-7), AWS Bedrock, Google Vertex AI, Microsoft Foundry.
Il modello è generalmente disponibile, non più early access. Chi vuole testarlo per coding/agentic use case, Anthropic consiglia di partire da effort high o xhigh.
Allineamento e safety
Profilo di sicurezza simile a Opus 4.6: tassi bassi di comportamenti problematici (deception, sycophancy, cooperazione con misuse). Miglioramenti su onestà e resistenza a prompt injection attacks, leggermente più debole su consigli troppo dettagliati per harm reduction su sostanze controllate.
L’assessment di allineamento lo definisce “largely well-aligned and trustworthy, though not fully ideal”. Mythos Preview resta il modello best-aligned secondo le valutazioni interne. Dettagli completi nel Claude Opus 4.7 System Card.
