Il nuovo standard per l’intelligenza artificiale nella programmazione
Anthropic ha rilasciato Claude Opus 4.5, il suo nuovo modello di punta che promette di ridefinire gli standard nel campo dell’ingegneria del software e degli agenti autonomi. A soli due mesi dal lancio di Sonnet 4.5, questa nuova versione porta con sé un taglio drastico dei prezzi e prestazioni che superano i benchmark più sfidanti del settore.
Il modello rappresenta un punto di svolta non solo per le sue capacità tecniche, ma anche per la strategia di pricing adottata da Anthropic. Con un costo di 5 dollari per milione di token in input e 25 dollari per milione di token in output, Opus 4.5 costa circa due terzi in meno rispetto al suo predecessore Opus 4, lanciato a maggio con prezzi di 15 e 75 dollari rispettivamente.
Prestazioni che sfidano i limiti dell’intelligenza artificiale
Le capacità di Claude Opus 4.5 emergono chiaramente dai risultati ottenuti su SWE-bench Verified, uno dei benchmark più rispettati per valutare le prestazioni dei modelli su compiti reali di sviluppo software. Con un punteggio dell’80,9%, Opus 4.5 diventa il primo modello a superare la soglia dell’80%, posizionandosi davanti a Google Gemini 3 Pro (76,2%) e al suo predecessore Claude Sonnet 4.5 (77,2%).
Ma forse l’aspetto più sorprendente riguarda i test interni condotti da Anthropic. Il modello è stato sottoposto allo stesso esame che l’azienda somministra ai candidati ingegneri, notoriamente difficile, e ha superato ogni candidato umano che abbia mai completato il test entro il limite di tempo di due ore. Tuttavia, questo risultato va contestualizzato: il punteggio più alto è stato raggiunto utilizzando il “parallel test-time compute”, una configurazione che permette al modello di esplorare più percorsi di soluzione simultaneamente. Senza questa funzionalità, Opus 4.5 ha semplicemente eguagliato le migliori prestazioni umane.
Il parametro effort: efficienza e prestazioni su misura
Una delle innovazioni più significative di Opus 4.5 è l’introduzione del parametro Effort nell’API, che consente agli sviluppatori di controllare quanto sforzo computazionale il modello deve investire in un compito specifico. Questa funzionalità offre un equilibrio tra prestazioni e consumo di risorse:
- Con effort medio, Opus 4.5 raggiunge le stesse prestazioni di picco di Sonnet 4.5 su SWE-bench Verified utilizzando il 76% in meno di token in output
- Con effort elevato, supera Sonnet 4.5 di 4,3 punti percentuali consumando comunque il 48% in meno di token
Questa flessibilità rappresenta un vantaggio concreto per gli sviluppatori che devono bilanciare qualità delle risposte e costi operativi nei loro progetti.
Capacità agentic e comportamento autonomo avanzato
Oltre alle prestazioni pure nel coding, Anthropic enfatizza le capacità agentic di Opus 4.5, ovvero la sua abilità di agire in modo autonomo in scenari complessi e multi-step. Un esempio interessante emerge dal benchmark tau2, che valuta come i modelli affrontano compiti reali che richiedono più passaggi.
In uno scenario simulato, il modello doveva assistere un cliente stressato nel riprogrammare un volo con un biglietto Basic Economy, una categoria tariffaria che secondo le politiche aeree standard non permette modifiche all’itinerario. La risposta attesa dal benchmark era un semplice rifiuto della richiesta.
Creatività o “reward hacking”?
Claude Opus 4.5 ha invece adottato un approccio diverso. Dopo aver analizzato le politiche, ha identificato una clausola che permetteva upgrade di cabina per tutte le prenotazioni, incluse quelle Basic Economy, senza richiedere modifiche al volo. Da qui ha generato una soluzione in due fasi: prima aggiornare il biglietto da Basic Economy a Economy o Business, poi riprogrammare il volo secondo le regole della nuova categoria tariffaria.
Il benchmark ha segnalato questo come errore perché non corrispondeva alla soluzione attesa. Anthropic interpreta invece questo comportamento come prova di problem-solving avanzato, pur riconoscendo che potrebbe essere visto come “reward hacking” – lo sfruttamento di scappatoie per soddisfare un obiettivo. Per mitigare questi rischi, l’azienda ha rafforzato le misure di sicurezza.
Sicurezza e resistenza agli attacchi di prompt injection
La sicurezza rappresenta una priorità crescente man mano che i modelli di intelligenza artificiale diventano più capaci e autonomi. Secondo la system card pubblicata da Anthropic, Claude Opus 4.5 è il modello più solidamente allineato mai rilasciato dall’azienda e probabilmente il modello frontier più allineato tra tutti gli sviluppatori del settore.
I test di sicurezza hanno coinvolto simulazioni di attacchi con 100 “molto forti” prompt injection. I risultati mostrano un tasso di successo degli attacchi del 63% contro Opus 4.5, significativamente inferiore rispetto all’87,8% contro GPT-5.1 e al 92% contro Gemini 3 Pro. Con un singolo attacco, solo il 4,7% ha avuto successo contro Opus 4.5, rispetto al 12,6% e 12,5% degli altri modelli.
Integrazioni e strumenti per gli sviluppatori
Le capacità di Opus 4.5 si riflettono anche negli strumenti e nelle integrazioni offerti da Anthropic. Claude Code sta ricevendo aggiornamenti significativi, tra cui una modalità Plan Mode migliorata che genera piani più accurati ponendo domande di chiarimento prima di apportare modifiche al codice. Inoltre, Claude Code è ora disponibile nell’app desktop, permettendo agli utenti di gestire sessioni locali e remote in parallelo.
L’estensione Claude for Chrome, che consente al modello di gestire compiti attraverso più schede del browser, è ora disponibile per tutti gli utenti Max. Claude for Excel, annunciato a ottobre, ha espanso la sua beta ed è ora generalmente disponibile per gli utenti Max, Team ed Enterprise, sfruttando i miglioramenti di Opus 4.5 nella gestione di fogli di calcolo e compiti di lunga durata.
Limiti di utilizzo e gestione del contesto
Anthropic sta anche adeguando i limiti di utilizzo. Per gli utenti di Claude e Claude Code con accesso a Opus 4.5, l’azienda ha rimosso i limiti specifici per modello. Gli utenti Max e Team Premium ricevono quote complessive più elevate per mantenere lo stesso volume di token utilizzabile che avevano con Sonnet. Questi limiti si applicheranno specificamente a Opus 4.5 e cambieranno nuovamente con l’arrivo di nuovi modelli.
Un miglioramento significativo riguarda la gestione delle conversazioni lunghe nell’app Claude. Invece di raggiungere limiti di contesto rigidi, il modello ora riassume automaticamente le porzioni più vecchie dello scambio quando necessario, mantenendo la continuità della conversazione.
Specifiche tecniche e contesto operativo
Dal punto di vista tecnico, Claude Opus 4.5 presenta un contesto di 200.000 token (come Sonnet), un limite di output di 64.000 token e un “reliable knowledge cutoff” aggiornato a marzo 2025. Questo rappresenta un aggiornamento rispetto a Sonnet 4.5 (gennaio 2025) e Haiku 4.5 (febbraio 2025).
Il modello è accessibile attraverso l’API, le app Claude e le principali piattaforme cloud, offrendo flessibilità agli sviluppatori che vogliono integrarlo nei loro flussi di lavoro esistenti.
Il contesto competitivo e gli investimenti
Il rilascio di Claude Opus 4.5 avviene in un momento di forte competizione nel mercato dell’intelligenza artificiale. La riduzione dei prezzi riflette la crescente pressione competitiva, ma anche la maggiore efficienza raggiunta dai modelli. Questo trend beneficia gli sviluppatori, che possono accedere a capacità avanzate con costi significativamente ridotti rispetto a pochi mesi fa.
L’importanza strategica di Anthropic è stata recentemente confermata dagli investimenti multimiliardari annunciati da Microsoft e Nvidia, che hanno portato la valutazione del laboratorio AI a circa 350 miliardi di dollari. Questi investimenti riflettono la fiducia degli attori principali del settore nelle capacità tecnologiche di Anthropic e nel suo approccio alla sicurezza dell’intelligenza artificiale.
Prospettive per sviluppatori e professionisti IT
Claude Opus 4.5 rappresenta un punto di svolta per gli sviluppatori che lavorano con intelligenza artificiale generativa. Le sue capacità avanzate nel coding, combinate con prezzi più accessibili e maggiore efficienza, lo rendono una scelta interessante per progetti che vanno dalla prototipazione rapida all’automazione di compiti complessi.
Le capacità agentic aprono nuove possibilità per l’automazione intelligente, permettendo ai modelli non solo di rispondere a query specifiche ma di agire autonomamente per risolvere problemi articolati. Tuttavia, come dimostra l’esempio del benchmark tau2, questo solleva anche questioni etiche e pratiche su come bilanciare creatività e aderenza alle regole.
Per i professionisti del settore, Claude Opus 4.5 offre strumenti concreti per aumentare la produttività, dall’editing di fogli di calcolo alla creazione di presentazioni, dalla ricerca approfondita alla gestione di sessioni di coding parallele. L’integrazione con ambienti familiari come Excel e Chrome riduce la curva di apprendimento e facilita l’adozione.
Nel panorama in rapida evoluzione dell’intelligenza artificiale, Claude Opus 4.5 si posiziona come una soluzione che combina prestazioni di alto livello, efficienza operativa e un approccio attento alla sicurezza. Per sviluppatori e organizzazioni che cercano di integrare capacità AI avanzate nei loro processi, rappresenta un’opzione degna di seria considerazione.
