Claude Advisor: Opus come consulente per Sonnet e Haiku

Gli sviluppatori hanno trovato un modo furbo per bilanciare intelligenza e costi: usare Opus come “advisor” e Sonnet o Haiku come “executor”. Risultato? Performance quasi da Opus a costi vicini a quelli di Sonnet.

Anthropic ha trasformato questo pattern in una feature ufficiale: l’advisor tool, ora disponibile via API.

Come funziona la strategia advisor

Sonnet o Haiku gestiscono il task dall’inizio alla fine – chiamano tool, leggono risultati, iterano verso la soluzione. Quando incontrano una decisione troppo complessa? Chiamano Opus per un consulto. Opus analizza il contesto condiviso, restituisce un piano o una correzione, e l’executor riprende.

L’advisor non chiama tool e non produce output visibile all’utente. Solo guidance interna.

Questo ribalta il classico pattern orchestrator-workers: invece di un modello grande che delega a modelli piccoli, qui è il modello piccolo che guida e scala quando serve. Il reasoning frontier-level si attiva solo nei momenti critici, il resto gira a costo executor.

I numeri

Nei test di Anthropic, Sonnet con Opus advisor ha mostrato:

  • +2.7 punti percentuali su SWE-bench Multilingual rispetto a Sonnet solo
  • -11.9% di costo per task agentivo
  • Miglioramenti su BrowseComp e Terminal-Bench 2.0

La combo funziona anche con Haiku executor. Su BrowseComp, Haiku + Opus advisor ha fatto 41.2% – più del doppio del 19.7% di Haiku solo. Rispetto a Sonnet solo perde il 29% in score ma costa l’85% in meno per task.

L’implementazione

L’advisor tool è un tool server-side che Sonnet e Haiku sanno invocare quando serve aiuto. Tutto dentro una singola request /v1/messages – zero round-trips extra, zero gestione manuale del contesto.

Il codice è letteralmente un’aggiunta di poche righe:

response = client.messages.create(
  model="claude-sonnet-4-6",
  tools=[{
    "type": "advisor_20260301",
    "name": "advisor",
    "model": "claude-opus-4-6",
    "max_uses": 3
  }],
  messages=[...]
)

I token advisor vengono reportati separatamente nel blocco usage. L’advisor genera tipicamente 400-700 token per piano, mentre l’executor gestisce l’output completo al suo rate più basso.

Puoi settare max_uses per cappare le chiamate advisor per request. Il tool funziona insieme agli altri – web search, code execution, qualsiasi tool tu abbia nel loop.

Cosa dicono gli early adopters

Eric Simmons (Bolt): “Prende decisioni architetturali migliori sui task complessi senza aggiungere overhead su quelli semplici. I piani e le trajectory sono completamente diversi.”

Kay Zhu (Genspark): “Miglioramenti chiari in agent turns, tool calls e score complessivo – meglio di un planning tool che avevamo costruito internamente.”

Anuraj Pandey (Eve Legal): “Su extraction di documenti strutturati, l’advisor tool permette a Haiku 4.5 di scalare l’intelligenza dinamicamente consultando Opus 4.6 quando la complessità lo richiede – qualità frontier-model a 5x meno costo.”

Come iniziare

L’advisor tool è in beta sulla Claude Platform. Per partire:

  1. Aggiungi l’header: anthropic-beta: advisor-tool-2026-03-01
  2. Aggiungi advisor_20260301 alla tua Messages API request
  3. Modifica il system prompt in base al tuo use case

Anthropic consiglia di fare girare la tua suite di eval su: Sonnet solo, Sonnet + Opus advisor, Opus solo. Per capire dove ti posizioni nello spettro costo-intelligenza.

Note tecniche dai benchmark

SWE-bench Multilingual: Sonnet 4.6 solo usava adaptive thinking. Sonnet 4.6 + Advisor usava il system prompt suggerito per coding con thinking off. Entrambi high effort con bash e file editing tools. Score mediati su cinque trial di 300 problemi attraverso nove linguaggi.

BrowseComp: Tutti i run con thinking off, web search e web fetch tools. Sonnet 4.6 medium effort. 1,266 problemi, un tentativo per problema. Opus 4.6 come advisor model.

Terminal-Bench 2.0: Thinking off, bash e file editing tools. Sonnet 4.6 medium effort. Ogni task in pod isolato con 3x resource allocation e 1x timeout. Score mediati su cinque tentativi per task attraverso 89 task.