Claude Code fast mode: velocità premium per Opus 4.6 quando ogni secondo conta

Cosa cambia con la modalità veloce di Claude Code

Se avete mai aspettato che un modello AI finisse di sputare fuori una risposta mentre il vostro capo vi fissava durante una demo live, sapete esattamente perché Anthropic ha creato il fast mode. È quella feature che ti fa pensare “ma perché non l’avete fatto prima?”

Il fast mode di Claude Code è arrivato il 7 febbraio 2026 come research preview, e funziona così: stesso modello Opus 4.6, stessa intelligenza, stesse capacità. L’unica differenza? Velocità fino a 2.5 volte superiore nella generazione degli output token. Il trucco sta in una configurazione API diversa che prioritizza la velocità rispetto all’efficienza dei costi.

Per attivarlo basta digitare /fast e premere Tab nella CLI di Claude Code. Vedrete un’icona a fulmine accanto al prompt – quello è il segnale che state bruciando token a velocità premium.

I numeri che dovete conoscere prima di attivarla

Ok, preparatevi al momento del portafoglio. Il pricing del fast mode è questo:

Prompt sotto i 200K token: $30 per milione in input, $150 per milione in output
Prompt sopra i 200K token: $60 per milione in input, $225 per milione in output

Confrontatelo con Opus 4.6 standard a $5/$25 per milione di token. Stiamo parlando di un moltiplicatore 6x sui costi di output. Non esattamente spiccioli.

C’è però uno sconto del 50% valido fino al 16 febbraio 2026 alle 23:59 PT – quindi se state leggendo questo articolo in tempo, potreste ancora approfittarne.

Il trabocchetto del mid-conversation switch

Ecco una cosa che ho scoperto a mie spese: se attivate il fast mode a metà conversazione, pagate il prezzo pieno del fast mode per l’intero contesto della chat. Tutti quei token che avevate accumulato in modalità standard? Boom, ricalcolati al prezzo premium. La mossa furba è attivare il fast mode all’inizio della sessione, non quando siete già immersi fino al collo in una conversazione.

Quando ha senso usare il fast mode per l’intelligenza artificiale

Non è che ogni task richieda velocità da Formula 1. Il fast mode brilla in situazioni specifiche:

Iterazione rapida su modifiche al codice – quando state facendo ping-pong con il modello per raffinare una soluzione
Sessioni di debugging live – specialmente quelle dove avete qualcuno che vi guarda mentre sudate
Lavoro time-sensitive con deadline strette – tipo quando il deploy è tra mezz’ora e qualcosa non funziona

Per tutto il resto – task autonomi lunghi, pipeline CI/CD, elaborazioni batch – la modalità standard va più che bene. Nessuno si lamenta se un job notturno ci mette 30 secondi in più.

Fast mode vs effort level: non confondeteli

Qui c’è un punto che genera confusione. Il fast mode e l’effort level sono due cose diverse che entrambe influenzano la velocità, ma in modi completamente differenti.

Il fast mode mantiene la qualità del modello identica, abbassa la latenza, aumenta i costi. L’effort level invece riduce il tempo di “pensiero” del modello – risposte più veloci, ma potenzialmente qualità inferiore sui task complessi.

La cosa interessante? Potete combinarli. Fast mode più effort level basso per la massima velocità su task semplici dove non serve che il modello rifletta troppo.

Requisiti e limitazioni per usare Claude Code fast mode

Prima di eccitarvi troppo, un reality check. Il fast mode richiede:

Un abbonamento Claude (Pro, Max, Team, Enterprise) o account Claude Console
Extra usage abilitato sul vostro account – quindi niente limiti fissi sul piano
Per Team ed Enterprise: un admin che abiliti esplicitamente la feature (di default è disattivata)

Cosa non funziona: Amazon Bedrock, Google Vertex AI, Microsoft Azure Foundry. Se usate questi provider cloud, niente fast mode per voi. È disponibile solo tramite l’API Anthropic diretta o i piani di abbonamento Claude.

Dettaglio importante che ho notato leggendo la documentazione: l’usage del fast mode viene addebitato direttamente sull’extra usage, anche se avete ancora crediti nel piano. I token fast mode non scalano dall’allowance incluso – partono dal primo token a tariffa premium.

Come funziona il fallback automatico

Il fast mode ha rate limit separati da Opus 4.6 standard. Quando li superate o esaurite i crediti extra usage, succede qualcosa di elegante: il sistema fa fallback automatico alla modalità standard.

L’icona del fulmine diventa grigia per indicare il cooldown, continuate a lavorare a velocità e prezzi normali, e quando il cooldown scade il fast mode si riattiva da solo. Se preferite disattivarlo manualmente invece di aspettare, basta un altro /fast.

Il contesto competitivo dell’AI coding nel 2026

Per capire dove si posiziona questa feature, guardiamo il panorama. Claude Opus 4.6 sta dominando l’agentic coding con un 65.4% su Terminal-Bench 2.0 e un 80.8% su SWE-bench Verified. GPT-5.2 è lì vicino con un 64.7% su Terminal-Bench, mentre Gemini 3 Pro punta tutto sulla context window da 2M token nativi.

Il fast mode rappresenta qualcosa di unico nel mercato: velocità di inferenza premium senza compromessi sulla qualità delle risposte. Non è un modello degradato o una versione lite – è lo stesso Opus 4.6 con una corsia preferenziale.

Come implementarlo via API

Per chi lavora direttamente con l’API Anthropic, l’implementazione è straightforward. Basta aggiungere il parametro speed: "fast" e il beta flag corretto:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Refactor this module..."}]
)

Gli SDK Anthropic gestiscono automaticamente i retry in caso di rate limit – di default fino a 2 tentativi, configurabile via max_retries.

Cosa aspettarsi dal futuro del fast mode

Essendo in research preview, tutto può cambiare. Feature, pricing, disponibilità – Anthropic lo dice chiaramente. Probabilmente stanno raccogliendo dati sull’utilizzo per capire come tarare il servizio a lungo termine.

Un dettaglio tecnico da tenere d’occhio: switchare tra fast e standard speed invalida la prompt cache. Se state costruendo sistemi che si appoggiano pesantemente al caching, questo potrebbe complicare le cose.

La mia sensazione? Il fast mode colma un gap reale. Gli sviluppatori che lavorano in modo interattivo con i modelli AI hanno bisogno di risposte veloci – non tra 30 secondi, ma subito. E sono disposti a pagare per averle quando conta. Vedremo se Anthropic manterrà questo modello di pricing o se lo aggiusterà in base al feedback della community.