Se usi Claude Code con continuità, prima o poi te ne accorgi: i token finiscono più in fretta di quanto pensavi.
Succede soprattutto quando lavori su codebase grandi, lasci aperta la stessa sessione per ore oppure continui a iterare nella stessa conversazione senza mai fare pulizia. Il punto non è solo il prezzo. Il punto è che, se non gestisci bene il contesto, Claude Code diventa meno efficiente e più dispersivo.
La buona notizia è che esistono diversi modi per consumare meno token con Claude Code senza peggiorare davvero la qualità del lavoro. Alcuni sono suggeriti direttamente da Anthropic nella documentazione ufficiale. Altri sono pratiche emerse dall’uso quotidiano dello strumento che sto facendo da diversi mesi.
Perché Claude Code consuma così tanti token
Anthropic spiega chiaramente che Claude Code consuma token per ogni interazione e che i costi possono variare in base a diversi fattori: dimensione del codebase, complessità delle richieste, numero di file analizzati o modificati, lunghezza della conversazione, frequenza della compattazione e perfino alcuni processi in background.
In pratica, il consumo cresce quando:
- fai richieste troppo ampie
- lasci la chat diventare lunghissima
- usi lo stesso contesto per task diversi
- chiedi a Claude di esplorare troppi file senza una direzione precisa
Per questo, se vuoi davvero capire come consumare meno token con Claude Code, il primo passo è smettere di pensarlo come una semplice chat.
Devi trattarlo come un ambiente di lavoro in cui il contesto ha un costo.
Usa /cost per capire dove stai sprecando token
Il consiglio più semplice per consumare meno token con Claude Code è anche uno dei più sottovalutati: misura i tuoi costi.
Anthropic consiglia di usare il comando /cost per vedere l’utilizzo della sessione corrente. Nella documentazione spiega che il comando mostra statistiche dettagliate sulla sessione, inclusi costo totale, durata API e durata complessiva.
Questo è utile perché ti permette di capire se il problema è:
- una sessione troppo lunga
- un task troppo aperto
- troppe iterazioni inutili
- un contesto ormai gonfio
Senza questa visibilità, il rischio è sempre lo stesso: pensare che Claude Code “consumi troppo” in generale, quando in realtà il problema è come stai strutturando il lavoro.
Il comando più importante: /compact
Se dovessi scegliere una sola funzione per consumare meno token, sceglierei questa.
Anthropic spiega che Claude Code usa la compattazione automatica quando il contesto supera il 95% della capacità, ma consiglia anche di usare /compact manualmente quando la conversazione inizia a diventare grande.
È possibile perfino aggiungere istruzioni personalizzate, per esempio dicendo a Claude di preservare soprattutto esempi di codice o dettagli sulle API.
Questo è importante perché Claude Code continua a portarsi dietro la storia della conversazione. Più la sessione cresce, più ogni nuovo messaggio diventa pesante.
Usare /compact in modo regolare aiuta a trasformare una lunga cronologia in un riassunto più denso e molto meno costoso da trascinare avanti.
Il modo migliore per usarlo non è aspettare il disastro. Conviene farlo:
- dopo una milestone importante
- dopo aver chiuso una feature
- dopo una sessione di debug lunga
- quando senti che il contesto sta diventando ridondante
Scrivi richieste più specifiche
Anthropic lo dice in modo diretto: avoid vague requests that trigger unnecessary scanning. In altre parole, le richieste vaghe fanno sprecare token perché costringono Claude Code a cercare troppo, leggere troppo e ragionare troppo senza una direzione chiara.
Questo significa che, invece di scrivere:
“Controlla il progetto e dimmi cosa non va”
conviene scrivere qualcosa come:
“Controlla il modulo di autenticazione, in particolare il flusso di refresh token, e dimmi se ci sono problemi di gestione errori”
Più il task è definito, meno Claude Code deve esplorare inutilmente il codebase.
Ed è proprio qui che spesso si consuma una quantità enorme di token senza accorgersene.
Spezza i task complessi in task più piccoli
Un altro consiglio ufficiale di Anthropic è break down complex tasks. Anche questo sembra banale, ma fa molta differenza.
Quando chiedi a Claude Code di fare troppe cose insieme, succedono due problemi:
- il contesto si allarga troppo
- aumentano le iterazioni, quindi aumentano anche i token
Se invece separi il lavoro in fasi, per esempio:
- analizza il problema
- identifica i file rilevanti
- proponi la modifica
- applica la modifica
- verifica i test
hai più controllo e di solito sprechi meno.
Questo è uno dei modi più efficaci per ridurre il consumo totale anche se, a prima vista, sembra che tu stia facendo più passaggi.
Usa /clear tra task diversi
Qui molte persone sbagliano.
Passano da un bug a una nuova feature, poi a un refactor, poi a un test, tutto nella stessa conversazione. Ma Anthropic consiglia esplicitamente di clear history between tasks usando /clear per resettare il contesto tra lavori distinti.
Questo è utile perché non tutti i task meritano di ereditare la storia di quelli precedenti.
Se stai iniziando un’attività nuova, spesso è meglio partire puliti che trascinarsi dietro un contesto ormai pieno di informazioni irrilevanti. Il vantaggio non è solo sul costo. È anche sulla qualità delle risposte.
Personalizza la compattazione con CLAUDE.md
Questa è una funzione molto interessante e poco usata.
Anthropic spiega che puoi personalizzare il modo in cui Claude riassume il contesto aggiungendo istruzioni specifiche in CLAUDE.md. Un esempio riportato nella documentazione è chiedere di focalizzarsi su output dei test e cambiamenti al codice durante la compattazione.
Questo può fare una differenza reale se lavori sempre su progetti simili o hai un modo ricorrente di usare Claude Code.
In pratica, invece di avere una compattazione generica, puoi guidare il sistema a preservare proprio il tipo di contesto che ti serve davvero. E questo rende il riassunto più utile e meno dispersivo.
Non usare sempre il modello più costoso
Qui entriamo in una zona più pratica che ufficiale.
Da quando uso Claude Code ho capito che non ha senso usare sempre la modalità più costosa o più “profonda” per ogni singolo task. In particolare suggerisce strategie ibride come /model opusplan, cioè usare Opus per la pianificazione e Sonnet per il resto del lavoro operativo.
Il principio è corretto: i task non hanno tutti lo stesso livello di difficoltà.
Per attività come:
- editing semplice
- correzioni locali
- follow-up su una modifica già decisa
- piccoli refactor
di solito non serve il modello più pesante.
Per decisioni architetturali, debugging duro o codebase sconosciuti, invece, una modalità più forte può avere senso.
Non serve trasformare questa idea in regola rigida. Basta usarla come criterio: più il task è semplice, meno senso ha pagarlo come se fosse complesso.
Più “thinking” a volte consuma meno token totali
Questo sembra controintuitivo, ma vale la pena capirlo.
Sempre nel pezzo che hai linkato, viene spiegato che keyword come think, think hard o ultrathink possono aumentare il budget di ragionamento interno nel singolo passaggio, ma in certi casi ridurre i token totali della sessione perché abbassano il numero di tentativi, correzioni e rework necessari.
Questa non è una strategia da usare sempre.
Ha senso soprattutto quando il problema è davvero difficile. Se sai già che senza pianificazione finirai in cinque o sei iterazioni confuse, può convenire spendere di più all’inizio per spendere meno dopo.
Il principio utile, qui, è questo: non guardare solo il costo del singolo prompt; guarda il costo della sessione intera.
Riduci la verbosità quando non ti serve
Un altro spunto pratico che ho provato negli ultimi giorni è la cosiddetta “Caveman Mode”, cioè l’idea di ridurre drasticamente la verbosità di Claude quando non hai bisogno di spiegazioni lunghe. L’obiettivo è semplice: meno parole inutili, meno token sprecati.
Anche senza usare una skill specifica, il concetto si può applicare facilmente. Basta chiedere risposte più asciutte, per esempio:
- “rispondi in modo sintetico”
- “dammi solo i cambiamenti”
- “niente spiegazioni lunghe, solo piano e patch”
- “elenca solo file coinvolti e motivo”
Sembra un dettaglio, ma su sessioni lunghe fa differenza.
Le 7 regole pratiche che funzionano meglio
Se vuoi una sintesi davvero pratica, queste sono le regole migliori:
- Controlla i consumi con
/cost. - Usa
/compactregolarmente, non solo quando sei al limite. - Scrivi richieste specifiche e ben delimitate.
- Spezza i task complessi in fasi più piccole.
- Usa
/clearquando passi a un lavoro diverso. - Non usare sempre il modello più costoso.
- Chiedi risposte più asciutte quando non serve spiegare tutto.
Conviene davvero ottimizzare i token in Claude Code?
Sì, soprattutto se lo usi seriamente.
Anthropic scrive che il costo medio è di circa 6 dollari al giorno per sviluppatore, con il 90% degli utenti sotto i 12 dollari al giorno, ma precisa anche che la varianza è ampia e dipende molto da quanti task esegui, da quante istanze usi e da quanto lavoro automatizzi. Per i team, Anthropic parla anche di un costo medio intorno ai 100-200 dollari al mese per sviluppatore con Sonnet 4.
Quindi sì: se usi Claude Code ogni tanto, forse non ti cambia molto. Ma se lo usi in modo ricorrente, ottimizzare il consumo di token non è un dettaglio. È una parte del flusso di lavoro.
Conclusione
Capire come consumare meno token con Claude Code non significa diventare ossessionati dai costi. Significa usare meglio il contesto.
Anthropic, nella documentazione ufficiale, suggerisce strumenti molto chiari: /cost, /compact, /clear, richieste più specifiche, task più piccoli e compattazione personalizzata. A questi si possono aggiungere accorgimenti pratici come scegliere il modello giusto per il task, ridurre la verbosità e usare più thinking solo quando serve davvero.
Il punto non è spendere meno a tutti i costi. Il punto è evitare sprechi.
Perché quando Claude Code lavora con un contesto più pulito, più focalizzato e meglio gestito, di solito non solo consuma meno token: lavora anche meglio.

Consigli rapidi per consumare meno token con Claude Code
Come consumare meno token con Claude Code?
Per consumare meno token con Claude Code conviene usare /compact regolarmente, spezzare i task complessi, scrivere richieste più specifiche e usare /clear quando si passa a un lavoro diverso. Anthropic suggerisce anche di monitorare i consumi con /cost.
A cosa serve /compact in Claude Code?
/compact serve a ridurre il peso del contesto riassumendo la conversazione corrente in una forma più densa. È utile per limitare il consumo di token quando la sessione diventa lunga. Anthropic spiega anche che la compattazione automatica parte oltre il 95% della capacità del contesto.
Quando usare /clear in Claude Code?
/clear è utile quando inizi un task nuovo e non vuoi trascinarti dietro il contesto della conversazione precedente. Anthropic consiglia di pulire la history tra task distinti per ridurre sprechi e migliorare la qualità delle risposte.
Come controllare il costo di una sessione in Claude Code?
Puoi usare il comando /cost, che mostra statistiche dettagliate della sessione, inclusi costo totale e durata. È uno dei modi più semplici per capire dove stai sprecando token.
Conviene usare sempre il modello più potente in Claude Code?
Per task semplici o molto localizzati, spesso ha più senso usare modalità meno costose e riservare i modelli più pesanti ai problemi davvero complessi.
Si può personalizzare la compattazione in Claude Code?
Sì. Anthropic spiega che puoi usare CLAUDE.md per dare istruzioni su cosa preservare durante la compattazione, ad esempio output dei test o dettagli sulle modifiche al codice.



