Zo bespaar je honderden tokens in Claude

Zo bespaar je honderden tokens in Claude en werk je eindelijk slimmer

Ben jij ook al een keer tegen de sessiegrens van Claude aangelopen? Dan ben je niet de enige. Het is één van de meest besproken frustraties in de AI-community. Maar met een paar slimme gewoonten haal je véél meer uit je Claude-sessies, zonder extra kosten.

In dit artikel leg ik stap voor stap uit hoe tokens werken, waarom je sessie langzaam maar zeker "verrot" en hoe je dat voorkomt. Of je nu Claude.ai, Claude Code of de API gebruikt, deze tips zijn voor iedereen.

Leestijd: ~8 minuten | Niveau: Beginners & gevorderden | Monique Schepers

Inhoudsopgave

Wat is context eigenlijk?
Waarom je tokenkosten exponentieel groeien
Context rot: AI-dementie in slow motion
De handmatige sessie-reset (de beste tip)
Gebruik /re om mislukte pogingen te wissen
Converteer alles naar Markdown
Werk slim met subagenten
Houd je claude.md slank
Praktische snelle wins
Samenvatting: de gouden regels

1. Wat is context eigenlijk?

Context is alles wat Claude op een bepaald moment "ziet". Stel je voor dat je iemand inhuurt die alleen kan werken met wat er op zijn bureau ligt. Dat bureau is de context. En op dat bureau liggen: je volledige gespreksgeschiedenis, je systeemprompt en claude.md bestand, elke tool-aanroep en het bijbehorende resultaat, alle bestanden die Claude heeft geopend en alle skills en MCP-servers in je project.

Claude Code geeft je een contextvenster van 1 miljoen tokens. Dat klinkt enorm. Maar let op: voordat je ook maar één bericht stuurt, is er al zo'n 8.000 tot 60.000 tokens gebruikt door opstartkosten. Typ eens /context in een verse sessie en kijk wat je al "kwijt" bent — veel mensen schrikken hiervan.

Tip: Open een verse Claude Code-sessie en typ /context. Zie je al duizenden tokens staan? Dan is het tijd om te snoeien in je systeemprompts, skills of MCP-servers.

2. Waarom je tokenkosten exponentieel groeien

Dit is het inzicht dat voor de meeste mensen alles verandert. Elke keer als je een nieuw bericht stuurt, herleest Claude de volledige gespreksgeschiedenis, van het begin tot nu. Niet alleen jouw laatste vraag, maar alles.

Dit betekent dat je kosten niet optellen, maar vermenigvuldigen. Bericht 1 kost misschien 500 tokens. Bericht 30 kost al 15.500 tokens, voor precies dezelfde hoeveelheid nieuw werk. Na 30 berichten zit je al snel op een kwart miljoen cumulatieve tokens.

Iemand analyseerde een gesprek van 100+ berichten en ontdekte dat 98,5% van alle tokens puur besteed werd aan het herlezen van de oude gesprekshistorie. Slechts 1,5% was daadwerkelijk nieuw werk.

3. Context rot: AI-dementie in slow motion

Naarmate je sessie langer wordt, presteert Claude merkbaar slechter. Dit noemen we context rot. Het model moet zijn aandacht verdelen over steeds meer tokens, waardoor het dingen vergeet die eerder gezegd zijn, zichzelf begint tegen te spreken, bestanden bewerkt zonder ze eerst te lezen en vage onnauwkeurige antwoorden geeft.

De nauwkeurigheid daalt aantoonbaar van 92% bij 256.000 tokens naar 78% bij 1 miljoen tokens. Je betaalt dus meer tokens voor slechter werk.

Een developer analyseerde 18.000 denkblokken in 7.000 sessies en ontdekte dat bij langere sessies de denkdiepte met 67% daalde en het percentage "bewerken zonder lezen" steeg van 6% naar 34%. De langere de sessie, hoe slordig Claude wordt.

4. De handmatige sessie-reset (de beste tip)

Claude heeft een automatische compactie die op 95% van je contextvenster aanspringt. Maar dat is veel te laat, op dat moment werkt Claude al op zijn slechtst en de compactie behoudt slechts 20 tot 30% van de originele details.

De slimme aanpak: doe het zelf, rond de 60% van je contextvenster. Dit zijn de stappen:

Stap 1: Vraag Claude om een samenvatting Typ iets als: "Geef me een volledige samenvatting van alles wat we gedaan hebben, welke beslissingen we namen en wat de huidige status is."

Stap 2: Kopieer de output Selecteer alles wat Claude teruggeeft en kopieer het naar je klembord.

Stap 3: Wis de sessie met /clear Typ /clear om de volledige gesprekshistorie te verwijderen. Je start nu met een fris contextvenster.

Stap 4: Plak de samenvatting als eerste bericht Stuur de gekopieerde samenvatting direct als je eerste bericht. Claude is nu volledig bijgepraat zonder al het token-gewicht van de oude geschiedenis.

Vergelijk het met Chrome-tabbladen sluiten terwijl je al je bladwijzers bewaart. Je start fris, maar raakt niets belangrijks kwijt. Sla voortgang ook op in losse bestanden: taaklijsten, beslissingslogboeken, voortgangsnotities.

5. Gebruik /re om mislukte pogingen te wissen

Herken je dit? Claude doet iets fout en jij zegt: "Dat werkte niet, probeer het anders." Claude probeert opnieuw en het lukt. Probleem opgelost, denk je.

Maar die mislukte poging staat nog steeds in je context. Het wordt bij elk volgend bericht hergelezen en vervuilt toekomstige antwoorden.

De oplossing: typ /re of druk dubbel op Escape. Hiermee spring je terug naar een eerder bericht in de sessie en wordt alles daarna gewist. Zo blijft je context schoon.

Gebruik /re altijd als Claude de verkeerde aanpak heeft gekozen, een fout heeft gemaakt, of als je van richting wil veranderen. Er is ook een "summarize from here" optie in het menu, die een handige overdrachtsnotitie genereert voor als je daarna toch wil doorgaan.

6. Converteer alles naar Markdown

Claude verwerkt platte tekst enorm veel efficiënter dan opmaakbestanden. PDF's, Word-documenten en HTML-pagina's bevatten bergen onzichtbare opmaakdata die het model helemaal niet nodig heeft.

De besparingen zijn fors: HTML naar Markdown levert ongeveer 90% minder tokens op, PDF naar Markdown 65 tot 70% minder en Word-bestanden naar Markdown ongeveer 33% minder.

Een 40-pagina PDF kan na conversie net zoveel ruimte innemen als een 130-pagina Markdown-bestand. Dat is drie keer zoveel inhoud voor hetzelfde aantal tokens.

Gebruik een tool als Docling of een van de vele online converters. Is het bestand tekst-gebaseerd? Geef Claude alleen de tekst.

7. Werk slim met subagenten

In plaats van alles in één lange sessie te doen, kun je deeltaken delegeren aan een subagent. Een subagent krijgt een eigen frisse context, doet zijn werk en stuurt alleen het eindresultaat terug.

Vergelijk het met een stagiair: jij vraagt hem 50 artikelen samen te vatten. Hij leest alles, jij leest niets, jij krijgt alleen de samenvatting. Je context blijft vrij voor het werk dat er écht toe doet.

Je vraagt Claude simpelweg: "Spin up een subagent om deze codebase te reviewen en geef me een samenvatting van mogelijke problemen." Je kunt er ook een goedkoper model aan koppelen: "Zorg dat die subagent Haiku gebruikt." Zo is de subagent-taak een fractie van de prijs vergeleken met wat Opus had gekost.

Gebruik subagenten voor onderzoekstaken, codereview, samenvatten van documenten, of elke taak waarbij je een resultaat wil maar niet alle tussenstappen in je context nodig hebt.

8. Houd je claude.md slank

Het bestand claude.md wordt bij elke sessie automatisch ingeladen. Als het groot en vol staat, betaal je daarvoor bij elk gesprek, of je het nodig hebt of niet.

De vuistregel: maximaal 200 regels, ofwel ongeveer 2.000 tokens. Zet er alleen in wat Claude echt nodig heeft om goed te werken.

Vraag jezelf bij elke regel af: heeft Claude dit nodig om zijn werk te doen? Zo niet, haal het eruit. Verplaats gespecialiseerde instructies naar aparte bestanden die alleen geladen worden wanneer ze nodig zijn. En gebruik een .claudeignore bestand om mappen en bestanden uit te sluiten die Claude niet hoeft te lezen, in grote codebases kan dit enorm schelen.

9. Praktische snelle wins

/btw voor snelle vragen Heb je een zijdelingse vraag terwijl je midden in een project zit? Gebruik /btw voor een overlay die je vraag beantwoordt zonder dat het in je gesprekshistorie terechtkomt. Je context blijft schoon.

Plan mode altijd eerst Gebruik altijd eerst plan mode voordat je Claude laat bouwen. Door tokens te investeren in een duidelijk plan aan het begin, hoef je later minder te corrigeren. En correcties kosten altijd meer tokens dan het goed doen van tevoren.

Houd je sessie in de gaten In de desktop app zie je hoe vol je contextvenster is. Zit je op 50% en reset je sessie over een half uur? Dan is dit het moment voor grote token-intensieve taken. Zit je bijna vol? Neem een pauze en start daarna fris.

Sessie-chaining voor grote projecten Verdeel grote projecten over meerdere gespecialiseerde sessies.

Sessie 1 is voor discovery: Claude leest de codebase en maakt een samenvattingsdocument.
Sessie 2 is voor planning: Claude leest dat document en maakt een concreet plan.
Sessie 3 is voor uitvoering: Claude voert het plan uit. Elke sessie heeft één gespecialiseerde taak, geen overvolle context, geen context rot.

10. Samenvatting: de gouden regels

Handmatige reset op 60% van je venster, grootste impact op sessielimieten. Gebruik /re bij fouten, schone context, minder ruis. Converteer naar Markdown, tot 90% minder tokens per bestand. Subagenten voor deeltaken, goedkoper én frisse context. claude.md onder 200 regels, minder startkosten per sessie. Plan mode altijd eerst, minder correcties nodig. /btw voor zijdelingse vragen, context blijft schoon.

Het allerbelangrijkste inzicht: 1 miljoen tokens is een vangnet, geen doel. De eerste 10 tot 20% van een sessie is je meest productieve tijd. Reset regelmatig, bewaar voortgang in losse bestanden en werk in korte gerichte sessies. Je krijgt meer gedaan voor minder geld.

Heb je vragen of eigen ervaringen met tokenmanagement? Laat het weten in de reacties. En als dit artikel je heeft geholpen, deel het dan gerust met iemand die ook met Claude werkt.