Was ist Context Engineering?

Context Engineering ist die Praxis, bewusst zu managen, was ein KI-Agent in seinem Context Window hält, das relevante Material drin und das Rauschen draussen zu halten, damit der Agent über eine lange Aufgabe genau und schnell bleibt. Es umfasst, zu kuratieren, was du lädst, es gut anzuordnen, bei Bedarf zu compacten oder zu resetten, bei Bedarf zu retrieven und stabilen Inhalt zur Kostenkontrolle zu cachen.

Was ist das Context Window?

Das Context Window ist das Arbeitsgedächtnis des Modells: alles, was es sehen kann, wenn es seine nächste Antwort generiert, gemessen in Tokens. Für einen Coding Agent umfasst es den System Prompt, deine Regeln, Tool-Definitionen, jede gelesene Datei, Befehls-Output und die ganze bisherige Konversation. Es ist endlich, und die Qualität sinkt, während es sich füllt.

Was ist das Lost-in-the-Middle-Problem?

Sprachmodelle beachten Information am Anfang und Ende ihres Kontexts am verlässlichsten und in der Mitte am wenigsten verlässlich. Eine Schlüssel-Anweisung oder Tatsache, in der Mitte eines langen Prompts vergraben, wird am ehesten ignoriert, also solltest du das wichtigste Material nahe an den Anfang und das Ende des Kontexts setzen.

Heisst ein grösseres Context Window, dass ich mir um Kontext keine Sorgen machen muss?

Nein. Die Modellqualität sinkt deutlich, bevor ein Window technisch voll ist, und sie sinkt scharf an einer Performance-Klippe. Ein grosser Maximalkontext ist eine Decke, kein Ziel. Ein kleinerer, gut kuratierter Kontext übertrifft meist einen grösseren, vollgestopften, weshalb Context Engineering auch mit Millionen-Token-Windows wichtig bleibt.

Was ist Compaction bei einem Coding Agent?

Compaction fasst eine lange Konversation in kompakter Form zusammen, sodass der Agent weitermachen kann, ohne dass die volle Historie das Window füllt. Automatische Compaction kann still Details fallen lassen, die dir wichtig waren, also steuerst du sie am besten, indem du dem Agenten sagst, was er bewahren soll, oder machst stattdessen einen bewussten Handover zu einer frischen Session.

Context Engineering: das Context Window managen

Q: Wie reduziert Prompt Caching die Kosten?

Du markierst ein stabiles Präfix wie deinen System Prompt, deine Regeln oder ein grosses Referenzdokument als cachebar, und spätere Anfragen, die mit denselben exakten Bytes beginnen, lesen es aus dem Cache statt es neu zu berechnen. Auf der Claude API kostet ein Cache-Read 2026 etwa ein Zehntel eines normalen Input-Tokens, also amortisiert sich ein wiederverwendetes Präfix innerhalb von ein paar Anfragen.

Was das Context Window tatsächlich hält

Das Context Window ist alles, was das Modell sehen kann, wenn es seine nächste Antwort generiert, gemessen in Tokens (Text-Stücke, grob vier Zeichen je Token). Für einen Coding Agent füllt es sich mit mehr als deiner letzten Nachricht: dem System Prompt, der den Agenten definiert, deinen CLAUDE.md- oder AGENTS.md-Regeln, den Definitionen jedes verbundenen Tools und MCP-Servers, jeder Datei, die der Agent gelesen hat, jedem Befehls-Output, den er gesehen hat, und der gesamten bisherigen Konversation. All das konkurriert um dasselbe endliche Budget. Das Mental Model, das zählt: Kontext ist eine knappe Ressource, die du ausgibst, und alles, was du lädst (ein gesprächiger MCP-Server, eine riesige Datei, ein langes Hin und Her), ist Budget, das die eigentliche Aufgabe nicht mehr hat. Siehe das Glossar zum Context Window für die formale Definition.

Der System Prompt und deine CLAUDE.md- / AGENTS.md-Regeln, jede Runde neu geladen.
Tool- und MCP-Server-Definitionen, weshalb das Verbinden vieler Server teuer ist.
Jede gelesene Datei und jeder Befehls-Output, was sich während einer Aufgabe schnell aufsummiert.
Die gesamte Konversations-Historie; lange Sessions tragen ihre ganze Vergangenheit mit.

Warum ein volles Window schadet: die Performance-Klippe

Es ist verlockend zu denken, ein grösseres Context Window heisse, du müsstest dir keine Sorgen mehr machen, aber das Gegenteil stimmt: Die Modellqualität sinkt deutlich, bevor das Window technisch voll ist, und sie sinkt scharf. Während das Window sich mit Dateien, Historie und Rauschen füllt, hat das Modell mehr zu beachten und verliert eher den Faden, widerspricht einer früheren Anweisung oder vergisst eine Constraint vom Anfang der Konversation. Das ist die "Performance-Klippe", und sie ist der Grund, warum ein 1M-Token-Window nicht heisst, dass du 1M Tokens hineinschütten solltest. Die praktische Erkenntnis ist kontraintuitiv, aber verlässlich: Ein kleinerer, gut kuratierter Kontext übertrifft meist einen grösseren, vollgestopften. Context Engineering existiert genau, um dich auf der guten Seite dieser Klippe zu halten.

Die Qualität fällt, bevor das Window voll ist, und der Fall ist eine Klippe, kein sanftes Gefälle.
Ein vollgestopftes Window lässt das Modell Fäden verlieren, sich widersprechen und Constraints fallen lassen.
Ein grosser Maximalkontext ist eine Decke, kein Ziel; füll ihn nicht, weil du kannst.
Ein kuratierter kleiner Kontext schlägt einen aufgeblähten grossen, die zentrale Regel des Context Engineering.

Lost in the Middle

"Lost in the Middle" ist ein gut dokumentiertes Verhalten von Sprachmodellen: Sie beachten Information am Anfang und am Ende ihres Kontexts am verlässlichsten und am wenigsten verlässlich Information, die in der Mitte vergraben ist. Eine entscheidende Anweisung oder die eine relevante Tatsache, in die Mitte eines langen Prompts oder einer langen Konversation fallen gelassen, ist das, was am ehesten ignoriert wird. Die praktische Konsequenz prägt, wie du Kontext anordnest. Setz die wichtigsten Anweisungen und das relevanteste Material dorthin, wo das Modell hinschaut: nahe dem Anfang (deine stehenden Regeln) und nahe dem Ende (die unmittelbare Aufgabe und die Schlüssel-Datei). Nimm nicht an, dass das Modell etwas nutzt, nur weil es irgendwo im Window steht. Position ist Hebel.

Modelle beachten Anfang und Ende des Kontexts am besten, die Mitte am schlechtesten.
Eine Schlüssel-Anweisung mitten im Prompt vergraben wird am ehesten ignoriert.
Setz stehende Regeln nahe an den Anfang und die unmittelbare Aufgabe und Schlüssel-Datei nahe ans Ende.
Im Window zu sein heisst nicht, genutzt zu werden; Position bestimmt Aufmerksamkeit.

Compaction, Handovers und Resets

Wenn eine Session lang läuft, brauchst du Wege, Gewicht abzuwerfen, ohne den Faden zu verlieren. Drei Techniken erledigen das meiste. Compaction fasst die bisherige Konversation in kompakter Form zusammen und macht weiter, befreit das Window; der Haken ist, dass automatische Compaction still Details fallen lässt, die dir wichtig waren, also steuere sie, indem du dem Agenten sagst, was er vor der Compaction bewahren soll. Ein Handover beendet eine Session und startet eine frische mit einer sauberen, bewussten Zusammenfassung, die du schreibst, was dir einen weit aufgeräumteren Kontext gibt, als eine Session stundenlang ausufern zu lassen. Ein Reset wirft einen Kontext weg, der verwirrt ist, und startet neu mit einem engen Prompt, was oft schneller ist, als einen entgleisten Agenten zurück auf Kurs zu argumentieren. Zu wissen, wann man zu welchem greift, ist der praktische Kern der Fähigkeit.

Compaction: zusammenfassen und weitermachen, um das Window zu befreien; steuere sie, damit sie behält, was zählt.
Handover: die Session beenden und frisch starten mit einer sauberen Zusammenfassung, die du kontrollierst.
Reset: einen verwirrten Kontext verwerfen und mit einem engen Prompt neu starten statt zu argumentieren.
Subagents helfen auch: Delegiere laute Arbeit, sodass ihr Output nie in deinem Haupt-Window landet.

Retrieval: nur reinbringen, was gebraucht wird

Der gegenteilige Fehlermodus zum vollgestopften Window ist, dass die richtige Information nie ankommt. Retrieval ist, wie du genau das relevante Stück bei Bedarf hereinholst, statt alles vorzuladen. Für einen Coding Agent ist das meist konkret und unglamourös: Lass den Agenten die Codebasis durchsuchen und nur die Dateien lesen, die eine Aufgabe berührt, statt das ganze Repo einzufügen; zeig ihm die eine Doku-Seite, die er braucht; lass ihn nach der Funktion greppen statt das Verzeichnis zu laden. Das Prinzip hinter Retrieval-Augmented-Patterns ist dasselbe, ob es eine Vektordatenbank oder ein Agent ist, der grep ausführt: Hol genau das, was die Aufgabe braucht, wenn sie es braucht, damit das Window Signal hält statt einen hoffnungsvollen Haufen vielleicht-relevanten Materials.

Hol die spezifische Datei, Doku oder den Datensatz, den die Aufgabe braucht, nicht alles potenziell Relevante.
Lass einen Coding Agent bei Bedarf suchen und lesen, statt das ganze Repo vorzuladen.
Retrieval hält das Window voll Signal, was das Modell auf der guten Seite der Klippe hält.
Dieselbe Idee skaliert hoch zur Vektorsuche; das Ziel ist immer relevant-bei-Bedarf, nicht alles-auf-Verdacht.

Prompt Caching: die Kosten eines grossen Kontexts kontrollieren

Ein grosser, stabiler Kontext ist teuer, weil das Modell jeden seiner Tokens bei jeder Anfrage neu verarbeitet, und du zahlst diese Input-Tokens jedes Mal. Prompt Caching löst die Kostenseite: Du markierst ein stabiles Präfix (deinen System Prompt, Regeln, Tool-Definitionen, ein grosses Referenzdokument) als cachebar, und nachfolgende Anfragen, die mit denselben exakten Bytes beginnen, lesen es aus dem Cache statt es neu zu berechnen. Auf der Claude API ist die Ökonomie im Juni 2026 klar: Ein Cache-Write kostet etwa das 1,25-Fache eines normalen Input-Tokens für die Standard-Lebensdauer von fünf Minuten (oder das 2-Fache für die Ein-Stunden-Option), und ein Cache-Read kostet nur etwa das 0,1-Fache, ein Zehntel des Preises. Ein gecachtes Präfix amortisiert sich also innerhalb von ein paar Wiederverwendungen. Der Cache ist ein Präfix-Cache, also zählt die Reihenfolge: Setz deinen stabilen Inhalt zuerst und deinen wechselnden Inhalt zuletzt, und ein einziges geändertes Token vor dem Breakpoint erzwingt einen vollen Re-Write. Caching reduziert nicht, wie viel Kontext das Modell beachtet, nur was du zahlst, um ihn zu senden, also ergänzt es Kuratierung, statt sie zu ersetzen.

Caching verwendet den enkodierten Zustand eines stabilen Präfix wieder, sodass es nicht jede Anfrage neu berechnet wird.
Auf der Claude API (Juni 2026): Cache-Writes etwa 1,25x Input (5-Minuten-Standard, 2x für 1 Stunde), Cache-Reads etwa 0,1x.
Es ist ein Präfix-Cache: Halte stabilen Inhalt zuerst und wechselnden Inhalt zuletzt, sonst erzwingst du einen Re-Write.
Caching senkt Kosten, nicht Aufmerksamkeit; du kuratierst das Window weiterhin. Siehe das Glossar zu Prompt Caching.

Eine praktische Context-Engineering-Checkliste

Setz die Ideen zu Gewohnheiten zusammen, die du ohne Nachdenken ausführst. Nichts davon braucht spezielles Tooling; es ist Disziplin darüber, was du lädst und wann du aufräumst. Ein künftiger Begleiter ist das Token- und Context-Estimator-Tool auf diesem Campus, mit dem du Text einfügen und sehen wirst, wie viel eines Modell-Windows er füllt, bevor du ihn sendest; vorerst tragen dich die Regeln unten.

Halte stehende Regeln in CLAUDE.md oder AGENTS.md, und halte diese Datei knapp; sie lädt jede Runde.
Lad die Dateien, die die Aufgabe braucht, nicht das ganze Repo; lass den Agenten bei Bedarf retrieven.
Setz die wichtigste Anweisung nahe an den Anfang und die unmittelbare Aufgabe nahe ans Ende.
Compacte, übergib oder resette, wenn eine Session lang oder verwirrt wird; lass sie nicht ausufern.
Cache grosse stabile Präfixe zur Kostenkontrolle, mit stabilem Inhalt zuerst.
Delegiere laute Nebenarbeit an einen Subagent, sodass sein Output aus deinem Haupt-Window bleibt.

Häufige Fragen

Weiterlernen

Ratgeber

Prompt Patterns fuer Coding Agents

Wiederverwendbare Prompt Patterns fuer Coding Agents: Rolle und Spec, Beispiele, Decomposition, Verification Loops und die Anti-Patterns, die du vermeidest.

Öffnen Ratgeber

Claude Code Tutorial fuer Einsteiger

Lerne, wie du Claude Code von Grund auf nutzt: installieren, erste Session starten, der Plan-Edit-Run-Review-Loop, eine CLAUDE.md schreiben und tiefer einsteigen.

Öffnen Ratgeber

Claude Code Subagents erklaert (mit Beispielen)

Was Claude Code Subagents sind, wann du sie nutzt und wie du einen in .claude/agents mit YAML-Frontmatter erstellst. Built-in Subagents, Beispiele und der /agents-Befehl.

Öffnen Ratgeber

Was ist Agentic Engineering? Der Pillar Guide 2026

Agentic Engineering heisst, Software zu bauen, indem du AI Coding Agents steuerst, die Code planen, schreiben und ausführen. Was es ist und wie du es lernst.

Öffnen Begriff

Context Window

Ein Context Window ist die maximale Textmenge in Tokens, die ein KI-Modell auf einmal berücksichtigen kann - inklusive Prompt, Verlauf und der Antwort.

Öffnen Begriff

Prompt Caching

Prompt Caching speichert den verarbeiteten Anfang eines Prompts, damit wiederholte Anfragen ihn wiederverwenden. Cache-Reads sind rund 90 Prozent günstiger.

Öffnen Begriff

System Prompt

Ein System Prompt ist die stehende Anweisung, die Rolle, Regeln und Verhalten eines KI-Modells vor jeder Nutzernachricht festlegt und die ganze Sitzung prägt.

Öffnen Begriff

Subagent

Ein Subagent ist ein spezialisierter KI Agent, an den ein Hauptagent eine Aufgabe delegiert - in eigenem Context Window, mit eigenem Prompt und eigenen Tools.

Öffnen Lektion

Context Engineering: Compaction, Übergaben, Resets und Thinking Effort

Lange Agent-Arbeit mit bewusster Compaction, sauberen Übergaben, gut getimten Resets und dem richtigen Thinking Effort managen

Öffnen

Context Engineering erklaert

Was das Context Window tatsächlich hält

Warum ein volles Window schadet: die Performance-Klippe

Lost in the Middle

Compaction, Handovers und Resets

Retrieval: nur reinbringen, was gebraucht wird

Prompt Caching: die Kosten eines grossen Kontexts kontrollieren

Eine praktische Context-Engineering-Checkliste

Häufige Fragen

Bereit, KI als Workflow zu nutzen?

Was das Context Window tatsächlich hält

Warum ein volles Window schadet: die Performance-Klippe

Lost in the Middle

Compaction, Handovers und Resets

Retrieval: nur reinbringen, was gebraucht wird

Prompt Caching: die Kosten eines grossen Kontexts kontrollieren

Eine praktische Context-Engineering-Checkliste

Häufige Fragen

Was ist Context Engineering?

Was ist das Context Window?

Was ist das Lost-in-the-Middle-Problem?

Heisst ein grösseres Context Window, dass ich mir um Kontext keine Sorgen machen muss?

Wie reduziert Prompt Caching die Kosten?

Was ist Compaction bei einem Coding Agent?

Weiterlernen

Bereit, KI als Workflow zu nutzen?

Einmal pro Woche bessere KI Workflows.