Kurz gesagt
Prompt Caching ist eine Funktion, die den verarbeiteten Zustand eines wiederholten Prompt-Teils speichert, sodass spätere Anfragen ihn wiederverwenden, statt erneut für die Verarbeitung zu zahlen. Wenn viele Anfragen denselben langen Anfang teilen - einen grossen System Prompt, Tool-Definitionen oder ein Dokument, nach dem du immer wieder fragst -, lässt Caching das Modell die Neuberechnung überspringen, was sowohl Kosten als auch Latenz senkt. In der Claude API kostet ein Cache-Read zum Beispiel etwa ein Zehntel des normalen Input-Preises, ein Rabatt von rund 90 Prozent auf den gecachten Teil.
Wie Prompt Caching funktioniert
Du markierst einen Punkt in deinem Prompt als Cache-Breakpoint. Der Anbieter speichert den codierten Zustand von allem bis zu diesem Punkt, und die nächste Anfrage, die mit denselben exakten Bytes beginnt, liest aus dem Cache statt neu zu berechnen. Der Treffer muss exakt sein: Weicht auch nur ein Token im Anfang ab, gibt es einen Cache-Miss und du zahlst den vollen Preis. Auch die Reihenfolge zählt, denn der Prompt wird als Tools, dann System Prompt, dann Messages gehasht.
- Setze den stabilen, wiederholten Inhalt nach vorne (Tools, System Prompt, lange Dokumente).
- Markiere danach einen Cache-Breakpoint; der Anfang bis dorthin wird gecacht.
- Eine spätere Anfrage mit identischem Anfang liest den Cache günstig.
Was es kostet und spart
Es gibt einen kleinen Aufschlag, um den Cache zu schreiben, und eine grosse Ersparnis, ihn zu lesen. In der Claude API kostet ein Cache-Write etwa das 1,25-Fache des normalen Inputs für eine Lebensdauer von 5 Minuten (oder das 2-Fache für 1 Stunde), während ein Cache-Read etwa das 0,1-Fache des Inputs kostet, eine Ersparnis von rund 90 Prozent. Der Cache ist flüchtig mit einer kurzen Lebensdauer, die sich bei jedem Read zurücksetzt, sodass eine rege Konversation ihren Cache warmhält, ohne die Write-Kosten erneut zu zahlen.
Wann man es nutzt
Prompt Caching zahlt sich aus, wann immer du einen grossen, stabilen Anfang über viele Aufrufe wiederverwendest: einen langen System Prompt, einen festen Satz an Tool-Definitionen, ein Wissensdokument oder einen Mehrschritt-Chat, in dem der frühe Kontext gleich bleibt. Es hilft nicht bei einmaligen Prompts, die sich nie wiederholen. Weil die Ersparnis nur für den unveränderten Anfang gilt, strukturiere deine Prompts so, dass die konstanten Teile zuerst und die variablen Teile zuletzt kommen.
