---
title: "Was ist Prompt Caching?"
description: "Prompt Caching speichert den verarbeiteten Anfang eines Prompts, damit wiederholte Anfragen ihn wiederverwenden. Cache-Reads sind rund 90 Prozent günstiger."
type: "glossary"
locale: "de-CH"
term: "Prompt Caching"
canonical: "https://agenticschool.dev/de/glossar/prompt-caching"
dateModified: "2026-06-13"
---

# Was ist Prompt Caching?

- Definition: Prompt Caching
- Aktualisiert: 2026-06-13
- Keywords: prompt caching, what is prompt caching, prompt caching cost, claude prompt caching, cache breakpoint
- Kanonische URL: https://agenticschool.dev/de/glossar/prompt-caching
- Sprache: de-CH

> Prompt Caching speichert den verarbeiteten Anfang eines Prompts, damit wiederholte Anfragen ihn wiederverwenden. Cache-Reads sind rund 90 Prozent günstiger.

Prompt Caching ist eine Funktion, die den verarbeiteten Zustand eines wiederholten Prompt-Teils speichert, sodass spätere Anfragen ihn wiederverwenden, statt erneut für die Verarbeitung zu zahlen. Wenn viele Anfragen denselben langen Anfang teilen - einen grossen System Prompt, Tool-Definitionen oder ein Dokument, nach dem du immer wieder fragst -, lässt Caching das Modell die Neuberechnung überspringen, was sowohl Kosten als auch Latenz senkt. In der Claude API kostet ein Cache-Read zum Beispiel etwa ein Zehntel des normalen Input-Preises, ein Rabatt von rund 90 Prozent auf den gecachten Teil.

## Wie Prompt Caching funktioniert

Du markierst einen Punkt in deinem Prompt als Cache-Breakpoint. Der Anbieter speichert den codierten Zustand von allem bis zu diesem Punkt, und die nächste Anfrage, die mit denselben exakten Bytes beginnt, liest aus dem Cache statt neu zu berechnen. Der Treffer muss exakt sein: Weicht auch nur ein Token im Anfang ab, gibt es einen Cache-Miss und du zahlst den vollen Preis. Auch die Reihenfolge zählt, denn der Prompt wird als Tools, dann System Prompt, dann Messages gehasht.

- Setze den stabilen, wiederholten Inhalt nach vorne (Tools, System Prompt, lange Dokumente).
- Markiere danach einen Cache-Breakpoint; der Anfang bis dorthin wird gecacht.
- Eine spätere Anfrage mit identischem Anfang liest den Cache günstig.

## Was es kostet und spart

Es gibt einen kleinen Aufschlag, um den Cache zu schreiben, und eine grosse Ersparnis, ihn zu lesen. In der Claude API kostet ein Cache-Write etwa das 1,25-Fache des normalen Inputs für eine Lebensdauer von 5 Minuten (oder das 2-Fache für 1 Stunde), während ein Cache-Read etwa das 0,1-Fache des Inputs kostet, eine Ersparnis von rund 90 Prozent. Der Cache ist flüchtig mit einer kurzen Lebensdauer, die sich bei jedem Read zurücksetzt, sodass eine rege Konversation ihren Cache warmhält, ohne die Write-Kosten erneut zu zahlen.

## Wann man es nutzt

Prompt Caching zahlt sich aus, wann immer du einen grossen, stabilen Anfang über viele Aufrufe wiederverwendest: einen langen System Prompt, einen festen Satz an Tool-Definitionen, ein Wissensdokument oder einen Mehrschritt-Chat, in dem der frühe Kontext gleich bleibt. Es hilft nicht bei einmaligen Prompts, die sich nie wiederholen. Weil die Ersparnis nur für den unveränderten Anfang gilt, strukturiere deine Prompts so, dass die konstanten Teile zuerst und die variablen Teile zuletzt kommen.

## Häufige Fragen

### Was ist Prompt Caching?

Es ist eine Funktion, die den verarbeiteten Anfang eines Prompts speichert, damit wiederholte Anfragen ihn wiederverwenden, statt ihn neu zu verarbeiten. Das senkt Kosten und Latenz, wobei Cache-Reads in der Claude API rund 90 Prozent weniger kosten als normaler Input.

### Wie viel spart Prompt Caching?

In der Claude API kostet ein Cache-Read grob ein Zehntel des normalen Input-Preises, etwa 90 Prozent Rabatt auf den gecachten Teil. Das Schreiben des Caches kostet einen kleinen Aufschlag (rund das 1,25-Fache des Inputs für 5 Minuten), den die Reads schnell wieder hereinholen.

### Wann sollte ich Prompt Caching nutzen?

Nutze es, wenn viele Anfragen einen grossen, identischen Anfang teilen, etwa einen langen System Prompt, feste Tool-Definitionen, ein Referenzdokument oder die stabilen frühen Schritte einer Konversation. Bei einzigartigen, einmaligen Prompts hilft es nicht.

### Warum hat mein Cache nicht getroffen?

Meist, weil sich der Anfang geändert hat. Der Treffer ist exakt: Weicht auch nur ein Token vor dem Breakpoint ab oder ist die Lebensdauer abgelaufen, gibt es einen Miss und du zahlst voll. Halte den gecachten Anfang Byte für Byte identisch und setze variablen Inhalt dahinter.