Wie werden LLM API Kosten berechnet?

Die Kosten sind pro Token, angegeben pro Million Tokens. Für einen Aufruf zahlst du deine Input-Tokens mal dem Input-Preis plus deine Output-Tokens mal dem Output-Preis. Multipliziere mit deinem monatlichen Volumen für eine Monatsschätzung. Dieser Rechner übernimmt die Rechnung für dich mit aktuellen Listenpreisen von 2026.

Warum kostet Output mehr als Input?

Text zu erzeugen ist rechenintensiver als ihn zu lesen, daher sind Output-Tokens höher bepreist, oft ein Mehrfaches des Input-Preises. Bei den Claude-Modellen 2026 ist der Output rund das Fünffache des Input-Preises. Antworten zu kürzen ist meist der grösste einzelne Weg, eine Rechnung zu senken.

Wie viel sparen Prompt Caching und Batch-Verarbeitung?

Prompt Caching berechnet wiederholten Input zu etwa einem Zehntel des normalen Input-Preises und hilft am meisten, wenn ein grosser Anfang wie ein System-Prompt oder Dokumente wiederverwendet wird. Batch-Verarbeitung führt nicht dringende Jobs zum etwa halben Preis auf beiden Seiten aus, im Tausch gegen langsamere Bearbeitung. Schalte beides oben zu, um deine Ersparnis zu sehen.

Ist dieser LLM Kostenrechner kostenlos und privat?

Ja. Er ist vollständig kostenlos, braucht keine Anmeldung und keinen API-Key und läuft komplett in deinem Browser. Nichts, was du eingibst, wird an einen Server gesendet, deine Zahlen bleiben also privat.

Kostenloser LLM API Kostenrechner (2026)

Das Tool

Modell A

Kosten pro Aufruf: 0,0225 $
Kosten pro Monat: 22,50 $
Input-Kosten pro Aufruf: 0,01 $
Output-Kosten pro Aufruf: 0,0125 $
Preis pro Million: 5,00 $ Input / 25,00 $ Output

GünstigerModell B

Kosten pro Aufruf: 0,0135 $
Kosten pro Monat: 13,50 $
Input-Kosten pro Aufruf: 0,006 $
Output-Kosten pro Aufruf: 0,0075 $
Preis pro Million: 3,00 $ Input / 15,00 $ Output

Schätzungen nutzen Listenpreise von 2026 und spiegeln eventuell nicht die aktuellen Preise. Deine echte Rechnung hängt von deiner genauen Nutzung ab. Das ist eine Planungsschätzung, kein Live-Angebot.

Wie LLM-Preise wirklich funktionieren

Fast jede LLM API rechnet pro Token ab, nicht pro Anfrage, und nennt den Preis pro Million Tokens. Ein Token sind grob vier Zeichen englischer Text, also sind rund 750 Wörter etwa 1.000 Tokens. Deine Rechnung für einen Aufruf ist einfach die gesendeten Input-Tokens mal dem Input-Preis plus die erzeugten Output-Tokens mal dem Output-Preis, heruntergebrochen auf deine tatsächlichen Token-Zahlen. Weil Anbieter pro Million angeben, übernimmt der Rechner oben diese Division für dich und multipliziert mit deinem monatlichen Volumen für echte Monatskosten.

Warum Input und Output unterschiedlich kosten

Output-Tokens kosten fast immer ein Mehrfaches der Input-Tokens, weil Text zu erzeugen rechenintensiver ist als ihn zu lesen. Bei den Claude-Modellen 2026 ist der Output zum Beispiel das Fünffache des Input-Preises (rund USD 5 Input und USD 25 Output pro Million Tokens für Opus, rund USD 3 und USD 15 für Sonnet und rund USD 1 und USD 5 für Haiku). Deshalb kann ein Chatbot, der lange Antworten gibt, weit mehr kosten als einer mit kurzen, und deshalb ist das Kürzen der Output-Länge oft der grösste einzelne Hebel auf deine Rechnung. Der Rechner trennt beide Seiten, damit du genau siehst, wohin das Geld fliesst.

Prompt Caching und Batch-Rabatte

Zwei Funktionen können deine Kosten drastisch senken, und die Schalter oben bilden beide ab. Prompt Caching verwendet einen grossen, unveränderten Anfang wieder (einen System-Prompt, Tool-Definitionen oder abgerufene Dokumente), sodass wiederholter Input zu etwa einem Zehntel des normalen Input-Preises berechnet wird; es betrifft nur die Input-Seite, weshalb der Rechner allein den Input rabattiert. Batch-Verarbeitung führt nicht dringende Jobs asynchron zum etwa halben Preis auf beiden Seiten aus, im Tausch gegen langsamere Bearbeitung nach bestem Bemühen. Wenn deine Arbeitslast Kontext wiederverwendet oder Latenz toleriert, zählen diese beiden Einstellungen oft mehr als die Modellwahl.

Das günstigste Modell wählen, das noch funktioniert

Das günstigste Modell ist nicht immer die beste Wahl: ein schwächeres Modell, das drei Wiederholungen braucht, kann mehr kosten als ein stärkeres, das es beim ersten Mal richtig macht. Der ehrliche Weg ist, mit dem kleinsten Modell zu starten, das die Aufgabe zuverlässig löst, seinen echten Token-Verbrauch zu messen und erst hochzugehen, wenn die Qualität es klar verlangt. Nutze diesen Rechner zusammen mit unserem Vergleich Opus vs Sonnet vs Haiku und unserem Artikel zur Modellwahl, um das Modell zur Aufgabe zu passen, und schätze die Rechnung, bevor du dich festlegst. Für hohes Volumen kombinierst du ein starkes Leitmodell mit einem günstigeren für enge Nebenaufgaben.

Häufige Fragen

Verwandt

Ratgeber

Claude Code Tutorial fuer Einsteiger

Lerne, wie du Claude Code von Grund auf nutzt: installieren, erste Session starten, der Plan-Edit-Run-Review-Loop, eine CLAUDE.md schreiben und tiefer einsteigen.

Öffnen Begriff

Context Window

Ein Context Window ist die maximale Textmenge in Tokens, die ein KI-Modell auf einmal berücksichtigen kann - inklusive Prompt, Verlauf und der Antwort.

Öffnen Begriff

Prompt Caching

Prompt Caching speichert den verarbeiteten Anfang eines Prompts, damit wiederholte Anfragen ihn wiederverwenden. Cache-Reads sind rund 90 Prozent günstiger.

Öffnen

LLM Kostenrechner

Das Tool

Über dieses Tool

Wie LLM-Preise wirklich funktionieren

Warum Input und Output unterschiedlich kosten

Prompt Caching und Batch-Rabatte

Das günstigste Modell wählen, das noch funktioniert

Häufige Fragen

Bereit, KI als Workflow zu nutzen?

Das Tool

Über dieses Tool

Wie LLM-Preise wirklich funktionieren

Warum Input und Output unterschiedlich kosten

Prompt Caching und Batch-Rabatte

Das günstigste Modell wählen, das noch funktioniert

Häufige Fragen

Wie werden LLM API Kosten berechnet?

Warum kostet Output mehr als Input?

Wie viel sparen Prompt Caching und Batch-Verarbeitung?

Sind diese LLM-Preise genau?

Ist dieser LLM Kostenrechner kostenlos und privat?

Verwandt

Bereit, KI als Workflow zu nutzen?

Einmal pro Woche bessere KI Workflows.