Dieser kostenlose LLM Kostenrechner schätzt, was dich der Betrieb eines grossen Sprachmodells in der Produktion kostet. Wähle zwei Modelle, gib deine Input- und Output-Tokens (oder Wörter, die er für dich umrechnet) und dein monatliches Aufrufvolumen ein, und schalte Prompt Caching und Batch-Verarbeitung dazu, um die Ersparnis zu sehen. Er zeigt die Kosten pro Aufruf und pro Monat für beide Modelle nebeneinander auf Basis aktueller Listenpreise von 2026, damit du ein Budget abschätzen oder das günstigste Modell wählen kannst, bevor du eine Zeile Code schreibst. Alles läuft in deinem Browser: keine Anmeldung, kein API-Key, nichts verlässt dein Gerät.
Das Tool
Über dieses Tool
Wie LLM-Preise wirklich funktionieren
Fast jede LLM API rechnet pro Token ab, nicht pro Anfrage, und nennt den Preis pro Million Tokens. Ein Token sind grob vier Zeichen englischer Text, also sind rund 750 Wörter etwa 1.000 Tokens. Deine Rechnung für einen Aufruf ist einfach die gesendeten Input-Tokens mal dem Input-Preis plus die erzeugten Output-Tokens mal dem Output-Preis, heruntergebrochen auf deine tatsächlichen Token-Zahlen. Weil Anbieter pro Million angeben, übernimmt der Rechner oben diese Division für dich und multipliziert mit deinem monatlichen Volumen für echte Monatskosten.
Warum Input und Output unterschiedlich kosten
Output-Tokens kosten fast immer ein Mehrfaches der Input-Tokens, weil Text zu erzeugen rechenintensiver ist als ihn zu lesen. Bei den Claude-Modellen 2026 ist der Output zum Beispiel das Fünffache des Input-Preises (rund USD 5 Input und USD 25 Output pro Million Tokens für Opus, rund USD 3 und USD 15 für Sonnet und rund USD 1 und USD 5 für Haiku). Deshalb kann ein Chatbot, der lange Antworten gibt, weit mehr kosten als einer mit kurzen, und deshalb ist das Kürzen der Output-Länge oft der grösste einzelne Hebel auf deine Rechnung. Der Rechner trennt beide Seiten, damit du genau siehst, wohin das Geld fliesst.
Prompt Caching und Batch-Rabatte
Zwei Funktionen können deine Kosten drastisch senken, und die Schalter oben bilden beide ab. Prompt Caching verwendet einen grossen, unveränderten Anfang wieder (einen System-Prompt, Tool-Definitionen oder abgerufene Dokumente), sodass wiederholter Input zu etwa einem Zehntel des normalen Input-Preises berechnet wird; es betrifft nur die Input-Seite, weshalb der Rechner allein den Input rabattiert. Batch-Verarbeitung führt nicht dringende Jobs asynchron zum etwa halben Preis auf beiden Seiten aus, im Tausch gegen langsamere Bearbeitung nach bestem Bemühen. Wenn deine Arbeitslast Kontext wiederverwendet oder Latenz toleriert, zählen diese beiden Einstellungen oft mehr als die Modellwahl.
Das günstigste Modell wählen, das noch funktioniert
Das günstigste Modell ist nicht immer die beste Wahl: ein schwächeres Modell, das drei Wiederholungen braucht, kann mehr kosten als ein stärkeres, das es beim ersten Mal richtig macht. Der ehrliche Weg ist, mit dem kleinsten Modell zu starten, das die Aufgabe zuverlässig löst, seinen echten Token-Verbrauch zu messen und erst hochzugehen, wenn die Qualität es klar verlangt. Nutze diesen Rechner zusammen mit unserem Vergleich Opus vs Sonnet vs Haiku und unserem Artikel zur Modellwahl, um das Modell zur Aufgabe zu passen, und schätze die Rechnung, bevor du dich festlegst. Für hohes Volumen kombinierst du ein starkes Leitmodell mit einem günstigeren für enge Nebenaufgaben.
