Was ist ein Token in einfachen Worten?

Ein Token ist ein häufiger Zeichenblock, grob vier Zeichen oder drei Viertel eines englischen Wortes. Modelle lesen und werden in Tokens abgerechnet, nicht in Wörtern, also kosten lange oder ungewöhnliche Wörter und Code mehr Tokens als kurze, häufige.

Was ist ein Kontextfenster?

Es ist die maximale Anzahl Tokens, die ein Modell auf einmal berücksichtigen kann, inklusive deines Prompts, eingefügter Dateien, des bisherigen Gesprächs und der Antwort, die es schreibt. Wenn es voll wird, vergisst das Modell praktisch den ältesten Inhalt.

Warum geben lange Prompts schlechtere Antworten?

Wegen des Performance-Cliffs. Je voller das Kontextfenster wird, desto mehr sinkt die Qualität, besonders für Informationen, die in der Mitte vergraben sind. Ein kurzer Prompt mit genau dem richtigen Kontext schlägt fast jedes Mal einen riesigen Prompt.

Sind Modelle mit 1 Million Tokens Kontext besser?

Nicht automatisch. Sie können weit mehr Text annehmen, aber die Qualität sinkt trotzdem, je voller das Fenster wird, sodass ein vollgepacktes riesiges Fenster oft schlechter antwortet als ein knapper, fokussierter Prompt. Behandle grosse Fenster als Versicherung, nicht als Arbeitsfläche.

Wie LLMs funktionieren: Tokens, Kontext und der Cliff

Kurzfassung

Ein grosses Sprachmodell macht eine Sache bemerkenswert gut: Es sagt das nächste Token voraus, basierend auf allem, was es gesehen hat. Sobald du Tokens, das Kontextfenster und den Performance-Cliff bei langen Eingaben verstehst, fühlt sich die Arbeit mit jedem Modell nicht mehr wie Raten an. Dieser Leitfaden erklärt alle drei in klarer Sprache, mit den wenigen Zahlen, die 2026 wirklich zählen, damit du jedes Modell gut steuerst und dem Tool nicht mehr ein Verhalten vorwirfst, das völlig vorhersehbar ist.

Tokens, nicht Wörter

Ein Modell sieht Wörter nie so, wie du es tust. Dein Text wird zuerst in Tokens zerlegt - häufige Zeichenblöcke, grob vier Zeichen oder drei Viertel eines englischen Wortes. Zwei Dinge werden in Tokens gemessen: der Preis, den du zahlst, und die Menge, die ein Modell auf einmal halten kann. Darum kann ein günstiges Modell bei langen Dokumenten teuer werden, und darum kosten Code oder andere Sprachen mehr Tokens als dieselbe Idee in schlichtem Englisch. Der Preis wird pro Million Tokens angegeben und in Input und Output aufgeteilt, wobei Output meist ein Vielfaches des Inputs kostet.

Das Kontextfenster

Das Kontextfenster ist die maximale Anzahl Tokens, die ein Modell auf einmal berücksichtigen kann: deine Anweisungen, die eingefügten Dateien, der Gesprächsverlauf und die Antwort, die es gerade schreibt, alles zusammengezählt. Stell es dir als den Schreibtisch des Modells vor. Alles Relevante muss gleichzeitig auf den Tisch passen, und wenn der Tisch voll ist, fällt etwas runter und wird praktisch vergessen. Darum verliert ein langer Chat den Faden zu Anweisungen vom Anfang. 2026 hat ein starkes Modell typisch ein Fenster von rund 200.000 Tokens, manche werben mit einer Million oder mehr.

Der Performance-Cliff

Mehr Kontext ist nicht dasselbe wie bessere Antworten. Während du ein Kontextfenster füllst, sinkt die Qualität lange bevor du die harte Grenze erreichst. Modelle achten am besten auf Anfang und Ende einer langen Eingabe und werden in der Mitte unscharf - ein Muster, das oft "lost in the middle" heisst. Ein Fenster mit einer Million Tokens klingt grossartig, aber die Antwortqualität bei einem vollgepackten Fenster ist oft schlechter als bei einem knappen, gut gewählten Prompt. Das ist der Performance-Cliff, und die Lehre ist deutlich: Relevanz schlägt Menge jedes Mal.

Warum riesige Kontextfenster enttäuschen

Du wirst Modelle sehen, die mit enormen Kontextfenstern werben, und annehmen, sie seien strikt besser. In der Praxis enttäuschen sie oft, aus genau dem Grund oben. Ein Modell kann technisch eine Million Tokens annehmen und trotzdem schlechter antworten als ein fokussierter Prompt, weil die Qualität fällt, je voller das Fenster wird. Behandle ein riesiges Fenster als gelegentliche Versicherung für ein wirklich grosses Dokument, nicht als Erlaubnis, mit dem Kuratieren dessen, was du sendest, aufzuhören.

Wie du das in der Praxis nutzt

Die praktischen Erkenntnisse sind einfach. Sende weniger, aber das richtige Weniger. Starte frische Gespräche, statt auf lange draufzupacken. Wenn eine Antwort schlecht ist, sind deine ersten beiden Fragen, ob dein Kontext zu gross ist und ob die relevante Information tatsächlich nah am Anfang oder Ende steht. In einem Workflow, der tausende Male läuft, kann das Kürzen eines aufgeblähten Prompts deine Rechnung drastisch senken und die Antworten zugleich verbessern.

Warum das für dein Business zählt

Tokens sind Geld und Kontextdisziplin ist Qualität. Ein Team, das das versteht, schreibt knappere Prompts, wählt günstigere Modelle für einfache Aufgaben und bekommt verlässlichere Ergebnisse, was weniger Nacharbeit bedeutet. Den Cliff zu verstehen ist das mit Abstand wirkungsvollste, das eine nicht-technische Gründerin lernen kann, bevor sie KI in grossem Massstab einsetzt, weil es jede nachgelagerte Entscheidung zu Modellen, Prompts und Agents verändert.