Grundlagen

Wie LLMs wirklich funktionieren: Tokens, Kontext und der Performance-Cliff

Grundlagen9 Min. Lesezeit12. Juni 2026

Kurzfassung

Ein grosses Sprachmodell macht eine Sache bemerkenswert gut: Es sagt das nächste Token voraus, basierend auf allem, was es gesehen hat. Sobald du Tokens, das Kontextfenster und den Performance-Cliff bei langen Eingaben verstehst, fühlt sich die Arbeit mit jedem Modell nicht mehr wie Raten an. Dieser Leitfaden erklärt alle drei in klarer Sprache, mit den wenigen Zahlen, die 2026 wirklich zählen, damit du jedes Modell gut steuerst und dem Tool nicht mehr ein Verhalten vorwirfst, das völlig vorhersehbar ist.

Tokens, nicht Wörter

Ein Modell sieht Wörter nie so, wie du es tust. Dein Text wird zuerst in Tokens zerlegt - häufige Zeichenblöcke, grob vier Zeichen oder drei Viertel eines englischen Wortes. Zwei Dinge werden in Tokens gemessen: der Preis, den du zahlst, und die Menge, die ein Modell auf einmal halten kann. Darum kann ein günstiges Modell bei langen Dokumenten teuer werden, und darum kosten Code oder andere Sprachen mehr Tokens als dieselbe Idee in schlichtem Englisch. Der Preis wird pro Million Tokens angegeben und in Input und Output aufgeteilt, wobei Output meist ein Vielfaches des Inputs kostet.

Das Kontextfenster

Das Kontextfenster ist die maximale Anzahl Tokens, die ein Modell auf einmal berücksichtigen kann: deine Anweisungen, die eingefügten Dateien, der Gesprächsverlauf und die Antwort, die es gerade schreibt, alles zusammengezählt. Stell es dir als den Schreibtisch des Modells vor. Alles Relevante muss gleichzeitig auf den Tisch passen, und wenn der Tisch voll ist, fällt etwas runter und wird praktisch vergessen. Darum verliert ein langer Chat den Faden zu Anweisungen vom Anfang. 2026 hat ein starkes Modell typisch ein Fenster von rund 200.000 Tokens, manche werben mit einer Million oder mehr.

Der Performance-Cliff

Mehr Kontext ist nicht dasselbe wie bessere Antworten. Während du ein Kontextfenster füllst, sinkt die Qualität lange bevor du die harte Grenze erreichst. Modelle achten am besten auf Anfang und Ende einer langen Eingabe und werden in der Mitte unscharf - ein Muster, das oft "lost in the middle" heisst. Ein Fenster mit einer Million Tokens klingt grossartig, aber die Antwortqualität bei einem vollgepackten Fenster ist oft schlechter als bei einem knappen, gut gewählten Prompt. Das ist der Performance-Cliff, und die Lehre ist deutlich: Relevanz schlägt Menge jedes Mal.

Warum riesige Kontextfenster enttäuschen

Du wirst Modelle sehen, die mit enormen Kontextfenstern werben, und annehmen, sie seien strikt besser. In der Praxis enttäuschen sie oft, aus genau dem Grund oben. Ein Modell kann technisch eine Million Tokens annehmen und trotzdem schlechter antworten als ein fokussierter Prompt, weil die Qualität fällt, je voller das Fenster wird. Behandle ein riesiges Fenster als gelegentliche Versicherung für ein wirklich grosses Dokument, nicht als Erlaubnis, mit dem Kuratieren dessen, was du sendest, aufzuhören.

Wie du das in der Praxis nutzt

Die praktischen Erkenntnisse sind einfach. Sende weniger, aber das richtige Weniger. Starte frische Gespräche, statt auf lange draufzupacken. Wenn eine Antwort schlecht ist, sind deine ersten beiden Fragen, ob dein Kontext zu gross ist und ob die relevante Information tatsächlich nah am Anfang oder Ende steht. In einem Workflow, der tausende Male läuft, kann das Kürzen eines aufgeblähten Prompts deine Rechnung drastisch senken und die Antworten zugleich verbessern.

Warum das für dein Business zählt

Tokens sind Geld und Kontextdisziplin ist Qualität. Ein Team, das das versteht, schreibt knappere Prompts, wählt günstigere Modelle für einfache Aufgaben und bekommt verlässlichere Ergebnisse, was weniger Nacharbeit bedeutet. Den Cliff zu verstehen ist das mit Abstand wirkungsvollste, das eine nicht-technische Gründerin lernen kann, bevor sie KI in grossem Massstab einsetzt, weil es jede nachgelagerte Entscheidung zu Modellen, Prompts und Agents verändert.

Häufige Fragen

Passende Lektionen & Ressourcen

Nächster Schritt

Bereit, KI als Workflow zu nutzen?

Starte mit dem Starter-Pfad, speichere deinen Fortschritt lokal und synchronisiere alles später kostenlos mit deinem Konto.