Lektion 1.1

Wie LLMs wirklich funktionieren: Tokens, Kontextfenster und der Performance-Cliff

Ein korrektes mentales Modell von Tokens, Kontextfenstern und davon, warum lange Prompts schlechter werden, damit du jedes Modell gut steuerst

22 minGrundlagen - Von null zur ersten veröffentlichten AppVerfügbar

Was du lernst

  • Was ein Token ist und warum dir Tokens und nicht Wörter berechnet und limitiert werden
  • Wie ein Kontextfenster funktioniert und was wirklich passiert, wenn es voll wird
  • Warum die Modellqualität bei langen Eingaben sinkt - der Performance-Cliff - und wie du das vermeidest

Überblick

Ein grosses Sprachmodell macht eine Sache erstaunlich gut: Es sagt das nächste Token voraus, basierend auf allem, was es bisher gesehen hat. Sobald du Tokens, das Kontextfenster und den Performance-Cliff bei langen Eingaben verstehst, fühlt sich jede spätere Entscheidung - welches Modell du nimmst, wie du es promptest und wie du Agents laufen lässt - nicht mehr wie Raten an. Diese Lektion gibt dir dieses mentale Modell in klarer Sprache, mit den wenigen Zahlen, die 2026 wirklich zählen.

Was du lernst

Du lernst, was ein Token ist, warum du pro Token und nicht pro Wort bezahlst und limitiert wirst, wie das Kontextfenster das ganze Gespräch hält und warum mehr Text in ein Modell zu kippen die Antworten oft schlechter statt besser macht. Am Ende kannst du das Datenblatt eines Modells lesen und vorhersagen, wie es sich verhält, bevor du einen Cent dafür ausgibst.

Voraussetzungen

Keine. Du musst nicht programmieren können und auch noch nie ein KI-Tool benutzt haben. Wenn du je eine Nachricht in ChatGPT, Claude oder Gemini getippt hast, hast du schon alles an Hintergrund, das du brauchst. Die tieferen Grundlagen zu Terminal und Git verlinken wir später, wenn du sie wirklich brauchst.

Das Problem

Die meisten behandeln ein LLM wie eine Suchmaschine oder einen Menschen. Sie fügen ein riesiges Dokument ein, stellen eine vage Frage und sind überrascht, wenn die Antwort flach, falsch oder an der Hälfte des Eingefügten vorbei ist. Das Modell ist nicht faul geworden. Es ist an Grenzen gestossen, die in seiner Funktionsweise stecken. Ohne ein mentales Modell von Tokens und Kontext wirst du dem Tool immer wieder ein Verhalten vorwerfen, das völlig vorhersehbar ist.

Tokens, nicht Wörter

Ein Modell sieht nie Buchstaben oder Wörter so, wie du es tust. Bevor irgendetwas passiert, wird dein Text in Tokens zerlegt - häufige Zeichenblöcke. Ein Token sind grob vier Zeichen oder etwa drei Viertel eines englischen Wortes. Häufige Wörter sind ein einzelnes Token; seltene Wörter, Code-Symbole und andere Sprachen kosten mehr. Zwei Dinge werden in Tokens gemessen: der Preis, den du zahlst, und die Menge, die ein Modell auf einmal halten kann. Darum kann ein "günstiges" Modell bei langen Dokumenten teuer werden, und darum kosten deutsche oder Code-Prompts mehr Tokens als dieselbe Idee in schlichtem Englisch.

  • 1 Token sind etwa 4 Zeichen oder 0,75 englische Wörter.
  • 1.000 Tokens sind grob 750 Wörter, also rund anderthalb Seiten Text.
  • Der Preis wird pro Million Tokens angegeben, aufgeteilt in Input (was du sendest) und Output (was das Modell zurückschreibt). Output kostet meist ein Vielfaches des Inputs.
  • Dir wird in jeder Runde das GANZE Gespräch berechnet, weil das Modell jedes Mal alles neu liest, bevor es antwortet.

Das Kontextfenster

Das Kontextfenster ist die maximale Anzahl Tokens, die ein Modell auf einmal berücksichtigen kann: deine Anweisungen, die eingefügten Dateien, der Gesprächsverlauf und die Antwort, die es gerade schreibt, alles zusammengezählt. 2026 hat ein typisch starkes Modell ein Kontextfenster von rund 200.000 Tokens, manche werben mit 1.000.000 oder mehr. Stell es dir als den Schreibtisch des Modells vor. Alles Relevante muss gleichzeitig auf den Tisch passen. Ist der Tisch voll, muss etwas runter, und das Modell vergisst es praktisch. Darum verliert ein langer Chat den Faden zu Anweisungen, die du am Anfang gegeben hast: Diese Tokens sind vom Tisch gefallen.

Der Performance-Cliff

Jetzt der Teil, den fast niemand Einsteigern erzählt: Mehr Kontext ist nicht dasselbe wie bessere Antworten. Während du ein Kontextfenster füllst, sinkt die Modellqualität lange bevor du die harte Grenze erreichst. Modelle achten am besten auf Anfang und Ende einer langen Eingabe und werden in der Mitte unscharf - ein Muster, das oft "lost in the middle" heisst. Ein Fenster mit 1.000.000 Tokens klingt grossartig, aber in der Praxis kann die Antwortqualität bei einem vollgepackten Fenster spürbar schlechter sein als bei einem knappen, gut gewählten Prompt mit 20.000 Tokens. Das ist der Performance-Cliff. Die Lehre ist deutlich: Relevanz schlägt Menge. Ein kurzer Prompt mit genau dem richtigen Kontext schlägt einen riesigen Prompt jedes Mal.

  • Die Qualität ist am höchsten, wenn das Fenster fast leer ist und jedes Token seinen Platz verdient.
  • Die Qualität fällt, je voller das Fenster wird, besonders für Informationen, die in der Mitte vergraben sind.
  • Riesige beworbene Fenster (1M+) liefern ihre volle Qualität am oberen Ende selten - behandle sie als Sicherheitsmarge, nicht als Arbeitsfläche.
  • Im Zweifel starte ein frisches Gespräch, statt auf ein langes draufzupacken.

Schritt für Schritt: sieh es selbst

Du kannst in zehn Minuten ein Gespür dafür aufbauen, ohne Code zu schreiben. Öffne irgendein Chat-Modell und mach dieses kleine Experiment. Es geht darum zu spüren, wie Tokens, das Fenster und der Cliff in echten Antworten auftauchen.

  • Frag das Modell: "Aus wie vielen Tokens besteht das Wort internationalization, und warum?" Beachte, dass es in mehrere Tokens zerfällt, weil es lang und selten ist.
  • Füge einen langen Artikel ein (ein paar tausend Wörter) und stell eine Frage zu einem Satz in der genauen Mitte. Stell dann dieselbe Frage zum ersten Satz. Die Antwort zur Mitte ist meist schwächer.
  • Bitte das Modell in einem sehr langen Chat, eine Anweisung zu wiederholen, die du ganz oben gegeben hast. Sieh zu, wie es sich abmüht oder erfindet - diese frühen Tokens sind vom Tisch.
  • Starte einen brandneuen Chat, füge nur den relevanten Absatz ein und frag erneut. Die Antwort ist schärfer. Das ist Relevanz, die Menge schlägt.

Typische Fehler

Der klassische Einsteigerfehler ist der "alles reinkippen"-Prompt: ein 50-seitiges PDF einfügen und eine enge Frage stellen. Das Modell ertrinkt. Der zweite Fehler ist der nie endende Chat, bei dem du ein Gespräch tagelang offen hältst und dich wunderst, warum es dümmer wird. Der dritte ist die Annahme, ein grösseres Kontextfenster erlaube dir, bei der Relevanz nachlässig zu sein. Alle drei kommen daher, den Cliff nicht zu respektieren. Die Lösung ist immer dieselbe: sende weniger, aber das richtige Weniger, und setze oft zurück.

Business-ROI

Das ist nicht akademisch. Tokens sind Geld und Kontextdisziplin ist Qualität. Ein Team, das das versteht, schreibt knappere Prompts, wählt günstigere Modelle für einfache Aufgaben und bekommt verlässlichere Ergebnisse, was weniger Nacharbeit bedeutet. In einem echten Workflow, der tausende Male läuft, kann das Kürzen eines aufgeblähten Prompts von 30.000 auf 5.000 Tokens deine Rechnung um 80 Prozent senken UND die Antworten verbessern. Den Cliff zu verstehen ist das mit Abstand wirkungsvollste, das eine nicht-technische Gründerin lernen kann, bevor sie KI in grossem Massstab einsetzt.

Checkliste

Bevor du weitergehst, stell sicher, dass du diese Fragen beantworten kannst, ohne zurückzublättern. Wenn eine Antwort wackelig ist, lies den passenden Abschnitt nochmal - dieses Modell liegt unter allem anderen im Kurs.

  • Kannst du einer Kollegin ein Token in einem Satz erklären?
  • Weisst du grob, wie viele Wörter in ein Fenster mit 200.000 Tokens passen?
  • Kannst du den Performance-Cliff beschreiben und warum Relevanz Menge schlägt?
  • Weisst du, warum dir in jeder Runde das ganze Gespräch berechnet wird?

Ressourcen

Halt die Idee bei der Arbeit parat: Wenn eine Antwort schlecht ist, sind deine ersten beiden Fragen immer "Ist mein Kontext zu gross?" und "Steht die richtige Information tatsächlich nah am Anfang oder Ende?" Die Grundlagen-Seite zu Tokens geht tiefer auf Tokenisierung ein, wenn du das Detail dahinter willst, und der Modellvergleich in der nächsten Lektion baut direkt auf den hier eingeführten Zahlen auf.

Deine Aufgabe

Mach das vierschrittige Experiment oben in einem Chat-Modell deiner Wahl und schreib in eigenen Worten einen Satz auf, der den Moment beschreibt, in dem du das Modell "vergessen" oder unscharf werden gesehen hast. Diese konkrete Erinnerung festzuhalten lässt später jede Prompting-Entscheidung im Kurs einrasten.

Nächste Lektion

Jetzt, wo du weisst, was ein Modell unter der Haube tut, ist die nächste Frage offensichtlich: welches Modell nutzen? Die nächste Lektion vergleicht Haiku, Sonnet und Opus mit GPT und Gemini, erklärt Benchmarks ehrlich und zeigt, wo du starke Modelle günstig oder kostenlos bekommst.

Kommentare

Kommentare werden geladen.

Kommentar schreiben
KommentareWeiter
Nächster Schritt

Bereit, KI als Workflow zu nutzen?

Starte mit dem Starter-Pfad, speichere deinen Fortschritt lokal und synchronisiere alles später kostenlos mit deinem Konto.