---
title: "Das richtige Modell wählen: Haiku vs Sonnet vs Opus, GPT, Gemini und Benchmarks"
description: "Für jede Aufgabe die passende Modellstufe wählen und wissen, wo es starke Modelle günstig oder kostenlos gibt"
type: "lesson"
locale: "de-CH"
course: "Grundlagen - Von null zur ersten veröffentlichten App"
number: "1.2"
canonical: "https://agenticschool.dev/de/kurse/foundations/choosing-your-model-haiku-vs-sonnet-vs-opus-gpt-gemini-and-benchmarks"
datePublished: "2026-06-12"
dateModified: "2026-06-12"
---

# Das richtige Modell wählen: Haiku vs Sonnet vs Opus, GPT, Gemini und Benchmarks

- Kurs: Grundlagen - Von null zur ersten veröffentlichten App
- Lektion: 1.2
- Dauer: 24 min
- Level: einsteiger
- Status: published
- Kanonische URL: https://agenticschool.dev/de/kurse/foundations/choosing-your-model-haiku-vs-sonnet-vs-opus-gpt-gemini-and-benchmarks
- Sprache: de-CH

> Für jede Aufgabe die passende Modellstufe wählen und wissen, wo es starke Modelle günstig oder kostenlos gibt

## Zusammenfassung

Es gibt kein einzelnes bestes Modell, nur das richtige Modell für eine Aufgabe und ein Budget. Diese Lektion kartiert die Modelllandschaft 2026 - Claude Haiku, Sonnet und Opus, OpenAI GPT, Google Gemini -, erklärt, wie du Benchmarks liest, ohne dich täuschen zu lassen, und zeigt, wo du starke Modelle günstig über OpenRouter und kostenlose Gemini-Credits bekommst.

## Was du lernst

- Die drei Modellstufen (klein, mittel, gross) und wie Haiku, Sonnet, Opus, GPT und Gemini darauf abgebildet werden
- Wie du Benchmarks und Preise ehrlich liest, statt Leaderboards hinterherzujagen
- Wo es starke Modelle günstig oder kostenlos gibt: OpenRouter, kostenlose Gemini-Credits und warum Modelle mit riesigem Kontext enttäuschen

## Überblick

Jeder Modellanbieter liefert eine Familie von Modellen, nicht ein Modell. Sie kommen in Stufen: klein und schnell, mittel und ausgewogen, gross und schlau. Sobald du die Stufen statt der Markennamen siehst, wird das Wählen einfach. Diese Lektion gibt dir eine Entscheidungsregel, die du auf jedes neu erscheinende Modell anwenden kannst, plus die praktischen Tricks, um Top-Modelle günstig oder kostenlos zu bekommen.

## Was du lernst

Du lernst das Drei-Stufen-Modell, wie sich Claude (Haiku, Sonnet, Opus), OpenAI GPT und Google Gemini darin einordnen, wie du Benchmarks mit gesundem Misstrauen behandelst und wie du an starke Modelle kommst, ohne den vollen Listenpreis zu zahlen - mit OpenRouter und kostenlosen Gemini-Credits.

## Voraussetzungen

Die vorige Lektion zu Tokens und Kontext. Du solltest mit der Idee vertraut sein, dass der Preis pro Million Tokens angegeben wird und dass mehr Kontext nicht automatisch besser ist, denn beide Ideen treiben die Modellwahl.

## Das Problem

Einsteiger greifen entweder zum einzigen Modell, von dem sie gehört haben, oder sie jagen dem hinterher, was letzte Woche ein Leaderboard angeführt hat. Beides sind teure Fehler. Ein Flaggschiff-Modell zum Umformatieren einer Liste zu nutzen ist, wie eine Chirurgin ein Pflaster aufkleben zu lassen. Ein winziges Modell für harte architektonische Überlegungen zu nutzen produziert selbstbewussten Unsinn. Die Fähigkeit besteht darin, Aufgabenschwierigkeit auf Modellstufe abzustimmen, und diese Fähigkeit überlebt jeden einzelnen Modellnamen.

## Die drei Stufen

Vergiss Markentreue und denk in Stufen. Kleine Modelle sind schnell und günstig, super für Klassifikation, Extraktion, einfache Umschreibungen und Jobs mit hohem Volumen. Mittlere Modelle sind das ausgewogene Arbeitspferd für die meiste echte Programmier- und Schreibarbeit. Grosse Modelle sind langsamer und teurer, denken aber bei wirklich harten Problemen weit besser. Fast jeder Anbieter spiegelt diese Struktur, also kannst du, sobald du sie verinnerlicht hast, jedes neue Modell sofort einordnen.

- Klein / schnell: Claude Haiku, GPT-Kleinstufe, Gemini Flash. Nutze sie für Volumen, Extraktion, Routing, günstige Entwürfe.
- Mittel / ausgewogen: Claude Sonnet, GPT-Mittelstufe, Gemini Pro. Dein täglicher Begleiter fürs Programmieren und ernsthaftes Schreiben.
- Gross / schlau: Claude Opus, GPT-grosse Reasoning-Stufe, Gemini Ultra/Pro-Topstufe. Nutze sie für hartes Reasoning, kniffliges Debugging, Architektur.
- Faustregel: starte eine Stufe tiefer, als du denkst, und geh nur höher, wenn der Output wirklich nicht gut genug ist.

## Wie du Benchmarks ehrlich liest

Benchmarks sind nützlich und zugleich regelmässig irreführend. Ein Modell kann einen Coding-Benchmark anführen und sich in deinem echten Projekt trotzdem schlechter anfühlen, weil Benchmarks enge Aufgaben unter Idealbedingungen messen und Anbieter hart darauf optimieren. Behandle Benchmarks als groben Filter, nicht als Urteil. Der einzige Benchmark, der zählt, ist dein eigener: nimm drei echte Aufgaben aus deiner Arbeit, jage sie durch zwei oder drei Modelle und beurteile den Output selbst. Achte auf Konstanz, nicht nur auf Spitzenleistung, denn ein Modell, mit dem du in Produktion gehst, muss verlässlich gut sein, nicht gelegentlich brillant.

## Preise und das echte Kostenbild

Der Preis wird pro Million Input- und Output-Tokens angegeben, und der Abstand zwischen den Stufen ist gross - oft 10x oder mehr zwischen einem kleinen und einem grossen Modell. Weil Output ein Vielfaches des Inputs kostet, sind wortreiche Modelle und geschwätzige Prompts teurer, als du erwartest. Der praktische Zug ist, nach Schwierigkeit zu routen: günstiges Modell für die 80 Prozent leichten Aufrufe, teures Modell nur für die harten 20 Prozent. In einem Workflow im grossen Massstab zählt diese eine Entscheidung oft mehr als die Wahl des Anbieters.

## Starke Modelle günstig oder kostenlos

Du musst nicht den vollen Preis zahlen, um zu starten. Es gibt 2026 drei verlässliche Wege, und ein Einsteiger sollte alle kennen, bevor er Budget bindet.

- OpenRouter: ein einziger Account und API-Key, der dir Zugang zu fast jedem Modell gibt (Claude, GPT, Gemini, offene Modelle) über einen Endpoint, mit transparenter Preisgestaltung pro Token und einfachem Modellwechsel. Ideal, um Modelle zu vergleichen, ohne fünf Accounts zu jonglieren.
- Kostenlose Gemini-Credits: Google bietet über sein AI Studio regelmässig einen grosszügigen Free Tier und Credits, ein wirklich starker, günstiger Weg zu einem fähigen mittleren Modell für Experimente und Tools mit kleinem Volumen.
- Free Tiers und Trials der Anbieter: die meisten Anbieter geben dir etwas kostenlose Nutzung zum Evaluieren. Nutze sie gezielt, um deinen eigenen Drei-Aufgaben-Benchmark zu fahren.

## Warum 1M-Kontext-Modelle enttäuschen

Du wirst Modelle sehen, die mit Kontextfenstern von 1.000.000 Tokens werben, und annehmen, sie seien strikt besser. In der Praxis enttäuschen sie oft, aus genau dem Grund aus der vorigen Lektion: dem Performance-Cliff. Ein Modell kann technisch eine Million Tokens annehmen und trotzdem schlechter antworten als ein fokussierter Prompt, weil die Qualität sinkt, je voller das Fenster wird. Behandle ein riesiges Kontextfenster als gelegentliche Versicherung für ein wirklich grosses Dokument, nicht als Erlaubnis, mit dem Kuratieren von Kontext aufzuhören. An den meisten Tagen schlägt ein mittleres Modell mit knappem Prompt ein Modell mit riesigem Kontext und schlampigem Prompt.

## Schritt für Schritt: ein Modell für eine echte Aufgabe wählen

Mach das konkret mit einer Aufgabe aus deiner eigenen Arbeit. Ziel ist, die Entscheidungsregel zu üben, nicht eine endgültige Antwort zu finden.

- Schreib die Aufgabe auf und bewerte ihre Schwierigkeit: einfach, normal oder wirklich hart.
- Wähle die passende Stufe: klein, mittel oder gross.
- Jage sie durch zwei Modelle dieser Stufe (nutze OpenRouter zum schnellen Wechseln).
- Beurteile den Output selbst nach Qualität und Konstanz und notiere, welches du tatsächlich nutzen würdest und warum.

## Typische Fehler

Die grossen: immer zum Flaggschiff greifen und bei leichten Aufgaben Geld verbrennen; einem Leaderboard mehr trauen als dem eigenen Drei-Aufgaben-Test; annehmen, ein grösseres Kontextfenster bedeute ein schlaueres Modell; und sich auf einen Anbieter festlegen, sodass du nie merkst, wenn ein Konkurrent etwas Besseres für deinen Anwendungsfall bringt. OpenRouter existiert genau dafür, dass die Wechselkosten niedrig bleiben.

## Business-ROI

Die Modellwahl ist einer der klarsten Hebel auf deine KI-Rechnung und deine Output-Qualität. Leichte Arbeit an ein kleines Modell zu leiten und das grosse Modell für hartes Reasoning zu reservieren, kann Kosten um eine Grössenordnung senken und gleichzeitig die Verlässlichkeit erhöhen, weil jede Aufgabe das richtige Werkzeug bekommt. Für eine Gründerin ist die Disziplin "Stufe an Schwierigkeit anpassen, an eigenen Aufgaben benchmarken, Wechseln günstig halten" mehr wert als jede einzelne Modellwahl.

## Checkliste

Du bist bereit weiterzugehen, wenn du Folgendes sicher kannst, ohne an den Markennamen zu zweifeln.

- Jedes neue Modell anhand von Datenblatt und Preis als klein, mittel oder gross einordnen.
- Erklären, warum du für einen einfachen Extraktionsjob kein Flaggschiff nutzen würdest.
- Einen persönlichen Drei-Aufgaben-Benchmark fahren, statt einem Leaderboard zu trauen.
- Benennen, wo es ein starkes Modell günstig oder kostenlos gibt (OpenRouter, Gemini-Credits).

## Ressourcen

Richte jetzt einen OpenRouter-Account ein, damit der Modellwechsel für den Rest des Kurses reibungslos ist, und schnapp dir kostenlose Gemini-Credits aus dem Google AI Studio für günstige Experimente. Du wirst beides immer wieder nutzen. Die nächste Lektion geht vom Modell zum Tool, das es umhüllt.

## Deine Aufgabe

Erstelle einen OpenRouter-Account und jage dann eine echte Aufgabe aus deiner Arbeit durch ein kleines, ein mittleres und ein grosses Modell. Schreib eine zweizeilige Notiz, welche Stufe tatsächlich gut genug war. Diese Notiz ist dein erstes echtes, persönliches Benchmark-Datum und sie wird deine Modellwahl über Monate leiten.

## Nächste Lektion

Ein Modell für sich redet nur. Damit es Arbeit erledigt - Dateien lesen, Befehle ausführen, Code ändern - hüllst du es in ein Harness. Die nächste Lektion erklärt, was ein Harness ist, und vergleicht Claude Code, Codex, Pi und OpenCode, damit du weisst, zu welchem Tool du greifst.

## Transkript

Es gibt kein einzelnes bestes Modell, nur das richtige Modell für eine Aufgabe und ein Budget. Diese Lektion kartiert die Modelllandschaft 2026 - Claude Haiku, Sonnet und Opus, OpenAI GPT, Google Gemini -, erklärt, wie du Benchmarks liest, ohne dich täuschen zu lassen, und zeigt, wo du starke Modelle günstig über OpenRouter und kostenlose Gemini-Credits bekommst.
