---
title: "Eigene KI-Tools mit APIs bauen"
description: "Eigene KI-Tools auf Modell-APIs bauen, inklusive Bild-zu-strukturierten-Daten-Workflows, statt SaaS zu kaufen"
type: "lesson"
locale: "de-CH"
course: "Automation und agentische Systeme"
number: "4.4"
canonical: "https://agenticschool.dev/de/kurse/automation-agentic-systems/building-your-own-ai-tools-with-apis"
datePublished: "2026-06-12"
dateModified: "2026-06-12"
---

# Eigene KI-Tools mit APIs bauen

- Kurs: Automation und agentische Systeme
- Lektion: 4.4
- Dauer: 28 min
- Level: fortgeschritten
- Status: published
- Kanonische URL: https://agenticschool.dev/de/kurse/automation-agentic-systems/building-your-own-ai-tools-with-apis
- Sprache: de-CH

> Eigene KI-Tools auf Modell-APIs bauen, inklusive Bild-zu-strukturierten-Daten-Workflows, statt SaaS zu kaufen

## Zusammenfassung

Du musst nicht warten, bis jemand das Tool baut, das du brauchst. Mit Modell-APIs baust du dein eigenes, oft an einem Nachmittag. Diese Lektion zeigt, wie du Gemini und Claude direkt aufrufst, strukturiertes JSON zurückbekommst und Vision nutzt, um ein Foto in einen Datenbank-Datensatz zu verwandeln - illustriert durch zwei echte Gründer-Tools: Rechnungszuordnung und ein Schweizer Sammelkarten-Katalogisierer.

## Was du lernst

- Die Gemini- und Claude-APIs direkt aufrufen, inklusive des kostenlosen Gemini-Kontingents
- Strukturierten JSON-Output erzwingen, sodass eine Modell-Antwort zu einem Datenbank-Datensatz wird
- Zwei Gründer-Fallstudien: Rechnungszuordnung und Schweizer Sammelkarten, Foto rein, Datensatz raus

## Überblick

Der grösste Wandel im Software-Bauen ist dieser: Wenn das Tool, das du brauchst, nicht existiert, baust du es am selben Nachmittag. Modell-APIs lassen dich ein LLM aus deinem eigenen Code aufrufen, mit deinem eigenen Prompt, und - entscheidend - strukturierte Daten zurückbekommen statt einer Wand aus Prosa. Sobald ein Modell ein Bild oder ein Dokument verlässlich in einen sauberen JSON-Datensatz verwandeln kann, verschwindet eine ganze Klasse manueller Dateneingabe-Arbeit. Diese Lektion lehrt den direkten API-Call, den Trick mit strukturiertem Output, der die Antwort nutzbar macht, und zwei echte Tools, die der Gründer dieser School aus genau diesen Teilen gebaut hat.

## Was du lernst

Du lernst, Gemini und Claude direkt mit einem minimalen fetch-Request aufzurufen, das Modell zu zwingen, JSON passend zu einem Schema zurückzugeben, sodass der Output direkt in eine Datenbank fällt, Vision zu nutzen, sodass ein Foto zu strukturierten Daten wird, und zu erkennen, wann der Bau eines kleinen internen Tools das Bezahlen von SaaS schlägt. Die zwei Gründer-Fallstudien machen es konkret: Foto einer Rechnung rein, zugeordneter Datensatz raus; Foto einer Sammelkarte rein, katalogisierter Datensatz raus.

## Voraussetzungen

Kurse 1 bis 3. Du brauchst die Modellauswahl-Lektion aus Kurs 1 (die Tool-Kosten hängen ganz davon ab, welches Modell du aufrufst), die Secrets-Disziplin aus Kurs 3 (der API-Key fasst nie Client-Code an) und eine Datenbank zum Hineinschreiben - Convex aus Kurs 3 ist perfekt. Die Fundamentals-Seite dazu, was eine API ist, deckt die Request-Grundlagen ab, falls du sie brauchst.

## Das Problem

Unternehmen zahlen monatlich für SaaS-Tools, die eine enge Sache tun - Belege lesen, Bilder taggen, Felder aus PDFs extrahieren -, und die trotzdem nicht ganz zu ihrem Workflow passen. Dabei ist derselbe Job einen einzigen API-Call entfernt. Der Blocker war nie die Fähigkeit; es ist, dass Leute nicht merken, wie wenig Code zwischen "ich habe ein Foto einer Rechnung" und "die Rechnung ist in meinem Buchhaltungssystem, dem richtigen Projekt zugeordnet" steht. Diese Lektion entfernt diesen Blocker, indem sie den ganzen Weg von Anfang bis Ende zeigt.

## APIs als Bausteine

Eine Modell-API direkt aufzurufen gibt dir totale Kontrolle: dein Prompt, dein Modell, dein Output-Format, keine UI im Weg. Es ist auch weniger Code, als Leute erwarten. Ein Request ist ein POST mit deinem API-Key in einem Header und einem JSON-Body, der beschreibt, was du willst. Hier ist ein minimaler Call zu Gemini und dieselbe Idee gegen Claude, damit du beide siehst. Google bietet ein wirklich grosszügiges kostenloses Gemini-Kontingent über AI Studio, was es zum natürlichen Ort macht, Vision-Tools zu prototypen, ohne etwas auszugeben.

```typescript
// Minimaler Gemini-Call. Der Key lebt in einer Env-Var, nie im Client-Code.
const res = await fetch(
  'https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent',
  {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
      'x-goog-api-key': process.env.GEMINI_API_KEY!,
    },
    body: JSON.stringify({
      contents: [{ parts: [{ text: 'Summarise this in one sentence: ...' }] }],
    }),
  },
)
const data = await res.json()
console.log(data.candidates[0].content.parts[0].text)
```
Ein minimaler Gemini-API-Call. Modellnamen und genaue Pfade ändern sich - bestätige gegen die aktuellen Google-AI-Docs.

Claude funktioniert genauso: ein POST zum Anthropic-Messages-Endpunkt mit deinem Key in einem x-api-key-Header und einem messages-Array im Body. Der Anbieter unterscheidet sich, die Form ist dieselbe. Wähle das Modell mit der Modellauswahl-Regel aus Kurs 1 - ein schnelles, günstiges Modell für hochvolumige Extraktion, ein stärkeres nur, wenn das Denken wirklich schwer ist.

## Strukturierter Output: der Trick, der es nützlich macht

Ein Modell, das in Prosa antwortet, ist kein Tool - du kannst einen Absatz nicht in eine Datenbankspalte legen. Der Trick ist, strukturierten Output zu verlangen: gib dem Modell ein JSON-Schema und verlange, dass es Daten zurückgibt, die exakt zu diesem Schema passen. Moderne APIs unterstützen das direkt (ein Response-Schema oder Structured-Output-Modus), und das Ergebnis ist ein Objekt mit garantierter Form, das du validieren und einfügen kannst. Das ist es, was "das Modell hat etwas über die Rechnung gesagt" in "die Rechnungszeile hat Lieferant, Betrag, Währung, Datum und project_id" verwandelt. Validiere das zurückgegebene JSON immer gegen dein Schema (Zod aus deinem Stack ist ideal), bevor du ihm traust, denn ein Modell kann gelegentlich noch driften.

```typescript
import { z } from 'zod'

// Die genaue Form, die du zurückwillst - das IST dein Datenbank-Datensatz.
const InvoiceSchema = z.object({
  supplier: z.string(),
  invoiceNumber: z.string(),
  amount: z.number(),
  currency: z.string(),
  issueDate: z.string(), // ISO-Datum
  projectId: z.string().nullable(),
})

// Sag dem Modell, NUR JSON passend zu diesem Schema zurückzugeben, dann validiere.
const parsed = InvoiceSchema.parse(JSON.parse(modelJsonString))
// parsed ist jetzt ein typisierter, validierter Datensatz, bereit zum Einfügen. Keine Prosa.
```
Definiere die Datensatzform mit Zod, weise das Modell an, passendes JSON zurückzugeben, und validiere vor dem Einfügen. Die Validierung fängt das seltene Driften.

## Vision: ein Foto rein, ein Datensatz raus

Dieselbe API akzeptiert Bilder, nicht nur Text. Vision-Modelle wie Gemini lesen ein Bild und geben, kombiniert mit dem Trick für strukturierten Output, einen sauberen Datensatz zurück, der beschreibt, was sie sehen. Du sendest die Bild-Bytes neben deiner Anweisung und deinem Schema und bekommst strukturierte Daten zurück. Das ist der Zug, der Dateneingabe aus der physischen Welt automatisiert: richte ein Handy auf ein Dokument oder ein Objekt, und eine Datenbankzeile erscheint. Das Modell macht das Lesen; dein Schema macht das Strukturieren; dein Code macht das Einfügen. Drei Schritte, und eine Aufgabe, die früher eine Person war, die stundenlang tippt, wird zu einem Foto und einem Webhook.

## Gründer-Fallstudie: Rechnungszuordnung

Hier ist eine echte, die wir gebaut haben. Ein Unternehmen ertrank in Lieferantenrechnungen, die jede gelesen, deren Felder extrahiert und - der mühsame Teil - dem richtigen internen Projekt zugeordnet werden mussten, bevor sie ins Buchhaltungssystem gingen. Wir bauten ein kleines Tool: ein Rechnungsfoto oder PDF reinwerfen, ein Vision-Modell extrahiert Lieferant, Nummer, Betrag, Währung und Datum in das genaue Schema oben, und ein zweiter Schritt ordnet es dem richtigen Projekt zu, anhand der Positionen und der Lieferantenhistorie. Ein Mensch genehmigt weiterhin Grenzfälle (mehr dazu in der Human-in-the-Loop-Lektion), aber das Lesen und Zuordnen, das früher Stunden pro Woche frass, passiert jetzt in Sekunden. Kein SaaS-Abo, keine Gebühr pro Dokument, totale Kontrolle über die Logik, und es passt exakt zum Unternehmen, weil das Unternehmen das Schema definiert hat.

## Gründer-Fallstudie: Schweizer Sammelkarten

Das zweite Tool macht mehr Spass und trifft denselben Punkt. Wir hatten eine grosse Sammlung Schweizer Sammelkarten zu katalogisieren - jede braucht ihren Spieler oder ihr Motiv, das Set, das Jahr und den Zustand erfasst, was von Hand zermürbend ist. Das Tool ist fast peinlich einfach: eine Karte fotografieren, ein Vision-Modell gibt einen strukturierten Datensatz zurück (Name, Set, Jahr, geschätzter Zustand) passend zu einem Schema, und es landet in einer Datenbank mit dem angehängten Bild. Was Tage manueller Eingabe gewesen wäre, wurde zu einem Nachmittag Fotos machen. Die Lehre handelt nicht von Sammelkarten; es ist, dass "Bild zu strukturiertem Datenbank-Datensatz" ein universelles Muster ist. Rechnungen, Karten, Inventar, Visitenkarten, Belege, Geräte-Typenschilder - dieselben drei Schritte gelten für alle.

## Bauen, nicht kaufen

Beide Fallstudien ersetzten einen SaaS-Kauf durch ein internes Tool, und das ist der strategische Punkt. Wenn ein Job eng und spezifisch für dein Unternehmen ist, schlägt ein kleines, API-gestütztes Tool, das du besitzt, meist ein generisches Produkt, das du mietest. Du bekommst eine exakte Passform, keine Gebühren pro Sitzplatz oder pro Dokument, volle Kontrolle über die Daten und die Fähigkeit, die Logik in dem Moment zu ändern, in dem sich dein Prozess ändert. Das ist nicht "baue alles" - nimm grossartiges SaaS für Standardbedürfnisse. Es ist "für die engen, sich wiederholenden, geschäftsspezifischen Datenjobs gewinnt oft ein fünfzigzeiliges Tool auf einer Modell-API".

- Bau, wenn der Job eng, spezifisch für dein Unternehmen und hochvolumig genug ist, dass SaaS-Gebühren pro Einheit sich summieren.
- Kauf, wenn der Bedarf generisch ist, die SaaS-Passform gut ist und du ein ausgereiftes Produkt neu erfinden würdest.
- Besitze deine Daten und dein Schema. Ein Tool, das du gebaut hast, beugt sich deinem Prozess; ein Tool, das du mietest, lässt deinen Prozess sich ihm beugen.

## Typische Fehler

Die häufigen: den API-Key in clientseitigen Code legen, wo ihn jeder stehlen kann (er gehört in eine Server-Env-Var, immer); nach Prosa fragen und sie dann mit brüchigem String-Matching parsen, statt schema-validiertes JSON zu verlangen; die Validierung überspringen und einen fehlerhaften Datensatz in deine Datenbank einfügen; ein teures Flaggschiff-Modell für einfache hochvolumige Extraktion nutzen, wenn ein günstiges schnelles Modell reichlich ist; und SaaS für einen Job kaufen, den ein fünfzigzeiliges internes Tool besser und günstiger erledigen würde.

## Business-ROI

Das ist die Lektion, in der KI aufhört, ein Chat-Spielzeug zu sein, und anfängt, Positionen auf deiner Rechnung und Stunden in deinem Kalender zu ersetzen. Ein Bild-zu-Datensatz-Tool kann eine Teilzeit-Dateneingabe-Stelle eliminieren, und weil du es besitzt, sind die Grenzkosten pro Dokument Bruchteile eines Cents Modellnutzung, kein SaaS-Abo. Die Gründer-Tools oben brauchten jeweils einen Nachmittag zum Bauen und sparten jede Woche wiederkehrende Stunden. Für ein kleines Unternehmen ist die Fähigkeit, das exakte Tool, das du brauchst, auf Abruf zu bauen, ein struktureller Vorteil, den Wettbewerber, die nur SaaS kaufen, nicht erreichen können.

## Checkliste

Du bist bereit weiterzugehen, wenn jedes davon stimmt, denn die nächsten Lektionen bauen Funnels und Feedback-Schleifen auf Tools wie diesen auf.

- Einen minimalen API-Call zu Gemini oder Claude machen, mit dem Key sicher in einer Env-Var.
- Strukturierten JSON-Output erzwingen und ihn mit einem Schema validieren, bevor du ihn nutzt.
- Ein Foto mit einem Vision-Modell in einen strukturierten Datenbank-Datensatz verwandeln.
- Für einen echten Job entscheiden, ob du ein internes Tool baust oder SaaS kaufst.

## Ressourcen

Hol dir kostenloses Gemini-Guthaben aus Google AI Studio, um Vision-Tools kostenlos zu prototypen, und halt die Anthropic- und Google-AI-Docs griffbereit, weil sich Modellnamen und die Structured-Output-API-Oberfläche ändern. Zod aus deinem bestehenden Stack ist deine Validierungsschicht. Die /builds-Fallstudien zur Rechnungsautomation und zum Schweizer-Sammelkarten-Tool gehen tiefer auf jede ein, wenn du die ganze Geschichte willst.

## Deine Aufgabe

Wähle eine sich wiederholende Dateneingabe-Aufgabe in deiner Arbeit, die mit einem Bild oder Dokument beginnt. Bau ein winziges Tool: nimm das Bild, sende es an Gemini mit einem Zod-Schema, validiere das JSON und logge den Datensatz. Du brauchst keine UI - ein Skript, das den strukturierten Datensatz ausgibt, ist der Beweis. Notiere, wie lange es gedauert hat gegenüber dem, was dich die manuelle Aufgabe jede Woche kostet.

## Nächste Lektion

Tools und Automationen brauchen Menschen, die sie finden. Die nächste Lektion behandelt die Marketing-Klempnerei: Lead Magnets, Capture-Formulare, Funnels und die Double-Opt-in-E-Mail-Regeln, die du in der EU und der Schweiz befolgen musst.

## Transkript

Du musst nicht warten, bis jemand das Tool baut, das du brauchst. Mit Modell-APIs baust du dein eigenes, oft an einem Nachmittag. Diese Lektion zeigt, wie du Gemini und Claude direkt aufrufst, strukturiertes JSON zurückbekommst und Vision nutzt, um ein Foto in einen Datenbank-Datensatz zu verwandeln - illustriert durch zwei echte Gründer-Tools: Rechnungszuordnung und ein Schweizer Sammelkarten-Katalogisierer.
