Sprachlern-App: Bild zu Text zu Audio verketten

Lernen, indem du deine Kamera richtest

Die App lässt dich die Kamera auf etwas in der echten Welt richten, einen Apfel, einen Stuhl, ein Strassenschild, und seinen Namen in der Sprache hören und lesen, die du lernst. Es ist eine kleine Idee mit überraschend motivierendem Effekt, weil sie neue Wörter an echte Dinge vor dir bindet statt an eine Karteikarte.

Drei KI-Schritte in einer Kette

Unter der Haube ist es eine Kette aus drei Modellen, jedes speist das nächste. Vision identifiziert das Objekt, Übersetzung verwandelt das Wort in die Zielsprache, und Text-to-Speech liest es mit einem anständigen Akzent vor. Jeder Schritt ist für sich einfach; das Produkt ist die Kette.

Bild zu Text: ein Vision-Modell benennt, was die Kamera sieht.
Text zu Text: ein Übersetzungsschritt konvertiert das Wort in die Zielsprache.
Text zu Audio: ein Sprachmodell spricht es aus, damit du lernst, wie es tatsächlich klingt.

Was Ketten dir über Fehler beibringen

Die harte Lektion beim Verketten von Modellen ist, dass Fehler sich multiplizieren. Wenn jeder Schritt zu 90 Prozent verlässlich ist, sind drei Schritte hintereinander nicht zu 90 Prozent verlässlich, sie summieren sich, und eine falsche Objekterkennung am Anfang vergiftet alles danach. Also war die eigentliche Arbeit, jeden Schritt elegant und sichtbar scheitern zu lassen: Wenn Vision unsicher ist, was das Objekt ist, sagt die App das, statt dir selbstsicher das falsche Wort beizubringen. Das hier zu bauen änderte, wie ich über mehrstufige KI-Produkte denke. Die Magie steckt in der Kette, aber die Verlässlichkeit steckt darin, wie ehrlich jedes Glied zugibt, wenn es unsicher ist, damit ein kleiner früher Fehler nicht still zu einer selbstsicheren falschen Antwort am Ende wird.

Gelernte Lektionen

In einer Kette von Modellen summieren sich Fehler. Drei verlässliche Schritte hintereinander sind weniger verlässlich als jeder einzelne.
Lass jeden Schritt sichtbar scheitern. Eine selbstsichere falsche Antwort früh vergiftet jeden folgenden Schritt.
Das Produkt ist die Kette, aber das Vertrauen steckt darin, wie ehrlich jedes Glied Unsicherheit zugibt.
Neue Information an echte Objekte zu binden ist ein wirklich starker Haken. Nutze das Medium, kämpf nicht dagegen.

Weiterlernen

Lektion

Eigene KI-Tools mit APIs bauen

Eigene KI-Tools auf Modell-APIs bauen, inklusive Bild-zu-strukturierten-Daten-Workflows, statt SaaS zu kaufen

Öffnen Lektion

Wie LLMs wirklich funktionieren: Tokens, Kontextfenster und der Performance-Cliff

Ein korrektes mentales Modell von Tokens, Kontextfenstern und davon, warum lange Prompts schlechter werden, damit du jedes Modell gut steuerst

Öffnen Lektion

Die 5 Stufen der LLM-Autonomie

Jedes agentische System auf einer fünfstufigen Autonomie-Skala verorten, sehen, warum Validierung der echte Blocker ist, und eine Stufe sicher aufsteigen

Öffnen Grundlage

Was ist eine API? Ein Leitfaden in klarer Sprache

Eine API ist eine Art, wie zwei Programme miteinander reden. Lerne, was eine API ist, wie sie funktioniert und warum sie für das Bauen mit KI zählt.

Öffnen Grundlage

Was sind Tokens in KI?

Tokens sind die Textstücke, in denen KI-Modelle lesen und abgerechnet werden. Lerne, was ein Token ist, warum es für die Kosten zählt und wie es sich von einem Security-Token unterscheidet.

Öffnen Grundlage

JSON, YAML und Markdown erklärt

JSON, YAML und Markdown sind drei Klartext-Formate, denen du ständig begegnest. Lerne, wofür jedes da ist und wie du sie auf einen Blick liest.

Öffnen

Sprachlern-App: Bild zu Text zu Audio verketten

Stack

Lernen, indem du deine Kamera richtest

Drei KI-Schritte in einer Kette

Was Ketten dir über Fehler beibringen

Gelernte Lektionen

Bereit, KI als Workflow zu nutzen?

Stack

Lernen, indem du deine Kamera richtest

Drei KI-Schritte in einer Kette

Was Ketten dir über Fehler beibringen

Gelernte Lektionen

Weiterlernen

Bereit, KI als Workflow zu nutzen?

Einmal pro Woche bessere KI Workflows.