Stack
Die Aufgabe: Foto rein, Daten raus
Das Ziel klingt simpel: Nimm ein Foto oder einen Scan einer Rechnung und verwandle es in eine saubere Datenbankzeile mit Lieferant, Betrag, Datum und Positionen. In einem Demo klappt es beim ersten Versuch und fühlt sich wie Magie an. In Wirklichkeit sind Rechnungen genau da, wo Bild-zu-Daten gedemütigt wird, weil keine zwei gleich formatiert sind.
Die Edge Cases sind das Projekt
Der Happy Path dauerte einen Nachmittag. Die Edge Cases dauerten den Rest der Zeit, und da steckt die ganze echte Ingenieursarbeit. Verblasste Scans, fremde Währungen, Summen, die nicht aufgehen, zwei Rechnungen auf einer Seite, Handschrift am Rand. Das Modell las das meiste korrekt und vertat sich dann still bei einer Ziffer, was auf einer Rechnung genau die Art Fehler ist, die man nicht ausliefern kann.
- Ich baute einen Stapel Test-Rechnungen, inklusive absichtlich hässlicher, und liess jede Änderung gegen alle laufen.
- Extrahierte Zahlen werden gegeneinander validiert, sodass eine Summe, die nicht zu ihren Positionen passt, markiert wird.
- Felder mit niedriger Confidence werden einem Menschen zur Bestätigung gezeigt, statt still geschrieben zu werden.
Testdaten sind der heimliche Held
Das wertvollste, das ich baute, war nicht der Extraktions-Prompt, es war die Sammlung echter, chaotischer Test-Rechnungen. Jedes Mal, wenn das Tool an einer neuen Art Dokument scheiterte, wanderte dieses Dokument ins Testset, und von da an konnte ich daran nie wieder regredieren. Das verwandelte ein fragiles Demo in etwas Verlässliches. Die breitere Lektion ist, dass bei Bild-zu-Daten-Arbeit deine Testdaten das Produkt sind. Das Modell ist Massenware; das kuratierte Set harter Beispiele, gegen das du validierst, ist der Burggraben, und es ist, was dich dem Output genug vertrauen lässt, um ihn in die Nähe von jemandes Geld zu bringen.
Gelernte Lektionen
- Der Happy Path ist ein Nachmittag. Die Edge Cases sind das Projekt. Plane deine Zeit entsprechend.
- Bau ein wachsendes Set echter, hässlicher Test-Dokumente. Jedes Scheitern wird zu einem dauerhaften Regressionstest.
- Validiere extrahierte Daten gegen sich selbst. Eine Summe, die nicht zu ihren Positionen passt, sollte nie still durchgehen.
- Bei Bild-zu-Daten-Arbeit ist das kuratierte Testset der echte Burggraben, nicht der Prompt oder das Modell.
