Stack
Eine Telefonnummer, die sich selbst beantwortet
CallAssistant verbindet eine echte Telefonnummer mit einem Voice-Agent: Jemand ruft an, der Agent geht ran, versteht, was die Person will, und erledigt es in einem natürlichen Gespräch. Twilio trägt den Anruf, ein Realtime-Voice-Modell macht das Zuhören und Sprechen, und mein Code ist der Klebstoff und das Hirn, das entscheidet, was tatsächlich zu tun ist.
Latenz ist das ganze Erlebnis
Im Web kommst du mit einem Spinner durch. In einem Telefonanruf fühlt sich eine Sekunde Pause an, als wäre die Leitung tot. Die gesamte technische Herausforderung war, die Round-Trip-Zeit schnell genug zu halten, dass sich das Gespräch lebendig anfühlte, was hiess, Audio in beide Richtungen zu streamen, statt auf komplette Sprecherwechsel zu warten.
- Audio streamt in Echtzeit über eine dauerhafte Verbindung, nicht in langsamen Request-Response-Brocken.
- Der Agent kann mitten im Satz unterbrochen werden, weil echte Menschen unterbrechen.
- Jede Aktion, die der Agent ausführen kann, ist ein klar definiertes Tool, damit er nie etwas Gefährliches improvisiert.
Was Voice mich lehrte, das Text nicht tat
Einen Text-Chatbot zu bauen wiegt dich in dem Glauben, Voice sei einfach dasselbe mit einem Mikrofon. Ist es nicht. Voice ist unerbittlich bei Timing, bei Unterbrechungen, bei der peinlichen Stille, wenn das Modell nachdenkt. Es erhöht auch den Einsatz bei Sicherheit: Ein Voice-Agent, der echte Aktionen in einem echten Anruf ausführt, braucht enge, gut definierte Tools und klare Grenzen, denn es gibt keinen "Bist du sicher?"-Dialog in einem Telefonanruf. Die tiefste Lektion war, dass das Medium das Produkt formt. Dasselbe Modell verhält sich völlig anders, wenn das Interface eine lebendige menschliche Stimme ist statt einer Chatbox.
Gelernte Lektionen
- Bei Voice ist Latenz das Produkt. Streame Audio in beide Richtungen, oder das Gespräch wirkt kaputt.
- Entwirf für Unterbrechung. Echte Anrufer reden dazwischen, und dein Agent muss damit umgehen.
- Gib einem Voice-Agent eng definierte Tools und Grenzen. Es gibt keinen Bestätigungsdialog in einem Telefonanruf.
- Das Medium formt das Produkt um. Ein Modell, das im Chat funktioniert, braucht ein Umdenken, sobald es eine Stimme hat.
