Projekte

CallAssistant: Ein Telefon-Agent auf Twilio und Realtime-Voice

Ein echter Voice-Agent, der ans Telefon geht, gebaut auf Twilio und OpenAI.

InternSaaS-Produkte2 Min. LesezeitAktualisiert 12. Juni 2026

Stack

TwilioOpenAI RealtimeNode.jsWebSocketsTypeScript

Eine Telefonnummer, die sich selbst beantwortet

CallAssistant verbindet eine echte Telefonnummer mit einem Voice-Agent: Jemand ruft an, der Agent geht ran, versteht, was die Person will, und erledigt es in einem natürlichen Gespräch. Twilio trägt den Anruf, ein Realtime-Voice-Modell macht das Zuhören und Sprechen, und mein Code ist der Klebstoff und das Hirn, das entscheidet, was tatsächlich zu tun ist.

Latenz ist das ganze Erlebnis

Im Web kommst du mit einem Spinner durch. In einem Telefonanruf fühlt sich eine Sekunde Pause an, als wäre die Leitung tot. Die gesamte technische Herausforderung war, die Round-Trip-Zeit schnell genug zu halten, dass sich das Gespräch lebendig anfühlte, was hiess, Audio in beide Richtungen zu streamen, statt auf komplette Sprecherwechsel zu warten.

  • Audio streamt in Echtzeit über eine dauerhafte Verbindung, nicht in langsamen Request-Response-Brocken.
  • Der Agent kann mitten im Satz unterbrochen werden, weil echte Menschen unterbrechen.
  • Jede Aktion, die der Agent ausführen kann, ist ein klar definiertes Tool, damit er nie etwas Gefährliches improvisiert.

Was Voice mich lehrte, das Text nicht tat

Einen Text-Chatbot zu bauen wiegt dich in dem Glauben, Voice sei einfach dasselbe mit einem Mikrofon. Ist es nicht. Voice ist unerbittlich bei Timing, bei Unterbrechungen, bei der peinlichen Stille, wenn das Modell nachdenkt. Es erhöht auch den Einsatz bei Sicherheit: Ein Voice-Agent, der echte Aktionen in einem echten Anruf ausführt, braucht enge, gut definierte Tools und klare Grenzen, denn es gibt keinen "Bist du sicher?"-Dialog in einem Telefonanruf. Die tiefste Lektion war, dass das Medium das Produkt formt. Dasselbe Modell verhält sich völlig anders, wenn das Interface eine lebendige menschliche Stimme ist statt einer Chatbox.

Gelernte Lektionen

  • Bei Voice ist Latenz das Produkt. Streame Audio in beide Richtungen, oder das Gespräch wirkt kaputt.
  • Entwirf für Unterbrechung. Echte Anrufer reden dazwischen, und dein Agent muss damit umgehen.
  • Gib einem Voice-Agent eng definierte Tools und Grenzen. Es gibt keinen Bestätigungsdialog in einem Telefonanruf.
  • Das Medium formt das Produkt um. Ein Modell, das im Chat funktioniert, braucht ein Umdenken, sobald es eine Stimme hat.
Nächster Schritt

Bereit, KI als Workflow zu nutzen?

Starte mit dem Starter-Pfad, speichere deinen Fortschritt lokal und synchronisiere alles später kostenlos mit deinem Konto.