Interviews
Alexey Aylarov, Mitgründer und CEO von Voximplant – Interview-Serie

Alexey Aylarov gründete Voximplant nach einem Jahrzehnt, in dem er Kommunikationstools von Grund auf aufbaute. Seine frühe Arbeit umfasste die Entwicklung von IP-PBX und das Führen seines eigenen Telekommunikations-Software-Unternehmens, lange bevor Cloud-Telefonie zum Mainstream wurde. Zingaya kam als Nächstes, mit Click-to-Call direkt im Browser. Voximplant folgte, das zu einer serverlosen Plattform heranwuchs, auf die Entwickler für Echtzeit-Sprache und -Video angewiesen sind. Alexey schreibt über die praktische Seite von Voice AI, insbesondere darüber, wo große Sprachmodelle mit den chaotischen Realitäten der globalen Telekommunikation kollidieren.
Sie begannen Ihre Karriere als VoIP-Ingenieur in den mittleren 2000er Jahren, lange bevor KI in Echtzeit-Kommunikationen eintrat. Was waren die größten Lücken, die Sie damals sahen und die Sie schließlich dazu brachten, Voximplant zu gründen?
Ich bin seit 2005 mit VoIP-Systemen beschäftigt. Damals war es langsam und komplex, zuverlässige Kommunikation aufzubauen. Ich bemerkte, dass viele Entwickler meine Frustration teilten – Teams versuchten, Telekommunikationskomponenten zu verdrahten, anstatt sich auf das Produkt-Erlebnis zu konzentrieren, das sie eigentlich liefern wollten. Das trieb mich dazu, mich auf die Idee der programmierbaren Kommunikation für Entwickler zu konzentrieren. Wir wollten ein Produkt erstellen, das es jedem ermöglicht, Produkte zu bauen, ohne dass man ein Telekommunikations-Experte sein muss.
Bevor Voximplant kam, gründete ich SIP-basierte Anrufdienste wie Flashphone und Zingaya, die frühe Click-to-Call-Produkte anboten. Die Nachfrage bewies erneut, dass Teams programmierbare Kommunikation wollten, aber die Werkzeuge dafür noch nicht vorhanden waren. All das führte 2013 zur Gründung von Voximplant.
Heute sehen wir eine ähnliche Lücke, aber in größeren Dimensionen. Voice AI tritt in Produktionsflüsse ein, LLMs entwickeln sich jeden Monat weiter, aber das globale Telefonnetz bleibt fragmentiert. Kein einziger Anbieter kann alles von Anfang bis Ende lösen. Deshalb fungiert Voximplant als Orchestrierungsschicht, die Entwicklern eine schnelle und kosteneffiziente Möglichkeit bietet, mit den neuesten und fortschrittlichsten Tools zu experimentieren und Voice-Agents in echten Anrufen zu deployen, ohne sich um Telekommunikations-Infrastruktur oder Streaming-Komplexität kümmern zu müssen.
Voximplant positioniert sich als Orchestrierungsschicht und nicht als einzelner KI- oder Telekommunikationsanbieter. Warum glaubten Sie, dass Orchestrierung die richtige Abstraktionsschicht für die Zukunft von Voice AI ist?
Es war uns von Anfang an wichtig, global zu sein, und man kann keine globale Telekommunikationsplattform anbieten, ohne eine gewisse Telekommunikations-Orchestrierung durchzuführen. Technische Anforderungen und Infrastruktur variieren von Land zu Land, und wir bieten Telefonnummern in über 190 Ländern an, was bedeutet, dass wir viel technische Vermittlung leisten.
Darüber hinaus haben sich Telekommunikationsstandards wie SIP in viele Varianten bei verschiedenen Anbietern entwickelt. Die Verbindung unterschiedlicher Telekommunikationsanbieter und verschiedener Kundenkommunikations-Infrastrukturen erfordert flexible Systeme, die sich schnell anpassen können. Neuere Telefonnetze wie WhatsApp treiben diese Bedürfnisse weiter voran – und das alles, bevor man die Kommunikationssteuerlogik hinzufügt, die tatsächlich die einzigartige Anwendungslogik unserer Kunden ausführt.
Auf der KI-Seite ist der Markt sehr intensiv und entwickelt sich rasch. Der “beste” Anbieter von heute ist wahrscheinlich nächste Woche bereits auf dem zweiten oder dritten Platz. Unser Ansatz besteht darin, so viele der führenden Anbieter wie möglich zu unterstützen. Wir möchten, dass unsere Kunden immer eine vollständige Palette von State-of-the-Art-Optionen zur Auswahl haben. Sie können den richtigen KI-Anbieter für ihre spezifischen Anforderungen wählen – oder sogar mischen und matchen. Unsere Orchestrierungsplattform zielt darauf ab, den Wechsel zwischen Anbietern zu vereinfachen, während sie gleichzeitig ihre vollständigen Fähigkeiten offenlegt, damit Entwickler nicht mit einem niedrigsten gemeinsamen Nenner-Featuresatz feststecken.
Viele Teams unterschätzen, wie schwierig es ist, dass ein Voice-AI-Agent echte Telefonanrufe tätigt und verwaltet. Was macht aus Ihrer Sicht die reale Telekommunikation so herausfordernd im Vergleich zu rein digitalen KI-Interaktionen?
Das Telefonnetz ist immer noch sehr fragmentiert und inkonsistent über Regionen hinweg, was es noch unvorhersehbarer macht. In einigen Ländern können bestimmte Protokolle eingeschränkt oder blockiert sein, Carrier erleben Ausfälle als Teil des normalen Betriebs, und Anruf-Routingsmuster können sich über den Tag hinweg ändern. Es gibt auch Regionen, in denen Cloud-Telekommunikation rechtlich kompliziert sein kann.
Wir haben auch Fälle gesehen, in denen die Infrastruktur selbst zum Flaschenhals wird. Zum Beispiel hatte ein australisches Gesundheits-Startup, das einen AI-Anrufer entwickelte, um ältere kantonesischsprachige Patienten zu überprüfen, mit hoher Latenz zu US-amerikanischen Voice-AI-Anbietern (wie OpenAI oder ElevenLabs) und der begrenzten Verfügbarkeit von hochwertiger kantonesischer TTS zu kämpfen, was die Gespräche langsam und unnatürlich klingen ließ.
Neben der Zuverlässigkeit gibt es noch die Compliance-Ebene. Anforderungen variieren stark von Land zu Land und überlappen oft mit Rahmenwerken wie HIPAA, PCI DSS und DSGVO.
Die Sprachleistung selbst ist auch nicht universell. Kein einzelnes STT- oder TTS-System funktioniert in jeder Umgebung am besten. Akzente, Hintergrundgeräusche, Anrufqualitäts-Schwankungen oder sogar Anbieter-Verschlechterung können plötzliche Abfälle in der Genauigkeit und Benutzererfahrung verursachen.
Einige Voice-AI-Systeme verwenden heute mehrere Anbieter für LLMs, Sprache-zu-Text, Text-zu-Sprache und Routing. Warum ist diese Fragmentierung unvermeidlich, und warum sollte das Umschalten von KI- oder Sprachanbietern eine schnelle Code-Änderung und kein großes Ingenieurprojekt sein?
Früher in der Voice-AI-Zeit gab es keine echte Sprache-zu-Sprache-Option, also musste man Sprache-zu-Text, LLM und Text-zu-Sprache zusammenbauen. Heute integrieren mehrere LLM-Anbieter Sprache direkt (oft mit einer gewissen Form von Barge-in-Unterstützung), was den Bedarf, eine vollständige Pipeline aufzubauen, eliminiert. Diese Systeme sind schneller und hochinteraktiv, haben aber auch Einschränkungen in Bezug auf funktionale Anrufe und bieten weniger Optionen zur Verbesserung der Transkription und der Stimmen. Wir erwarten, dass sprachbasierte LLMs bald mit Textmodellen vergleichbar sein werden. Selbst dann werden Kunden möglicherweise immer noch verschiedene Sprachanbieter für ihre spezifischen Anforderungen verwenden wollen. Eine gewisse Trennung der Pipeline bietet auch mehr Redundanz-Optionen.
Das Umschalten von KI- und Sprachanbietern auf unserer Plattform ist kein großes Ingenieurprojekt, aber es ist auch mehr als eine einzige Code-Zeile. Sprachanbieter kämpfen ständig gegen die Kommodifizierung, indem sie einzigartige Funktionen einführen. Wir halten unsere Konnektoren so konsistent wie möglich, während wir gleichzeitig die Fähigkeiten jedes Anbieters offenlegen, sodass Kunden von diesen einzigartigen Funktionen profitieren können. Das Umschalten von Anbietern bedeutet oft, dass man ein paar Code-Zeilen ändern muss.
Wie beginnen Voice-AI-Agents, die Ökonomie von Kundensupport, Verkäufen und anderen B2C-Operationen im Vergleich zu traditionellen Call-Center-Modellen zu verändern?
Es mag noch zu früh sein, um von einer signifikanten Verschiebung in der Ökonomie des Kundensupports zu sprechen, aber es kommt definitiv. Heute gibt es Regionen, in denen Kundensupport-Vertreter weniger kosten als LLM-gestützte Dienste, doch dieses Modell kommt mit bekannten Herausforderungen um Skalierbarkeit, Burnout, Management und Betrieb. Ich nehme an, dass die Ökonomie sich erheblich ändern wird, wenn die Optimierung von LLMs weiter verbessert wird, obwohl es noch einige Zeit dauern wird.
Welche Signale deuten darauf hin, dass Voice AI von Experimenten in mission-kritische Infrastrukturen für Unternehmen übergeht?
Das stärkste Signal hierfür ist die Investition in Voice-AI-Infrastruktur, die rasch wächst. Es gibt Möglichkeiten, Voice-AI-aktivierte Anrufe oder Minuten im globalen Maßstab zu verfolgen, wenn nicht genau, dann zumindest durch Schätzungen. Während ich dies direkt nur für Voximplant verfolgen kann, sehen wir eindeutiges Wachstum.
Wie haben sich die Erwartungen von Entwicklern an Flexibilität und Kontrolle geändert, während KI-Modelle und Sprachtechnologien schneller iterieren?
Das ist eine interessante Frage. Wenn es um die Geschwindigkeit der Veränderung geht, ist KI unübertroffen. Kontrolle und Flexibilität sind weniger eindeutig, je nachdem, was wir unter diesen Begriffen verstehen. Wenn es um Kontrolle geht, gibt es viele bekannte Herausforderungen, und es ist nicht leicht, diese zu überwinden. Die meisten KI-Unternehmen investieren erhebliche Anstrengungen in Modell-Schutzmechanismen, aber das erfordert tiefes Fachwissen, und verschiedene Unternehmen haben offensichtlich unterschiedliche Ziele.
Welche Fehler machen Unternehmen am häufigsten, wenn sie versuchen, Voice-AI-Agents direkt auf traditionelle Telekommunikationssysteme zu deployen?
Traditionelle Telekommunikationssysteme sind nicht direkt mit Voice-AI-Diensten kompatibel, daher erfordern sie in der Regel zusätzliche Integration, normalerweise über das SIP-Protokoll oder WebSockets. Häufige Fehler umfassen unzureichendes Failover-Management, Latenzprobleme (die durch verschiedene Faktoren verursacht werden können) und Skalierbarkeits-Herausforderungen.
Telekommunikation selbst skaliert ziemlich gut, insbesondere mit VoIP. Voice-AI-Dienste sind jedoch schwieriger zu skalieren, da sie die Hardware-Anforderungen erfordern, um LLMs auszuführen, und sogar große Infrastruktur-Spieler wie Amazon können Kapazitäts-Beschränkungen bei der Inferenz-Hardware haben.
Blickt man voraus, welche Fähigkeiten müssen Voice-AI-Plattformen unterstützen, um relevant zu bleiben, wenn Echtzeit-KI autonomer wird?
Ich denke, dass Voice-AI-Plattformen sich auf SLA konzentrieren müssen, da dies gelegentlich noch ein Problem darstellen kann, und auf zusätzliche Tools für Tests und Beobachtbarkeit.
Schließlich werden die fortschrittlichsten Plattformen alles bieten, was erforderlich ist, aber heute lernen wir noch jeden Tag neue Lektionen, von denen viele Teil des Kernstacks werden sollten. Wenn man mit großen Unternehmen oder in regulierten Umgebungen arbeitet, kann es kritisch sein, eine On-Premises-Version des Produkts zu haben.
Wenn Sie auf Ihre Reise von der frühen VoIP-Infrastruktur bis zur heutigen Führung einer Voice-AI-Plattform zurückblicken, was hat Sie am meisten überrascht, wie die Branche sich entwickelt hat?
Viele Dinge haben mich überrascht, aber eines davon ist, dass Veränderungen in der VoIP-Infrastruktur Jahre dauern, um zu geschehen. Ein gutes Beispiel ist, dass die Telekommunikation immer noch auf schmalbandige Audio-Codecs (G.711, G.729) angewiesen ist, während die Menschen bereits an breitbandige Audio in Online-Kommunikationsdiensten wie Zoom, Google Meet, WhatsApp usw. gewöhnt sind.
Die meisten KI-Modelle werden auch mit breitbandigem Audio-Trainingsdaten trainiert. Alle modernen Mobiltelefone haben breitbandige Audio-Codecs integriert, aber es gibt immer noch erhebliche Interoperabilitäts-Herausforderungen auf der Carrier-Ebene, die die Verwendung von breitbandigem Audio in traditionellen Telefonanrufen verhindern. Es ist nicht so, als ob es überhaupt keinen Fortschritt gäbe, aber aus meiner Sicht ist er sehr bescheiden.












