Entretiens

Alexey Aylarov, Co-fondateur et PDG de Voximplant – SĂ©rie d’entretiens

mm

Alexey Aylarov a co-fondé Voximplant après avoir passé une décennie à développer des outils de communication à partir de zéro. Ses premiers travaux incluaient le développement de PBX IP et la direction de sa propre société de logiciels de télécoms bien avant que la téléphonie cloud ne devienne mainstream. Zingaya est venu ensuite, en apportant l’appel par clic à l’intérieur du navigateur. Voximplant a suivi, grandissant en une plate-forme sans serveur sur laquelle les développeurs comptent pour la voix et la vidéo en temps réel. Alexey écrit sur l’aspect pratique de la voix IA, en particulier sur la façon dont les grands modèles de langage entrent en collision avec les réalités complexes de la téléphonie mondiale.

Vous avez commencé votre carrière en tant qu’ingénieur VoIP au milieu des années 2000, bien avant que l’IA n’entre dans les communications en temps réel. Quels étaient les plus grands écarts que vous avez vus à l’époque qui vous ont finalement poussé à fonder Voximplant ?

J’ai été impliqué dans les systèmes VoIP depuis 2005. À l’époque, la construction de communications fiables était lente et complexe. J’ai remarqué que de nombreux développeurs partageaient ma frustration – les équipes essayaient de connecter des composants de télécoms au lieu de se concentrer sur l’expérience de produit qu’elles voulaient réellement livrer. Cela m’a poussé à me diriger vers l’idée de communications programmables pour les développeurs. Nous voulions créer un produit qui permettrait à tout le monde de construire des produits sans avoir besoin d’être des experts en télécoms.

Avant Voximplant, j’ai co-fondé des services d’appel basés sur SIP, Flashphone et Zingaya, qui offraient des produits d’appel par clic précoces. La demande a prouvé une fois de plus que les équipes voulaient des communications programmables, mais l’outillage n’était pas encore là. Tout cela a conduit à la création de Voximplant en 2013.

Aujourd’hui, nous voyons un écart similaire, mais à une échelle plus grande. La voix IA entre dans les flux de production, les LLM continuent d’évoluer chaque mois, mais le réseau téléphonique mondial reste fragmenté. Aucun fournisseur unique ne peut résoudre tout le problème de bout en bout. C’est pourquoi Voximplant agit comme une couche d’orchestration, offrant aux développeurs un moyen rapide et rentable d’expérimenter avec les outils les plus avancés et de déployer des agents de voix sur des appels réels, sans se soucier de l’infrastructure de téléphonie ou de la complexité de diffusion.

Voximplant se positionne comme une couche d’orchestration plutôt que comme un fournisseur unique d’IA ou de téléphonie. Pourquoi avez-vous cru que l’orchestration était le niveau d’abstraction approprié à construire pour l’avenir de la voix IA ?

Il était important pour nous dès le début d’être mondial, et vous ne pouvez pas fournir une plate-forme de téléphonie mondiale sans faire une certaine orchestration de téléphonie. Les exigences techniques et les infrastructures varient d’un pays à l’autre, et nous offrons des numéros de téléphone dans plus de 190 pays, ce qui signifie que nous faisons beaucoup de médiation technique.

En outre, les normes de téléphonie comme SIP ont évolué en de nombreuses variantes à travers les fournisseurs. La connexion de différents opérateurs de télécoms et d’infrastructures de communication client nécessite des systèmes flexibles qui peuvent s’adapter rapidement. Les nouveaux réseaux de téléphone, comme WhatsApp, par exemple, continuent de stimuler les besoins ici – et cela se produit avant d’ajouter la logique de contrôle des communications qui exécute réellement la logique d’application unique de nos clients.

Du côté de l’IA, le marché est très intense et évolue rapidement. Le « meilleur » fournisseur d’aujourd’hui est probablement en deuxième ou troisième place la semaine prochaine. Notre approche est de prendre en charge autant de fournisseurs leaders que possible. Nous voulons que nos clients aient toujours un ensemble complet d’options de pointe à choisir. Ils peuvent choisir les bons fournisseurs d’IA pour leur application donnée – ou même les combiner. Notre plate-forme d’orchestration vise également à rendre plus simple le passage d’un fournisseur à un autre – tout en exposant leurs capacités complètes afin que les développeurs ne soient pas bloqués par un ensemble de fonctionnalités de plus bas niveau.

Beaucoup d’équipes sous-estiment à quel point il est difficile pour un agent de voix IA de passer et de gérer des appels téléphoniques réels. De votre point de vue, qu’est-ce qui rend la téléphonie réelle si complexe par rapport aux interactions numériques purement IA ?

Le réseau téléphonique est toujours très fragmenté et incohérent à travers les régions, ce qui le rend encore plus imprévisible. Dans certains pays, certains protocoles peuvent être restreints ou bloqués, les opérateurs connaissent des temps d’arrêt dans le cadre de leurs opérations normales, et les modèles d’acheminement des appels peuvent changer tout au long de la journée. Il y a également des régions où la téléphonie cloud peut être juridiquement compliquée.

Nous avons également vu des cas où l’infrastructure elle-même devient le goulet d’étranglement. Par exemple, un startup de soins de santé australien qui construisait un appelant IA pour vérifier l’état de patients âgés parlant cantonais a rencontré des problèmes de latence élevée avec les fournisseurs d’IA basés aux États-Unis (comme OpenAI ou ElevenLabs), et la disponibilité limitée de TTS de haute qualité en cantonais a rendu les conversations lentes et peu naturelles.

En plus de la fiabilité, il y a la couche de conformité. Les exigences varient considérablement d’un pays à l’autre et se chevauchent souvent avec des cadres tels que le HIPAA, le PCI DSS et le RGPD.

Les performances de la parole elles-mêmes ne sont pas universelles. Aucun moteur STT ou TTS ne fonctionne mieux dans tous les environnements. Les accents, les bruits de fond, les fluctuations de la qualité de l’appel ou même la dégradation du fournisseur peuvent causer des baisses soudaines de précision et d’expérience utilisateur.

Certains systèmes de voix IA s’appuient aujourd’hui sur plusieurs fournisseurs pour les LLM, la reconnaissance de la parole, la synthèse de la parole et l’acheminement. Pourquoi cette fragmentation est-elle inévitable, et pourquoi le remplacement d’un fournisseur d’IA ou de parole devrait-il être un changement de code rapide plutôt qu’un projet d’ingénierie majeur ?

Au début de la voix IA, il n’y avait pas d’option véritable de parole à parole, donc vous deviez assembler la reconnaissance de la parole, les LLM et la synthèse de la parole. Aujourd’hui, plusieurs fournisseurs de LLM intègrent la parole directement (souvent avec un certain niveau de prise en charge de l’interception), supprimant le besoin de construire une pipeline complète. Ces systèmes sont plus rapides et très interactifs, mais ont encore des limites en termes d’appel fonctionnel et offrent moins d’options pour améliorer la transcription et les voix. Nous attendons que les LLM basés sur la parole soient comparables aux modèles de texte bientôt. Même alors, les clients peuvent encore vouloir utiliser différents fournisseurs de parole pour leurs besoins spécifiques. Une certaine séparation de pipeline ajoute également des choix pour la redondance.

Remplacer les fournisseurs d’IA et de parole sur notre plate-forme n’est pas un effort d’ingénierie majeur, mais cela nécessite plus qu’un simple changement de code. Les fournisseurs de parole luttent constamment contre la commodification en introduisant des fonctionnalités uniques. Nous gardons nos connecteurs aussi cohérents que possible tout en exposant les capacités de chaque fournisseur, donc pour profiter de ces fonctionnalités uniques, changer de fournisseur signifie souvent modifier quelques lignes de code.

Comment les agents de voix IA commencent-ils à changer l’économie du support client, des ventes et d’autres opérations B2C par rapport aux modèles de centre d’appel traditionnels ?

Il est peut-être trop tôt pour parler d’un changement significatif dans l’économie du support client, mais cela vient certainement. Aujourd’hui, il y a des régions où les représentants du support client coûtent moins cher que les services alimentés par les LLM, mais ce modèle vient avec des défis bien connus autour de la scalabilité, de la fatigue, de la gestion et des opérations. Je suppose que l’économie changera considérablement à mesure que l’optimisation des LLM continuera d’améliorer, bien qu’il faudra encore du temps.

Quels signaux vous indiquent que la voix IA passe de l’expérimentation à l’infrastructure critique pour les entreprises ?

Le signal le plus fort ici est l’investissement dans l’infrastructure de la voix IA, qui croît rapidement. Il y a des moyens de suivre les appels ou les minutes activés par la voix IA à l’échelle mondiale, si ce n’est exactement, par estimation. Même si je ne peux suivre cela directement que pour Voximplant, nous voyons clairement une forte croissance.

Comment pensez-vous que les attentes des développeurs en matière de flexibilité et de contrôle ont changé à mesure que les modèles d’IA et les technologies vocales évoluent plus rapidement ?

C’est une question intéressante. Lorsqu’il s’agit de la vitesse de changement, l’IA est sans précédent par rapport à tout ce que nous avons vu dans l’histoire. Le contrôle et la flexibilité sont moins évidents, selon ce que nous entendons par ces termes. Lorsqu’il s’agit du contrôle, il y a de nombreux défis bien connus, et les surmonter n’est pas facile. La plupart des entreprises d’IA consacrent des efforts importants aux garde-fous de modèle, mais faire cela bien nécessite une expertise approfondie, et les différentes entreprises ont clairement des objectifs différents.

Quelles sont les erreurs que les entreprises commettent le plus souvent lorsqu’elles tentent de déployer des agents de voix IA directement sur des systèmes de téléphonie traditionnels ?

Les systèmes de téléphonie traditionnels ne sont pas directement compatibles avec les services de voix IA, ils nécessitent donc généralement une intégration supplémentaire, généralement via le protocole SIP ou les WebSockets. Les erreurs courantes incluent une gestion de basculement insuffisante, des problèmes de latence (qui peuvent être causés par divers facteurs) et des défis de scalabilité.

La téléphonie elle-même s’étend plutôt bien, en particulier avec VoIP. Les services de voix IA sont plus difficiles à mettre à l’échelle en raison des exigences matérielles nécessaires pour exécuter les LLM, et même de grands acteurs d’infrastructure comme Amazon peuvent connaître des contraintes de capacité lorsqu’il s’agit de matériel d’inférence.

En regardant vers l’avenir, quels sont les capacités que vous pensez que les plate-formes de voix IA doivent prendre en charge pour rester pertinentes à mesure que l’IA en temps réel devient plus autonome ?

Je pense que les plate-formes de voix IA doivent se concentrer sur les SLA, car cela peut encore être un problème à certains moments, et sur des outils supplémentaires pour les tests et l’observabilité.

Finalement, les plate-formes les plus avancées offriront tout ce qui est nécessaire, mais aujourd’hui, nous apprenons encore de nouvelles leçons chaque jour, dont beaucoup devraient devenir partie intégrante de la pile de base. Si vous travaillez avec de grandes entreprises ou dans des environnements réglementés, avoir une version sur site de votre produit peut être critique.

Lorsque vous réfléchissez à votre parcours, de l’infrastructure VoIP précoce à la direction d’une plate-forme de voix IA aujourd’hui, qu’est-ce qui vous a le plus surpris sur la façon dont l’industrie a évolué ?

De nombreuses choses m’ont surpris, mais l’une d’elles est que les changements dans l’infrastructure VoIP prennent des années pour se produire. Un bon exemple est que la téléphonie repose toujours sur des codecs audio à bande étroite (G.711, G.729), tandis que les gens sont déjà habitués à l’audio à large bande dans les services de communication en ligne tels que Zoom, Google Meet, WhatsApp, etc.

La plupart des modèles d’IA sont formés sur des données audio à large bande. Tous les téléphones mobiles modernes ont des codecs audio à large bande intégrés, mais il existe encore des défis d’interopérabilité importants au niveau de l’opérateur qui empêchent l’audio à large bande d’être utilisé dans les appels téléphoniques traditionnels. Ce n’est pas comme s’il n’y avait pas de progrès du tout, mais à mon avis, cela a été très modeste.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.