Entretiens

Isaiah N. Granet, Co-Fondateur et PDG de Bland – SĂ©rie d’entretiens

mm

Isaiah N. Granet, Co-Fondateur et PDG de Bland, est un fondateur de startup et un ingénieur dont le parcours combine une exécution technique avec une expérience entrepreneuriale précoce et un travail d’impact social de longue date. Avant de lancer sa société actuelle, il a participé aux Z Fellows et à Y Combinator, a acquis une expérience d’ingénierie chez Lantern et a fondé San Diego Chill, une organisation à but non lucratif qui a collecté plus de 2,5 millions de dollars pour aider les enfants ayant des déficiences du développement à accéder aux sports, ce qui lui a valu une reconnaissance nationale et continue aujourd’hui avec son implication au niveau du conseil d’administration.

Bland se concentre sur la construction d’infrastructures pour les appels téléphoniques alimentés par l’IA, permettant aux entreprises de déployer des agents vocaux capables de gérer le support client, les ventes et les flux de travail opérationnels à grande échelle. La plateforme est conçue pour remplacer ou compléter les centres d’appels traditionnels en offrant des interactions vocales programmables, une réactivité en temps réel et des intégrations approfondies avec les systèmes d’entreprise, se positionnant ainsi comme une couche fondamentale dans la façon dont les entreprises automatisent la communication avec les clients.

Vous avez fondé San Diego Chill alors que vous étiez adolescent pour créer un accès inclusif aux sports pour les enfants ayant des déficiences du développement, bien avant d’entrer dans Y Combinator ou de lancer Bland. Comment cette expérience précoce de construction d’une organisation dans le monde réel a-t-elle influencé votre approche de la fondation d’une société d’IA à voix première qui se situe maintenant entre les entreprises et leurs clients ?

Une grande partie de ma vie et de mon travail a porté sur la construction. Dès mon plus jeune âge, j’ai eu ce désir constant de donner vie aux choses. Une fois qu’une idée ou une conviction sur le monde surgit dans ma tête, il m’est impossible de l’ignorer. La construction de San Diego Chill m’a non seulement appris à créer et à diriger une organisation, mais m’a également enseigné l’impact que nos actions peuvent avoir sur les autres. Pouvoir donner en créant une organisation qui n’aurait sinon jamais existé est quelque chose de profondément gratifiant. Les leçons et les valeurs que j’ai apprises du Chill m’accompagnent chaque jour.

Après avoir suivi YC en 2023, qu’est-ce qui vous a convaincu que l’infrastructure vocale d’entreprise était toujours fondamentalement défectueuse au point de justifier la construction d’un système de bout en bout plutôt que de superposer des LLM sur des outils IVR legacy ?

Pensez à la dernière fois que vous avez utilisé un chatbot bancaire. Vous avez probablement attendu plus longtemps que vous ne le devriez, obtenu une réponse qui n’a pas abordé ce que vous avez réellement demandé, et fini par appeler de toute façon. Ensuite, une voix robotique vous a guidé à travers un menu d’options que vous ne vouliez pas, et appuyer sur 0 n’a rien fait d’utile.

Les banques ont dépensé des milliards pour rendre cette expérience possible, et les chatbots se classent toujours derniers en termes de satisfaction client à 29 %. Moins que les e-mails. Moins que les centres d’appels, dont tout le monde se plaint déjà.

C’est la dynamique qui prévaut depuis deux décennies. Les entreprises tentent de tenir les clients à l’écart de leur personnel. Les clients essaient de joindre un humain. Aucune des deux parties ne gagne.

Le problème n’est pas que les entreprises ne veulent pas résoudre ce problème. Elles ne peuvent simplement pas se permettre de le faire en embauchant suffisamment de personnel pour offrir une bonne expérience à grande échelle. Un centre d’appels qui gère un million d’appels par mois est une opération coûteuse et difficile, et la qualité est presque par définition incohérente.

Ce qui a changé, c’est que l’IA rend maintenant possible de résoudre les appels au lieu de les acheminer ou de les détourner. Pas d’arbres téléphoniques. Pas de musique d’attente. Un agent qui comprend ce que le client demande et le gère.

Mais cela ne fonctionne que si le système est conçu pour la voix en temps réel dès le départ. Lorsque vous superposez des LLM sur des outils IVR legacy ou que vous assemblez des services tiers, la latence s’installe et la fiabilité diminue. Les conversations se décomposent.

C’est pourquoi nous nous sommes concentrés sur la construction de l’infrastructure de bout en bout. La voix ne fonctionne que si elle semble immédiate et naturelle. Si ce n’est pas le cas, le client raccroche.

Bland a pris la mesure inhabituelle de construire et d’héberger sa propre pile TTS, d’inférence et de transcription en interne. Quels compromis avez-vous constatés en vous appuyant sur des API tierces qui vous ont finalement poussé à posséder la couche complète d’infrastructure vocale ?

Chaque couche que vous externalisez ajoute de la latence et du risque.

La plupart des plateformes d’IA vocale sont des revendeurs. Ils prennent une transcription tierce, ajoutent un modèle tiers, le routent à travers un TTS tiers, et vous remettent le résultat. Cela peut fonctionner dans une démo contrôlée. Mais cela fonctionne rarement lorsque le volume d’appels augmente ou que quelque chose se casse dans la chaîne.

Il y a également un problème de données. Les fournisseurs de modèles de base, OpenAI étant l’exemple le plus évident, ont utilisé des données client pour former des modèles. Ils disent que les licences d’entreprise sont différentes. Peut-être que c’est le cas. Mais cette incertitude suffit à rendre de nombreux services de sécurité et de conformité mal à l’aise.

Lorsque vous auto-hébergez l’ensemble de la pile — transcription, inférence, TTS, orchestration —, vous contrôlez chaque milliseconde et chaque mise à jour de modèle. Les données client restent à l’intérieur de l’écosystème client. Elles ne touchent pas une chaîne de formation tierce, ne passent pas par une infrastructure que vous ne pouvez pas auditer, et ne se déplacent pas à moins que le client ne le décide.

Vous pouvez offrir à chaque client entreprise une infrastructure dédiée afin qu’un pic d’une autre société n’affecte jamais leurs performances. Et lorsque quelque chose se casse, vous pouvez vraiment le réparer au lieu d’attendre qu’un fournisseur le fasse.

Pour les industries réglementées, certains clients ont besoin de la pile complète dans leur propre VPC ou sur site. C’est seulement possible si le fournisseur possède réellement ce qu’il déploie.

La mise en place traditionnelle de l’automatisation des centres de contact s’est concentrée fortement sur la déviation des appels de support simples. Pourquoi avez-vous décidé de donner la priorité aux interactions client complexes et à longue traîne au lieu d’optimiser l’automatisation basée sur le volume en premier ?

L’automatisation traditionnelle des centres de contact s’est largement concentrée sur la déviation des appels de support simples. Pourquoi avez-vous donné la priorité aux interactions complexes et à longue traîne au lieu de commencer par les cas d’utilisation à haut volume ?

Nous avons adopté l’approche inverse. Si nous pouvons gérer de manière fiable les appels les plus complexes et les plus sensibles, tout le reste devient simple. L’objectif n’est pas de créer des démos, mais de livrer une résolution complète d’appel à l’aide d’agents à l’échelle. Cela nécessite des systèmes à faible latence et à haute fiabilité capables de gérer les cas de bord qui définissent réellement les conversations client.

Vos agents sont de plus en plus intégrés dans les CRM et les bases de données opérationnelles pour résoudre les appels de bout en bout. Comment l’automatisation native vocale change-t-elle l’architecture des flux de travail d’entreprise par rapport aux copilotes basés sur le chat ?

Les systèmes legacy ne communiquent souvent pas entre eux. Les CRM, les outils de planification et les plateformes de facturation sont cloisonnés. Sans accès à ces systèmes, un agent vocal ne peut répondre qu’à des questions génériques et rien de plus.

Il ne peut pas consulter un compte, mettre à jour un enregistrement ou réserver un rendez-vous. Il collecte des informations et les transmet. Pendant ce temps, les représentants humains passent du temps sur des tâches qui ne devraient pas être traitées par une personne : enregistrer les notes d’appel, planifier manuellement les rendez-vous, extraire des rapports pour déterminer qui a besoin d’un suivi.

Une intégration profonde est ce qui rend la résolution de bout en bout possible. Sans cela, vous avez automatisé la salutation, et non l’appel.

La démo récente de la voix clone de Soulja Boy a mis en évidence la façon dont les agents conversationnels peuvent s’étendre au-delà des opérations internes pour offrir des expériences numériques orientées vers la marque. Pensez-vous que les agents vocaux d’entreprise évolueront en représentants numériques autonomes capables de gérer de manière continue les processus métier entiers initiés par la conversation ?

Absolument. Nous voyons un monde dans lequel chaque client a une relation personnelle avec ses entreprises favorites et essentielles. Ce qui est important, c’est que l’IA ne soit pas seulement « amusante » mais capable de résoudre réellement les problèmes les plus complexes.

La voix en temps réel introduit des défis de latence, d’hallucination et d’identité qui n’existent pas dans les déploiements d’IA basés sur le texte. Quels étaient les contraintes techniques les plus difficiles que vous avez rencontrées lors de la construction d’agents qui doivent répondre en moins d’une seconde tout en maintenant une précision conversationnelle ?

La latence. C’est là que la plupart des démos meurent.

Si un chatbot met trois secondes pour répondre, l’utilisateur attend. Si un agent vocal marque une pause gênante après que vous avez fini de parler, la conversation est déjà rompue. Les réponses doivent revenir en moins de 400 millisecondes. La plupart des plateformes ne peuvent pas y arriver car elles assemblent plusieurs services tiers, chacun ajoutant son propre délai.

Mais la latence n’est que partie du problème. Les appels clients réels sont désordonnés de manière que les démos ne capturent jamais. Les gens interrompent en pleine phrase. Le bruit de fond coupe. Les appelants changent de langue. Les demandes sont vagues. L’IA vocale qui tient dans la production gère les interruptions sans perdre le contexte, s’adapte lorsque les conversations sortent du script et le fait sans avoir l’air de tamponner.

Les clients ne comparent pas l’IA vocale à d’autres robots. Ils la comparent à parler à une personne. C’est la barre.

Il y a une surveillance croissante de la façon dont les systèmes d’IA à son humaine se présentent lors des interactions. Comment les entreprises devraient-elles réfléchir à la transparence lors du déploiement d’agents conversationnels qui peuvent être indiscernables du personnel humain ?

Nous croyons fermement en l’honnêteté et la transparence pour l’utilisateur final. Même si certaines réglementations sont oppressives et étouffantes, aucune forme de tromperie n’est acceptable. Nous travaillons avec les entreprises pour développer des expériences sans faille basées sur la confiance avec le client.

Lorsque les agents d’IA commencent à gérer des millions d’interactions client simultanées, quels défis opérationnels surgissent généralement en premier lorsqu’une société passe d’un déploiement pilote à un déploiement à grande échelle ?

Quelques choses sont importantes dans la pratique. La première est l’architecture de prompt modulaire. Les prompts monolithiques sont presque impossibles à déboguer. Lorsqu’un appel se passe mal, vous devez isoler exactement où et pourquoi cela s’est produit, et non vous retrouver face à un mur d’instructions en essayant de déterminer quelle ligne a causé le problème.

La visibilité complète est tout aussi importante. Les résumés d’appel ne suffisent pas. Vous avez besoin d’une visibilité en temps réel sur ce que l’agent fait à chaque point de chaque interaction.

Les garde-fous sont également essentiels, en particulier dans les industries réglementées. L’agent doit rester dans les limites de la politique. Ce n’est pas optionnel. Et s’il ne le fait pas, il doit y avoir un mécanisme de repli élégant.

Enfin, il y a la gestion des connaissances. L’agent a besoin d’accéder à des données propriétaires telles que les produits, les politiques et les procédures. La plateforme devrait également mettre en évidence les lacunes en connaissance de manière automatique à mesure qu’elles apparaissent dans les appels réels, et non des semaines plus tard après qu’un client se plaint.

En regardant vers l’avenir, croyez-vous que les agents vocaux d’entreprise resteront des outils spécifiques à une tâche ou évolueront-ils en agents d’IA généralisés capables de gérer de manière autonome l’ensemble des processus métier initiés par la conversation ?

Si seulement j’avais la réponse ! Je pense que les agents vocaux évolueront dans l’ensemble de la pile d’entreprise, mais il est peu probable de voir une entreprise entière gérée par un agent vocal. Cela étant dit, je crois que les humains pourront obtenir un service instantané, précis et plus complet des agents d’IA que ce qu’ils obtiennent aujourd’hui. En fait, nous croyons que plus d’appels téléphoniques se produiront lorsque cela se produira. Pas moins.

Merci pour cette grande entrevue, les lecteurs qui souhaitent en savoir plus peuvent visiter Bland.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.