Entretiens

Nick Lahoika, Co-fondateur et PDG de Vocal Image – SĂ©rie d’entretiens

mm

Nick Lahoika est le co-fondateur et PDG de Vocal Image, une startup de coaching qui aide les gens à développer des compétences sociales. Un entrepreneur en série avec plus de 10 ans d’expérience dans l’informatique et le développement commercial, Nick a réussi à sortir de deux entreprises avant de créer Vocal Image. Le parcours de Nick est profondément personnel ; il a été victime d’intimidation pour sa diction peu claire à l’école, ce qui l’a inspiré à aider les gens à communiquer mieux.

Après avoir été contraint de fuir son pays d’origine à la suite de la révolution de 2020, Nick est arrivé en Estonie avec une maîtrise minimale de l’anglais et a utilisé son propre application pour former sa voix, obtenant son premier cycle de financement en seulement six mois. Le vainqueur du défi AWS AI et du programme de démarrage européen d’IA Meta x Hugging Face, Vocal Image a récemment levé un cycle de financement de 3,6 millions de dollars mené par Educapital (France) et a atteint plus de 14 millions de dollars de chiffre d’affaires annuel.

Vous avez fondé Vocal Image en 2021. Qu’est-ce qui vous a inspiré à créer un coach de compétences sociales basé sur l’IA, et quel problème essayiez-vous de résoudre au début ?

L’anxiété de parole a fait partie de ma vie pendant longtemps. J’ai été victime d’intimidation à l’école pour ma diction peu claire, et cette expérience m’a vraiment marqué. Plus tard, en tant qu’étudiant en informatique stagiaire, j’ai dû présenter à des clients de haut niveau, et la même peur est revenue.

Ensuite, en 2021, après la révolution avortée en Biélorussie, j’ai dû me rendre en Europe du jour au lendemain. Soudain, je devais présenter à des investisseurs en anglais, une langue que je parlais à peine. C’était terrifiant, mais il n’y avait pas d’autre choix. J’ai passé des heures chaque jour à pratiquer ma prononciation en utilisant une version très précoce de ce qui allait devenir Vocal Image. Il m’a même fallu des semaines pour apprendre à prononcer correctement le son « V » pour pouvoir dire le nom de ma propre entreprise.

Nous avons commencé avec une application qui était essentiellement comme YouTube, mais avec un enregistreur de voix intégré et une fonction de commentaire. Les utilisateurs pouvaient regarder des vidéos, pratiquer la répétition des lignes, puis écouter leurs propres enregistrements. En regardant comment les gens l’utilisaient, nous avons rapidement réalisé qu’ils avaient désespérément besoin de commentaires. Nos premiers utilisateurs nous ont montré que la simple consommation de contenu n’était pas suffisante pour obtenir de véritables résultats ; ils avaient besoin de commentaires immédiats. Nous avons essayé de fournir des commentaires par le biais de coaches humains, mais cette approche n’était pas évolutives, ce qui nous a amenés à utiliser l’IA.

C’était mon insight personnel que c’était plus facile pour moi de pratiquer mes premières présentations avec notre plate-forme plutôt qu’avec une personne. Il n’y avait pas de pression, pas de jugement. Cette liberté a tout changé pour moi. Une fois que j’ai résolu mon propre problème, j’ai réalisé combien de gens sont confrontés au même problème. Plus de 200 millions de personnes souffrent d’anxiété de parole.

Avant Vocal Image, vous avez dirigé un studio de danse. Comment votre expérience dans le mouvement et l’expression a-t-elle influencé votre approche de la communication et de la confiance vocale ?

Je n’étais pas danseur ; j’ai en fait construit une entreprise centrée sur l’expression de soi et les gens. C’est à travers ce travail que j’ai réalisé que vous pouvez dire beaucoup de choses sur la confiance intérieure d’une personne en la regardant danser.

Le mouvement joue également un rôle énorme dans la façon dont vous vous exprimez. La façon dont vous bougez, votre posture, votre respiration, tout cela fait partie de la communication. C’est là que le coaching par IA devient puissant, car il peut aider les gens à s’entraîner dans tous ces domaines en un seul endroit.

Avant, les entreprises devaient embaucher plusieurs coaches différents. Un pour la parole en public, un pour le langage corporel, un pour la confiance. Maintenant, avec l’IA, tout est connecté. Vous pouvez construire l’image complète de la communication, et non pas seulement un morceau de celle-ci.

Contrairement à la plupart des outils de communication basés sur l’IA, vous avez décidé de ne pas utiliser ChatGPT comme base pour votre coach. Qu’est-ce qui a motivé cette décision ?

L’hype autour de ChatGPT est devenu un grand tournant pour nous. Lorsqu’il est devenu mainstream, il a créé un énorme pic de confiance dans l’IA, et nous avons pu exploiter cela pour faire en sorte que les gens croient en notre propre technologie.

Mais voici la chose : nous n’avons pas voulu l’utiliser comme base. Notre objectif dès le début était d’utiliser notre modèle unique pour évaluer les voix et les modèles de parole des gens. Nous utilisons des modèles de langage grand comme Gemini, Claude et ChatGPT, ainsi que des bases de connaissances, des conseils et des astuces de la littérature sur la communication dans nos modèles actuels, mais ils ne constituent pas le fondement de notre mécanisme de commentaires. Le véritable fondement de nos commentaires est l’entrée humaine.

La peur que le coaching par IA se sente robotique est réelle. Pour contrer cela, nous avons créé une communauté au sein de Vocal Image où les utilisateurs peuvent se connecter instantanément, partager l’objectif commun d’améliorer leur communication et se soutenir mutuellement dans leur parcours. Et cette communauté grandit et améliore constamment notre IA.

Pouvez-vous élaborer sur la façon dont la formation de votre IA exclusivement sur des voix humaines diffère des approches traditionnelles basées sur les LLM en termes de résultats et d’authenticité ?

Nous utilisons des modèles de langage grand comme partie du processus d’évaluation et de contexte, mais le véritable fondement de notre système est les données qui se trouvent derrière. Notre modèle de base a été formé sur notre propre communauté, composée de personnes qui se sont réunies spécifiquement pour améliorer leurs compétences en communication.

L’IA n’est que aussi bonne que les humains qu’elle apprend. Notre ensemble de données propriétaire contient maintenant plus d’un million de voix humaines uniques, chacune portant le ton, le rythme et l’émotion, qui représentent l’essence réelle de la communication.

Votre ensemble de données comprend plus d’un million de voix humaines. Quels défis avez-vous rencontrés pour curer et étiqueter un tel corpus unique ?

Vous ne pouvez pas vous fier également à chaque point de données. Certains utilisateurs notent soigneusement, d’autres cliquent simplement. Nous devions concevoir un système qui distingue les commentaires réfléchis du bruit. Au fil du temps, nous avons appris à donner plus de poids aux utilisateurs qui participent de manière cohérente et ont un jugement fiable, tout en filtrant les entrées aléatoires.

La partie la plus difficile était opérationnelle, qui consistait à construire un écosystème de notation qui récompense la qualité plutôt que la quantité. C’est là que notre communauté est devenue inestimable. Ce ne sont pas des utilisateurs internet aléatoires, ce sont des gens qui essayent réellement d’améliorer leurs compétences sociales et d’aider les autres à faire de même. Toutes les notations sont anonymes, ce qui aide à maintenir les commentaires impartiaux et authentiques.

Le mécanisme d’évaluation « Tinder-like » basé sur la communauté est fascinant — comment cette boucle de commentaires façonne-t-elle l’apprentissage continu de votre IA ?

Chaque notation, dans chaque langue, devient un petit morceau d’intelligence qui affine notre modèle. C’est une boucle de commentaires vivante. Plus les gens s’entraînent et évaluent, plus le système devient intelligent pour reconnaître les nuances de la parole et de l’émotion, en apprenant comment les gens perçoivent réellement la confiance, la chaleur ou l’autorité à travers les cultures.

Quelles ont été les leçons clés apprises lors du développement d’un modèle d’IA centré sur les compétences sociales plutôt que sur les compétences techniques ?

Le défi principal était la mesure. Il n’y a pas de métrique universelle pour « digne de confiance » ou « charismatique ». Nous devions en créer une.

C’est là que la loi des grands nombres est intervenue. Si 100 000 personnes estiment qu’une certaine voix sonne confiante ou empathique, vous pouvez commencer à faire confiance à cette perception collective. Au fil du temps, nous avons enseigné à notre IA à prédire des qualités subjectives, des choses qui ne peuvent pas être notées avec un simple droit ou faux. C’était la percée : apprendre à quantifier ce qui avait toujours été considéré comme intangible.

Avec 14 millions de dollars de chiffre d’affaires annuel et un nouveau cycle de financement de 3,6 millions de dollars, quels sont vos principaux objectifs pour cette prochaine étape de croissance — que ce soit l’amélioration du modèle d’IA, l’expansion de la base d’utilisateurs ou l’approfondissement de l’expérience communautaire ?

Notre mission a toujours été centrée sur l’humain. Nous aidons les gens à communiquer avec plus de confiance et d’authenticité.

La prochaine phase consiste à amplifier cet impact à l’échelle mondiale. Nous nous expandons dans de nouvelles langues et de nouvelles régions géographiques, et nous développons de nouveaux modules de compétences sociales tels que la négociation, l’écoute active et l’éloquence.

Beaucoup d’utilisateurs disent que les coaches par IA se sentent robotiques ou impersonnels. Comment vous assurez-vous que Vocal Image offre des commentaires émotionnellement résonants et conscients du contexte ?

Nous nous concentrons sur l’hyper-personnalisation. Dès la première interaction, nous apprenons qui vous êtes, y compris votre accent, votre âge, votre contexte professionnel et vos modèles de parole. Au fil du temps, nous avons une mémoire, nous rappelons comment vous avez amélioré, où vous avez des difficultés et quels commentaires résonnent le plus.

Cela nous permet à l’IA de s’adapter dynamiquement. L’expérience se sent personnelle parce qu’elle l’est. Elle est façonnée entièrement par vos données et votre parcours, et non par un script générique.

En regardant vers l’avenir, comment voyez-vous l’évolution du coaching de compétences sociales par IA à mesure que l’IA générative et émotionnelle continue de mûrir ?

Le développement humain a toujours été un mélange de nature et de culture. La science nous dit que le leadership est approximativement à moitié inné, à moitié appris. La partie apprise utilisée à être réservée aux cadres qui pouvaient se permettre des coaches coûteux. Pendant longtemps, les entreprises ont dû débourser entre 7 000 et 25 000 dollars par an pour former un seul dirigeant. L’IA change cela.

De plus, l’interaction avec des formateurs humains nécessiterait de conserver de nombreux coaches séparés, alors qu’un coach par IA peut remplacer tous ceux-ci.

Actuellement, nous utilisons une série de modèles différents pour analyser différents aspects de la communication, mais l’avenir est un système unifié qui évalue et guide de manière holistique. Cette technologie démocratisera la croissance. Vous n’aurez pas besoin d’être né charismatique ou d’avoir un grand budget d’entreprise pour maîtriser la communication. Vous aurez simplement besoin de curiosité et d’accès, et créer l’environnement pour que cela prospère est ce qui me motive chaque jour.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter Vocal Image.

Antoine est un leader visionnaire et associé fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de vanter le potentiel des technologies perturbatrices et de l'AGI.

En tant que futuriste, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.