Entretiens

Nick Lahoika, Co-Fondateur et PDG de Vocal Image – Série d’entretiens

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nick Lahoika est le co-fondateur et PDG de Vocal Image, une startup de coaching qui aide les gens à développer des compétences sociales. Un entrepreneur en série avec plus de 10 ans d’expérience dans l’informatique et le développement commercial, Nick a réussi à quitter deux entreprises avant de créer Vocal Image. Le parcours de Nick est profondément personnel ; il a été victime d’intimidation pour sa diction peu claire à l’école, ce qui l’a inspiré dans sa mission d’aider les gens à communiquer mieux.

Après avoir été contraint de fuir son pays natal à la suite de la révolution de 2020, Nick est arrivé en Estonie avec une maîtrise minimale de l’anglais et a utilisé son propre application pour former sa voix, obtenant son premier cycle de financement en seulement six mois. Le gagnant du défi AWS AI et du programme de démarrage européen d’IA Meta x Hugging Face, Vocal Image a récemment levé un cycle de financement de 3,6 millions de dollars mené par Educapital (France) et a atteint plus de 14 millions de dollars de chiffre d’affaires annuel récurrent.

Vous avez fondé Vocal Image en 2021. Qu’est-ce qui vous a inspiré à créer un coach d’IA pour les compétences sociales, et quel problème essayiez-vous de résoudre au début?

L’anxiété de parole a fait partie de ma vie pendant longtemps. J’ai été victime d’intimidation à l’école pour ma diction peu claire, et cette expérience m’a vraiment marqué. Plus tard, en tant qu’étudiant en informatique stagiaire, j’ai dû présenter à des clients de haut niveau, et la même peur est revenue.

En 2021, après la révolution avortée en Biélorussie, j’ai dû déménager en Europe du jour au lendemain. Soudain, je devais présenter à des investisseurs en anglais, une langue que je parlais à peine. C’était terrifiant, mais il n’y avait pas d’autre choix. J’ai passé des heures chaque jour à pratiquer ma prononciation en utilisant une version très précoce de ce qui allait devenir Vocal Image. Il m’a même fallu des semaines pour apprendre à prononcer correctement le son « V » pour pouvoir dire le nom de ma propre entreprise.

Nous avons commencé avec une application qui était essentiellement comme YouTube, mais avec un enregistreur de voix intégré et une fonction de commentaire. Les utilisateurs pouvaient regarder des vidéos, répéter les lignes et écouter leurs propres enregistrements. En regardant comment les gens l’utilisaient, nous avons rapidement réalisé qu’ils avaient désespérément besoin de commentaires. Nos utilisateurs précoces nous ont montré que la simple consommation de contenu n’était pas suffisante pour obtenir de véritables résultats ; ils avaient besoin d’un retour d’information immédiat. Nous avons essayé de fournir des commentaires par le biais de coachs humains, mais cette approche n’était pas évolutives, ce qui nous a amenés à utiliser l’IA.

C’était mon insight personnel que c’était plus facile pour moi de pratiquer mes premières présentations avec notre plateforme plutôt qu’avec une personne. Il n’y avait pas de pression, pas de jugement. Cette liberté a tout changé pour moi. Une fois que j’ai résolu mon propre problème, j’ai réalisé combien de gens sont confrontés au même problème. Plus de 200 millions de personnes souffrent d’anxiété de parole.

Auparavant, vous dirigez un studio de danse. Comment votre expérience dans le mouvement et l’expression a-t-elle influencé votre approche de la communication et de la confiance vocale?

Je n’étais pas danseur ; j’ai en fait construit une entreprise centrée sur l’expression de soi et les gens. C’est à travers ce travail que j’ai réalisé que l’on pouvait dire beaucoup de choses sur la confiance intérieure d’une personne en la regardant danser.

Le mouvement joue également un rôle énorme dans la façon dont vous vous exprimez. La façon dont vous bougez, votre posture, votre respiration, tout cela fait partie de la communication. C’est là que le coaching par IA devient puissant, car il peut aider les gens à s’entraîner dans tous ces domaines en un seul endroit.

Auparavant, les entreprises devaient embaucher plusieurs coachs différents. Un pour la parole en public, un pour le langage corporel, un pour la confiance. Maintenant, avec l’IA, tout est connecté. Vous pouvez construire l’image complète de la communication, et pas seulement un morceau de celle-ci.

Contrairement à la plupart des outils de communication par IA, vous avez décidé de ne pas utiliser ChatGPT comme base pour votre coach. Qu’est-ce qui a motivé cette décision?

L’engouement autour de ChatGPT est devenu un grand tournant pour nous. Lorsqu’il est devenu mainstream, il a créé un énorme pic de confiance en IA, et nous avons pu exploiter cela pour faire croire les gens à notre propre technologie.

Mais voici le problème : nous n’avons définitivement pas voulu l’utiliser comme base. Notre objectif dès le départ était d’utiliser notre modèle unique pour évaluer les voix et les modèles de parole des gens. Nous utilisons des grands modèles de langage comme Gemini, Claude et ChatGPT ainsi que des bases de connaissances, des conseils et des astuces de la littérature sur la communication dans nos modèles actuels, mais ils ne constituent pas le cœur de notre mécanisme de commentaires. La base réelle de nos commentaires est l’entrée humaine.

La peur que le coaching par IA paraisse robotique est réelle. Pour contrer cela, nous avons créé une communauté au sein de Vocal Image où les utilisateurs peuvent se connecter instantanément, partager l’objectif commun d’améliorer leur communication et soutenir le parcours les uns des autres. Et cette communauté grandit et améliore constamment notre IA.

Pouvez-vous expliquer comment la formation de votre IA exclusivement sur des voix humaines diffère des approches traditionnelles basées sur les LLM en termes de résultats et d’authenticité?

Nous utilisons des grands modèles de langage comme partie du processus d’évaluation et de contexte, mais la base réelle de notre système est les données qui se trouvent derrière. Notre modèle de base a été formé sur notre propre communauté, composée de personnes qui se sont réunies spécifiquement pour améliorer leurs compétences en communication.

L’IA n’est que aussi bonne que les humains qu’elle apprend. Notre ensemble de données propriétaires comprend maintenant plus d’un million de voix humaines uniques, chacune portant le ton, le rythme et l’émotion, qui représentent tous l’essence réelle de la communication.

Votre ensemble de données comprend plus d’un million de voix humaines. Quels défis avez-vous rencontrés pour curer et étiqueter un tel corpus unique?

Vous ne pouvez pas vous fier également à chaque point de données. Certains utilisateurs notent soigneusement, d’autres cliquent simplement. Nous devions concevoir un système qui distingue les commentaires réfléchis du bruit. Au fil du temps, nous avons appris à accorder plus de poids aux utilisateurs ayant une participation cohérente et un jugement fiable, tout en filtrant les entrées aléatoires.

La partie la plus difficile était opérationnelle, qui consistait à créer un écosystème de notation qui récompense la qualité plutôt que la quantité. C’est là que notre communauté est devenue inestimable. Ce ne sont pas des utilisateurs Internet aléatoires, ce sont des personnes qui tentent réellement d’améliorer leurs compétences sociales et d’aider les autres à faire de même. Toutes les notations sont anonymes, ce qui aide à maintenir les commentaires impartiaux et authentiques.

Le mécanisme d’évaluation « Tinder-like » basé sur la communauté est fascinant — comment cette boucle de commentaires façonne-t-elle l’apprentissage continu de votre IA?

Chaque notation, dans chaque langue, devient un petit morceau d’intelligence qui affine notre modèle. C’est une boucle de commentaires vivante. Plus les gens s’entraînent et évaluent, plus le système devient intelligent pour reconnaître les nuances du discours et de l’émotion, en apprenant comment les gens perçoivent réellement la confiance, la chaleur ou l’autorité à travers les cultures.

Quelles étaient les principales leçons tirées lors du développement d’un modèle d’IA centré sur les compétences sociales plutôt que sur les compétences techniques?

Le principal défi était la mesure. Il n’y a pas de mesure universelle pour « digne de confiance » ou « charismatique ». Nous devions en créer une.

C’est là que la Loi des grands nombres est intervenue. Si 100 000 personnes estiment qu’une certaine voix sonne confiante ou empathique, vous pouvez commencer à faire confiance à cette perception collective. Au fil du temps, nous avons enseigné à notre IA à prédire des qualités subjectives, des choses qui ne peuvent pas être notées avec un simple bien ou mal. C’était la percée : apprendre à quantifier ce qui avait toujours été considéré comme intangible.

Avec 14 millions de dollars de chiffre d’affaires annuel récurrent et un cycle de financement de 3,6 millions de dollars frais, quels sont vos principaux objectifs pour cette prochaine étape de croissance — que ce soit l’amélioration du modèle d’IA, l’expansion de la base d’utilisateurs ou l’approfondissement de l’expérience communautaire?

Notre mission a toujours été centrée sur l’humain. Nous aidons les gens à communiquer avec plus de confiance et d’authenticité.

La prochaine phase consiste à élargir cet impact à l’échelle mondiale. Nous nous étendons dans de nouvelles langues et géographies, et développons de nouveaux modules de compétences sociales tels que la négociation, l’écoute active et l’éloquence.

De nombreux utilisateurs disent que les coachs d’IA semblent robotiques ou impersonnels. Comment vous assurez-vous que Vocal Image offre des commentaires émotionnellement résonants et sensibles au contexte?

Nous nous concentrons sur l’hyper-personnalisation. Dès la première interaction, nous apprenons qui vous êtes, y compris votre accent, votre âge, votre contexte professionnel et vos modèles de parole. Au fil du temps, nous avons une mémoire, nous rappelant comment vous avez progressé, où vous avez des difficultés et quels commentaires résonnent le plus.

Cela permet à l’IA de s’adapter dynamiquement. L’expérience est personnelle car elle l’est. Elle est façonnée entièrement par vos données et votre parcours, et non par un script générique.

En regardant vers l’avenir, comment voyez-vous l’évolution du coaching d’IA pour les compétences sociales à mesure que l’IA générative et émotionnelle continue de mûrir?

Le développement humain a toujours été un mélange de nature et de culture. La science nous dit que le leadership est à peu près à moitié inné, à moitié appris. La partie apprise utilisée pour être réservée aux cadres qui pouvaient se permettre des coachs coûteux. Pendant longtemps, les entreprises ont dû débourser entre 7 000 et 25 000 dollars par an pour former un seul dirigeant. L’IA change cela.

De plus, l’interaction avec des formateurs humains nécessiterait d’avoir plusieurs coachs différents, alors qu’un coach d’IA peut les remplacer.

Actuellement, nous utilisons une série de modèles différents pour analyser différents aspects de la communication, mais l’avenir est un système unifié qui évalue et guide de manière holistique. Cette technologie démocratisera la croissance. Vous n’aurez pas besoin d’être né charismatique ou d’avoir un grand budget d’entreprise pour maîtriser la communication. Vous n’aurez besoin que de curiosité et d’accès, et créer l’environnement pour que cela prospère est ce qui me pousse chaque jour.

Je vous remercie pour cette grande entrevue, les lecteurs qui souhaitent en savoir plus devraient visiter Vocal Image.

Unite.AI

Nick Lahoika, Co-Fondateur et PDG de Vocal Image – Série d’entretiens

You may like