Entretiens

Dani Cherkassky, PDG et co-fondateur de Kardome – Série d’entretiens

mm

Dani Cherkassky, PDG et co-fondateur de Kardome, apporte plus de deux décennies d’expérience dans l’acoustique, le traitement du signal et le développement d’algorithmes à la pointe de l’innovation de la technologie vocale. Avant de fonder Kardome, il a occupé le poste de directeur technique chez Silentium Ltd., où il a dirigé des collaborations de R&D avec des entreprises de premier plan et des institutions de recherche. Titulaire d’un doctorat en traitement de tableaux de microphones de l’Université Bar-Ilan, Cherkassky combine une expertise technique approfondie avec une mission claire — éliminer les frustrations de l’interaction vocale moderne en créant une technologie qui écoute vraiment les gens, et non le bruit qui les entoure.

Kardome est pionnier dans les solutions d’écoute spatiale alimentées par l’IA qui offrent des interactions vocales claires et personnalisées dans n’importe quel environnement — des voitures et des salles de conférence aux maisons intelligentes et aux espaces publics. Sa technologie de regroupement de discours propriétaire sépare les voix en fonction de leur emplacement, permettant aux appareils de comprendre chaque intervenant comme s’il était le seul à parler. Conçue pour être indépendante du matériel et prête pour le traitement sur le bord, la plate-forme de Kardome améliore la précision de la reconnaissance vocale, la sécurité et l’expérience utilisateur, alimentant la prochaine génération de communication homme-machine.

Qu’est-ce qui vous a inspiré, vous et le Dr Alon Slapak, à co-fonder Kardome ?

L’inspiration pour Kardome est née d’un mélange de fascination et de frustration. Avec nos antécédents dans le discours et l’audio, à la fois dans le monde universitaire et dans l’industrie, nous étions enthousiasmés par les progrès de la reconnaissance vocale, en particulier lorsque les réseaux de neurones profonds sont apparus.

Dans un laboratoire calme, la technologie était phénoménale. Mais dès que vous sortiez dans le monde réel, cette magie disparaissait. Nous avons observé qu’à l’intérieur d’une voiture bruyante, d’un bureau occupé ou d’une maison chaotique, les systèmes avancés et sophistiqués n’étaient guère meilleurs que la technologie des années 90. C’était la grande barrière à la progression.

La voix est le moyen le plus naturel d’interagir avec nos appareils, le véritable successeur de l’écran tactile. Mais pour que cela se produise, la technologie devait surmonter le chaos de la vie réelle. Nous avons décidé de faire de cela notre mission. Nous avons passé un an dans un garage, à lutter avec les équations de propagation des ondes sonores et à tester de nouvelles idées, jusqu’à ce que nous obtenions une avancée : la première démonstration de ce qui est maintenant connu sous le nom de technologie d’écoute spatiale de Kardome.

Au moment où nous savions que nous avions la clé. Nous avons fondé Kardome non pas pour créer un produit, mais pour lancer une révolution dans la façon dont les humains et les machines communiquent.

De nombreux assistants vocaux ont du mal et frustrant souvent les utilisateurs lorsque les voix se chevauchent ou que le bruit de fond prend le dessus. Pourquoi les méthodes conventionnelles fonctionnent-elles si mal dans ces conditions du monde réel ?

Les interfaces vocales conventionnelles fonctionnent mal dans le monde réel car leur logiciel repose sur une méthode trop simpliste pour comprendre le son. La plupart des systèmes utilisent plusieurs microphones pour déterminer la direction d’arrivée d’un son, une approche qui ne tient compte que de l’angle d’un son tout en ignorant d’autres informations spatiales cruciales en 3D. Cette méthode échoue immédiatement dans tout environnement réel — comme une voiture, un bureau ou un salon — car ces environnements sont remplis de réverbération, où les ondes sonores rebondissent sur chaque surface réfléchissante. Pour un système qui ne comprend que la direction, chaque une de ces réflexions est perçue comme un nouveau son provenant d’un emplacement différent.

Cela crée un effet désorientant, comme si l’appareil était dans un hall d’« miroirs acoustiques », où une seule voix semble provenir de centaines de directions simultanément. Incapable de distinguer les voix distinctes des intervenants du tourbillon de réflexions, le système ne peut pas déchiffrer correctement le paysage sonore. Cette limitation fondamentale est précisément pourquoi les technologies vocales actuelles ont une perception si mauvaise de l’audio dans des scénarios chaotiques de la vie réelle et échouent finalement à fonctionner de manière fiable.

Les technologies de Kardome traitent chaque personne comme si elle était la seule à parler dans la pièce. Quelle avancée technique rend cela possible, et comment diffère-t-elle des méthodes conventionnelles de reconnaissance vocale à distance ?

Notre avancée technique est une technologie propriétaire appelée Intelligence d’écoute spatiale, qui dépasse les méthodes conventionnelles qui ne détectent que la direction d’un son pour localiser avec précision sa position dans l’espace tridimensionnel. Elle fonctionne en analysant l’ensemble du modèle de réflexion qu’une voix crée dans une pièce, en traitant la manière complexe dont le son rebondit sur les surfaces comme une « empreinte acoustique » unique pour cette position spécifique. Notre IA déduit instantanément et passivement cette empreinte pour chaque source sonore, cartographiant ainsi l’environnement. Cette approche basée sur l’emplacement est fondamentalement différente des systèmes conventionnels à base de direction, qui sont facilement déconcertés par les réflexions mêmes que nous utilisons comme données précieuses. Alors qu’ils entendent un seul intervenant comme un groupe d’échos, notre technologie utilise l’ensemble du modèle de réflexion pour localiser la source réelle. Le résultat pratique est qu’un appareil équipé de Kardome peut se concentrer sur une personne dans un environnement bruyant et l’entendre comme si elle était la seule à parler dans une pièce calme. De plus, l’IA Cognition garantit que le système ne comprend pas seulement les mots, mais également qui les a prononcés et ce qu’ils signifient dans le contexte.

On dit que l’IA vocale connaît son « moment iPhone ». Qu’est-ce que cela signifie pour vous, et à quel point sommes-nous proches de l’adoption généralisée de la voix comme interface principale ?

Pour moi, le « moment iPhone » signifie que la voix est enfin prête à devenir le moyen par défaut d’interagir avec les appareils de calcul.

Je vois les fabricants se précipiter pour intégrer les technologies d’IA vocale à l’échelle de l’ensemble de leurs gammes de produits. Les voitures deviennent des interfaces vocales premières pour des raisons de sécurité. Les maisons intelligentes ont besoin d’interfaces utilisateur vocales car il n’est pas réalisable de mettre des écrans tactile partout. Les appareils électroniques traditionnels ajoutent également des capacités vocales car cela peut être plus rapide que de naviguer dans les menus. Alors que de nombreuses technologies impulsent l’adoption de la voix, la véritable révolution sera dictée par la robotique. Lorsque les robots seront intégrés dans nos foyers et nos lieux de travail, la voix émergera comme la seule interface vraiment efficace et naturelle pour l’interaction.

Pour que cette coexistence soit fluide, les robots doivent nous comprendre à un niveau humain. Ils doivent comprendre le contexte et la nuance du discours naturel, et non seulement des mots clés. Ils nécessitent une conscience spatiale si précise qu’elle semble magique — sachant instinctivement que vous êtes celui qui leur parle, même dans une pièce bruyante. De manière critique, cette intelligence doit fonctionner sur le bord pour une communication instantanée, privée et fiable.

Ceci n’est pas une amélioration incrémentale ; c’est un changement fondamental dans la façon dont les humains et les machines interagiront. Nous construisons la technologie pour conduire cette redéfinition. Je dirais que nous sommes à environ 24 mois de l’inflexion où la voix deviendra l’interface attendue plutôt qu’une fonctionnalité agréable à avoir.

En termes pratiques, comment voyez-vous l’écoute spatiale et l’IA de cognition transformer les appareils du quotidien — des voitures et des maisons intelligentes aux accessoires et aux espaces publics ?

La transformation consiste à permettre une interaction naturelle où que vous soyez, sans avoir à adapter votre comportement pour accommoder la technologie. Dans les voitures, cela signifie un contrôle vraiment mains libres qui fonctionne pendant la conduite à des vitesses autoroutières avec de la musique et des passagers qui parlent. Les maisons intelligentes deviennent vraiment intelligentes lorsqu’elles peuvent comprendre qui parle et d’où ils viennent, en traitant des demandes simultanées sans confusion.

L’insight clé est que l’IA d’écoute spatiale n’améliore pas seulement la reconnaissance vocale — elle permet de nouveaux paradigmes d’interaction. Lorsque les appareils peuvent comprendre la scène acoustique entière, ils peuvent participer au flux naturel de la communication humaine, plutôt que de s’appuyer sur des contraintes artificielles. Les accessoires deviennent beaucoup plus utiles lorsqu’ils peuvent isoler votre voix des conversations environnantes, et les espaces publics peuvent offrir une assistance vocale personnalisée mais privée. Comme mentionné pour la robotique, cela constitue un changement fondamental dans la façon dont les humains et les machines interagiront avec les robots qui seront intégrés dans nos vies.

La confidentialité est une préoccupation croissante avec les appareils qui écoutent en permanence. Comment Kardome équilibre-t-elle la demande de traitement sur l’appareil avec le besoin de performances et de précision ?

La grande majorité des solutions d’IA vocale d’aujourd’hui fonctionnent sur un modèle hybride, composé d’une composante (sur le bord) et d’une composante basée sur le cloud. Alors que le traitement sur le bord ne pose aucune préoccupation en matière de confidentialité puisque les données ne quittent jamais l’appareil de l’utilisateur, le traitement sur le cloud présente un défi important pour la confidentialité des données.

Kardome répond à ce défi en élargissant considérablement les capacités de la composante sur le bord. En traitant davantage de données localement et en réduisant la dépendance au cloud, Kardome garantit que les données vocales sensibles ne quittent jamais l’appareil, offrant ainsi une protection de la confidentialité supérieure à celle des autres systèmes sur le marché.

Une préoccupation majeure avec les appareils « qui écoutent en permanence » n’est pas le microphone qui capte l’audio, mais plutôt le risque que cet audio soit téléchargé sur le cloud pour analyse. Dans la pratique, le coût prohibitif d’un traitement cloud continu signifie que la plupart des systèmes commerciaux l’évitent, mais cela se fait au prix d’une qualité et d’une réactivité moindres de l’interface utilisateur vocale.

Kardome résout cet échange en apportant des modèles de langage puissants et toujours actifs sur l’appareil lui-même. Avec notre technologie, la scène acoustique, le discours naturel et le contexte sont tous analysés en temps réel directement sur l’appareil. Aucune donnée vocale n’est jamais téléchargée ou enregistrée. Cette approche innovante permet à Kardome de proposer à la fois une confidentialité des données robuste et une interface utilisateur vocale hautement efficace, éliminant ainsi le compromis auquel les utilisateurs sont actuellement confrontés.

En regardant l’industrie dans son ensemble, quels sont les plus grands obstacles que l’IA vocale doit encore surmonter avant de devenir l’interface principale dans les produits électroniques grand public ?

Le plus grand obstacle est que l’IA vocale ne communique pas encore comme les humains. Jusqu’à ce que l’IA vocale puisse entendre et comprendre comme les humains, avec une pleine conscience du contexte et la capacité de comprendre le flux conversationnel, elle ne deviendra pas l’interface principale que les gens veulent qu’elle soit. Un obstacle technique important à ce stade est que la majorité des technologies d’IA vocale sont basées sur le cloud. Cela empêche fondamentalement l’écoute continue et bloque ainsi la compréhension du flux conversationnel.

La percée viendra lorsque les systèmes vocaux pourront vraiment comprendre le contexte conversationnel et répondre avec la même conscience intuitive que les humains. C’est alors que la voix deviendra l’interface principale dans tous les produits électroniques grand public.

Comment pensez-vous que la relation des consommateurs avec les assistants vocaux évoluera une fois que la précision et la fiabilité dans les environnements bruyants seront résolues ?

Une fois que la fiabilité et la conversation naturelle sont résolues, les assistants vocaux passeront de fonctionnalités de nouveauté à des interfaces essentielles dont les gens dépendent tout au long de leur journée. Lorsque les gens savent que l’IA vocale les comprendra correctement la première fois, même dans des environnements difficiles, ils cesseront de s’adapter à la technologie et commenceront à l’utiliser instinctivement avec un langage naturel et des conversations contextuelles.

Le futur de l’interaction vocale sera prédictif et proactif. Imaginez votre appareil comprenant non seulement vos mots, mais également votre ton, vos indices émotionnels et les sous-entendus conversationnels. Les systèmes actuels ont du mal avec le rythme naturel de la conversation et ne peuvent pas gérer les interruptions, les changements de tour et la compréhension contextuelle. Les humains s’adaptent lorsqu’ils sont interrompus ; l’IA vocale est souvent déconcertée. Pour les fabricants d’équipement d’origine, le défi est d’intégrer une IA vocale qui puisse livrer cette interface future sans la complexité et les exigences matérielles des solutions d’aujourd’hui.

Enfin, où voyez-vous Kardome et l’écosystème de l’IA vocale dans cinq ans, et quels seront les jalons qui définiront si nous sommes vraiment entrés dans l’ère de l’informatique vocale première ?

Dans cinq ans, l’IA vocale sera aussi omniprésente que les écrans tactiles et les claviers sont aujourd’hui, et elle sera attendue dans pratiquement tous les appareils de calcul. Kardome sera le système d’exploitation qui permettra aux utilisateurs de contrôler leurs appareils par la voix, permettant une interaction naturelle avec n’importe quel appareil dans n’importe quel environnement, des robots aux lunettes intelligentes et aux voitures.

Les jalons déterminants seront de nature comportementale plutôt que technologique. Nous saurons que nous avons atteint l’informatique vocale première lorsque les gens cesseront de penser aux commandes vocales et commenceront à avoir des conversations naturelles avec leur environnement, lorsque les environnements multi-utilisateurs fonctionneront sans heurt, et lorsque les enfants grandiront en s’attendant à parler à n’importe quel appareil naturellement. La mesure ultime ne sera pas de savoir à quel point notre technologie deviendra sophistiquée, mais à quel point les humains interagiront naturellement avec le monde numérique.

Je vous remercie pour cette grande interview. Les lecteurs qui souhaitent en savoir plus peuvent visiter Kardome.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.