Connect with us

aiOla présente QUASAR pour repenser la façon dont la reconnaissance vocale fonctionne en production

Intelligence artificielle

aiOla présente QUASAR pour repenser la façon dont la reconnaissance vocale fonctionne en production

mm

aiOla a présenté QUASAR, une plateforme conçue pour résoudre l’un des problèmes les plus persistants dans l’IA vocale d’entreprise : les performances de reconnaissance vocale incohérentes dans des conditions réelles. Plutôt que de verrouiller les clients dans un seul fournisseur de reconnaissance vocale automatique (ASR), QUASAR fonctionne comme une passerelle intelligente qui achemine dynamiquement chaque interaction audio vers le moteur ASR le plus susceptible de fonctionner le mieux à ce moment-là.

Ce changement est important car la parole devient une entrée essentielle pour les flux de travail pilotés par l’IA à travers les centres de contact, la conformité, l’analyse, la recherche et de plus en plus, les agents autonomes IA. Alors que les scores de référence guident souvent le choix de l’ASR, les environnements de production sont dominés par les accents, les bruits de fond, la terminologie spécifique au domaine et la qualité fluctuante du réseau – des facteurs qui peuvent dramatiquement changer la précision de reconnaissance d’une interaction à l’autre.

Pourquoi l’ASR « taille unique » ne fonctionne pas à grande échelle

La plupart des entreprises déployant aujourd’hui l’ASR comme une décision d’infrastructure statique. Un seul fournisseur est sélectionné sur la base de benchmarks agrégés, puis intégré profondément dans les flux de travail. Dans la pratique, cela crée des angles morts. Un moteur qui excelle dans les discours clairs et lus peut avoir du mal avec les locuteurs accentués ou le vocabulaire spécifique à l’industrie. Un autre peut gérer bien les audio bruyants mais manquer les noms propres ou les séquences numériques critiques pour la conformité et la facturation.

Changer de fournisseur pour combler ces lacunes est coûteux et perturbateur, souvent nécessitant une rééducation, une révalidation et un temps d’arrêt opérationnel. Pendant ce temps, de nouveaux modèles ASR et mises à jour sont publiés à un rythme qui dépasse la capacité de la plupart des organisations à les tester et à les adopter. Le résultat est des taux de contention plus faibles, des résumés inexacts, des analyses plus faibles et une charge de garantie qualité plus élevée – tout cela étant causé par des erreurs de transcription qui auraient pu être évitées.

À l’intérieur de l’architecture de QUASAR : traiter l’ASR comme un problème dynamique

QUASAR aborde la reconnaissance vocale comme un défi d’optimisation en temps réel. Chaque demande audio entrante est évaluée avant la transcription, en tenant compte de facteurs tels que les caractéristiques du locuteur, les conditions acoustiques et le contexte du domaine. Sur la base de cette évaluation, le système achemine l’audio vers le moteur ASR le plus susceptible de fournir le résultat de la plus haute qualité pour cette interaction spécifique.

Techniquement, QUASAR fonctionne comme une couche d’orchestration qui peut fonctionner sur des API cloud commerciales, des modèles auto-hébergés et des déploiements ASR personnalisés. Cette abstraction permet aux entreprises d’expérimenter de nouveaux moteurs, d’équilibrer coût et qualité, et d’éviter le verrouillage du fournisseur à long terme – tout cela sans modifier les applications en aval.

Au cœur se trouve un mécanisme d’évaluation et de classement non supervisé qui note les options ASR en temps réel. Au lieu de s’appuyer uniquement sur les moyennes historiques, le système apprend continuellement à partir de conditions réelles, permettant des décisions de transcription qui s’adaptent à mesure que les environnements, les locuteurs et les cas d’utilisation évoluent.

Performances sur des conditions audio réelles

Dans les évaluations internes couvrant six ensembles de données de référence diversifiés – allant de la parole lue propre à des discours professionnels en passant par des audio accentués, bruyants et chargés de domaine financier – QUASAR a sélectionné le meilleur moteur ASR avec une précision globale de 88,8 % ou un choix équivalent lorsque les résultats étaient effectivement à égalité. La précision a atteint 97 % sur la parole claire et est restée dans la fourchette de 79 à 88 % pour des audio plus difficiles impliquant des accents, des bruits et un vocabulaire spécialisé.

Ces résultats mettent en évidence une idée clé : aucun moteur ASR unique ne fonctionne de manière cohérente dans tous les scénarios, mais l’acheminement intelligent peut capturer les forces de plusieurs.

Activation de la voix en tant qu’infrastructure vivante

En découpant la qualité de la reconnaissance vocale d’un fournisseur fixe, QUASAR transforme l’ASR en ce que aiOla décrit comme « l’infrastructure vivante ». Les entreprises gagnent une visibilité fine sur les performances de transcription au niveau de l’interaction, ainsi que la capacité d’optimiser pour la précision, le coût ou la latence en fonction du cas d’utilisation.

Cette approche accélère également l’expansion dans de nouvelles régions et secteurs verticaux. Au lieu d’attendre qu’un seul fournisseur prenne en charge une langue, un accent ou un vocabulaire spécifique à l’industrie, les organisations peuvent acheminer le trafic vers le moteur le mieux adapté pour ce créneau aujourd’hui – et basculer lorsque de meilleures options émergent.

La vision plus large d’aiOla pour les flux de travail pilotés par la voix

QUASAR s’appuie sur la mission plus large d’aiOla pour rendre la voix l’interface naturelle pour les systèmes d’entreprise. Les modèles brevetés de la société vont au-delà de la reconnaissance vocale standard, en combinant la reconnaissance vocale avec l’intelligence des flux de travail pour convertir l’entrée vocale en données structurées et en temps réel. Cela permet une automatisation sans contact dans des industries critiques où la saisie de données manuelle reste un goulet d’étranglement.

Soutenue par 58 millions de dollars de financement et une équipe axée sur la recherche, aiOla positionne la voix non seulement comme une modalité d’entrée, mais comme une infrastructure fondamentale pour les opérations pilotées par l’IA. Avec QUASAR, la société étend cette vision à la couche ASR elle-même – remettant en question les hypothèses longtemps tenues sur la façon dont la reconnaissance vocale devrait être déployée à grande échelle.

Alors que la voix devient l’interface principale pour les agents IA et les systèmes d’entreprise, la reconnaissance vocale dynamique et sensible au contexte peut s’avérer essentielle. Le lancement de QUASAR signale un mouvement vers l’orchestration adaptative et fondée sur les performances, une approche qui pourrait redéfinir la façon dont l’ensemble de l’écosystème de l’IA vocale consomme l’ASR.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.