Suivez nous sur

Les écouteurs AI vous permettent d'écouter une personne dans une foule

Intelligence Artificielle

Les écouteurs AI vous permettent d'écouter une personne dans une foule

mm

Dans un environnement bondĂ© et bruyant, avez-vous dĂ©jĂ  souhaitĂ© pouvoir ignorer tous les bruits de fond et vous concentrer uniquement sur la personne que vous essayez d'Ă©couter ? MĂŞme si les casques antibruit ont fait de grands progrès dans la crĂ©ation d'une page vierge auditive, ils ont encore du mal Ă  laisser filtrer les sons spĂ©cifiques de l'environnement de l'utilisateur. Mais et si vos Ă©couteurs pouvaient ĂŞtre programmĂ©s pour capter et amplifier la voix d’une seule personne, mĂŞme lorsque vous vous dĂ©placez dans une pièce remplie d’autres conversations ?

Audition de la parole cible (TSH), un système d’IA révolutionnaire développé par des chercheurs de l’Université de Washington, fait des progrès dans ce domaine.

Comment fonctionne l'audition de la parole ciblée

Pour utiliser le TSH, une personne portant des écouteurs spécialement équipés doit simplement regarder pendant quelques secondes l'individu qu'elle souhaite entendre. Cette brève période « d’inscription » permet au système d’IA d’apprendre et de s’accrocher aux modèles vocaux uniques du locuteur cible.

Voici comment cela fonctionne sous le capot :

  1. L'utilisateur appuie sur un bouton tout en dirigeant sa tête vers le haut-parleur souhaité pendant 3 à 5 secondes.
  2. Les microphones des deux côtés du casque captent simultanément les ondes sonores de la voix de l'orateur (avec une marge d'erreur de 16 degrés).
  3. Les écouteurs transmettent ce signal audio à un ordinateur embarqué embarqué.
  4. Le logiciel d'apprentissage automatique analyse la voix et crée un modèle des caractéristiques vocales distinctes du locuteur.
  5. Le système d'IA utilise ce modèle pour isoler et amplifier la voix du locuteur inscrit en temps réel, même lorsque l'utilisateur se déplace dans un environnement bruyant.

Plus l'orateur cible parle longtemps, plus le système reçoit de données d'entraînement, ce qui lui permet de mieux se concentrer et de mieux clarifier la voix souhaitée. Cette approche innovante de « l'audition sélective » ouvre un monde de possibilités pour améliorer la communication et l'accessibilité dans des environnements auditifs difficiles.

Shyam Gollakota est l'auteur principal de l'article et professeur UW Ă  la Paul G. Allen School of Computer Science & Engineering.

« Nous avons désormais tendance à considérer l’IA comme des chatbots basés sur le Web qui répondent aux questions. Mais dans ce projet, nous développons une IA pour modifier la perception auditive de toute personne portant des écouteurs, en fonction de ses préférences. Grâce à nos appareils, vous pouvez désormais entendre clairement un seul locuteur, même si vous êtes dans un environnement bruyant avec de nombreuses autres personnes qui parlent. – Gollakota

Les écouteurs AI filtrent le bruit pour que vous puissiez entendre une seule voix dans la foule

Test des écouteurs AI avec TSH

Pour mettre Target Speech Hearing Ă  l’épreuve, l’équipe de recherche a menĂ© une Ă©tude auprès de 21 participants. Chaque sujet portait des Ă©couteurs compatibles TSH et enregistrait un locuteur cible dans un environnement bruyant. Les rĂ©sultats ont Ă©tĂ© impressionnants : en moyenne, les utilisateurs ont Ă©valuĂ© la clartĂ© de la voix de l'orateur inscrit comme Ă©tant près de deux fois supĂ©rieure Ă  celle du flux audio non filtrĂ©.

Cette avancée s'appuie sur l'expérience de l'équipe travail antérieur sur « l'audition sémantique », qui permettait aux utilisateurs de filtrer leur environnement auditif en fonction de classifications sonores prédéfinies, comme le gazouillis des oiseaux ou les voix humaines. TSH va encore plus loin dans ce concept en permettant l'amplification sélective de la voix d'un individu spécifique.

Les implications sont importantes, allant de l'amélioration des conversations personnelles dans des environnements bruyants à l'amélioration de l'accessibilité pour les personnes malentendantes. À mesure que la technologie se développe, elle pourrait changer fondamentalement la façon dont nous vivons et interagissons avec notre monde auditif.

Améliorer les écouteurs AI et surmonter les limites

Bien que Target Speech Hearing reprĂ©sente un pas en avant majeur dans l’IA auditive, le système prĂ©sente certaines limites dans sa forme actuelle :

  • Inscription d'un seul orateur : Pour l’instant, TSH ne peut ĂŞtre formĂ© que pour se concentrer sur un locuteur Ă  la fois. L’inscription de plusieurs intervenants simultanĂ©ment n’est pas encore possible.
  • InterfĂ©rences provenant de sources audio similaires : Si une autre voix forte vient de la mĂŞme direction que le locuteur cible pendant le processus d'inscription, le système peut avoir du mal Ă  isoler les modèles vocaux de l'individu souhaitĂ©.
  • RĂ©inscription manuelle : Si l'utilisateur n'est pas satisfait de la qualitĂ© audio après la formation initiale, il doit rĂ©inscrire manuellement le locuteur cible pour amĂ©liorer la clartĂ©.

Malgré ces contraintes, l’équipe de l’Université de Washington travaille activement à affiner et à étendre les capacités du TSH. L’un de leurs principaux objectifs est de miniaturiser la technologie, afin de lui permettre d’être intégrée de manière transparente dans des produits de consommation tels que les écouteurs et les aides auditives.

Alors que les chercheurs continuent de repousser les limites de ce qui est possible avec l'IA auditive, les applications potentielles sont vastes, allant de l'amélioration de la productivité dans des environnements de bureau distrayants à la facilitation d'une communication plus claire pour les premiers intervenants et le personnel militaire dans des situations à enjeux élevés. L’avenir de l’audition sélective s’annonce prometteur et Target Speech Hearing est sur le point de jouer un rôle central dans son développement.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.