Штучний інтелект
Speechmatics Запускає Автономне Розпізнавання Мови

Лідер серед стартапів технологій розпізнавання мови Speechmatics запустив свій програмний продукт «Автономне розпізнавання мови», який використовує останні техніки глибокого навчання та проривні самоконтрольовані моделі. Система продемонструвала можливість перевершити Amazon, Google та Microsoft.
Дані Стенфорду
Speechmatics заснований на наборах даних, знайдених у дослідженні Стенфорду «Расові диспропорції у розпізнаванні мови», і він досяг загальної точності 82,8% для голосів афроамериканців. Для порівняння, Google досяг лише 68,7% точності, тоді як Amazon досяг 68,6%.
Рівень точності відповідає зниженню помилок розпізнавання мови на 45%, що еквівалентно трьом словам у середньому реченні. Новій системі Speechmatics не тільки точна в цьому відношенні, але також продемонструвала покращення точності серед акцентів, віку, діалектів та інших соціально-демографічних характеристик.
Часто трапляються недорозуміння у розпізнаванні мови через обмежену кількість позначених даних, які алгоритми можуть використовувати для навчання. Позначені дані потрібно класифікувати вручну людьми, що призводить до меншої кількості даних для цих систем. Це також обмежує представництво всіх голосів, що створює новий набір проблем.
Навчання на Непозначених Даних
Speechmatics робить великий прогрес у цьому відношенні, оскільки його технологія навчена на величезній кількості непозначених даних, отриманих безпосередньо з Інтернету. Дані походять з таких джерел, як контент соціальних мереж та подкасти.
Самоконтрольоване навчання дозволило системі бути навченою на 1,1 мільйона годин аудіо, що на порядок більше, ніж попередні 30 000 годин. Це дозволяє їй мати набагато ширше представництво голосів та допомагає зменшити упередженість штучного інтелекту та помилки у розпізнаванні мови.
Що стосується дітей, Speechmatics також продемонстрував можливість перевершити конкурентів. Голоси дітей складно розпізнавати за допомогою традиційної технології розпізнавання мови, але Speechmatics вдалося досягти 91,8% точності. Google зміг досягти лише 83,4%, а Deepgram — 82,3%.
Кеті Вігдаль — генеральний директор Speechmatics.
«Ми на місії доставити наступне покоління можливостей машинного навчання та, завдяки цьому, пропонувати більш інклюзивну та доступну технологію розпізнавання мови. Це оголошення — величезний крок до реалізації цієї місії».
«Наша увага до боротьби з упередженістю штучного інтелекту призвела до цього монументального стрибка вперед у галузі розпізнавання мови, а ефект від цього призведе до змін у багатьох різних сценаріях», — продовжила Вігдаль. «Подумайте про неправильні субтитри, які ми бачимо у соціальних мережах, судові слухання, де слова неправильно транскрибуються, та платформи електронного навчання, які боролися з голосами дітей протягом пандемії. Помилки, які люди мали прийняти до цього часу, можуть мати відчутний вплив на їхнє повсякденне життя».
Еллісон Чжу Кунеке — головний автор дослідження Стенфорду про розпізнавання мови.
«Це критично важливо вивчати та покращувати справедливість у системах розпізнавання мови, враховуючи потенційний шкідливий вплив на окремих осіб через різні галузі, починаючи від охорони здоров’я та закінчуючи кримінальним правосуддям».








