Искусственный интеллект
Speechmatics Запускает Автономное Программное Обеспечение Распознавания Речи

Ведущий стартап технологии распознавания речи Speechmatics запустил свое программное обеспечение «Автономное Распознавание Речи», которое использует последние методы глубокого обучения и прорывные модели самообучения. Система продемонстрировала способность превосходить Amazon, Google и Microsoft.
Наборы Данных Стэнфорда
Speechmatics основан на наборах данных, найденных в исследовании Стэнфорда «Расовые Различия В Распознавании Речи», и он достиг общей точности 82,8% для афроамериканских голосов. Для сравнения, Google достигла точности только 68,7%, а Amazon – 68,6%.
Уровень точности соответствует снижению ошибок распознавания речи на 45%, что эквивалентно трем словам в среднем предложении. Новый Speechmatics не только точен в этом отношении, но также продемонстрировал улучшения точности при различных акцентах, возрасте, диалектах и других социально-демографических характеристиках.
Часто бывают недоразумения в распознавании речи из-за ограниченного количества помеченных данных, которые алгоритмы могут использовать для обучения. Помеченные данные требуют ручной классификации людьми, что приводит к меньшему количеству данных, доступных для этих систем. Это также ограничивает представление всех голосов, что создает новую серию проблем.
Обучение На Непомеченных Данных
Speechmatics делает большие успехи в этом отношении, поскольку его технология обучается на огромных объемах непомеченных данных, полученных напрямую из интернета. Данные поступают из таких источников, как контент социальных сетей и подкасты.
Самообучение позволило системе быть обученной на 1,1 миллиона часов аудио, что является увеличением с предыдущих 30 000 часов. Это позволяет иметь гораздо более широкий диапазон представления голосов и помогает снизить предвзятость ИИ и ошибки в распознавании речи.
Когда речь идет о детских голосах, Speechmatics также продемонстрировал способность превосходить конкурентов. Детские голоса сложны для распознавания с помощью устаревшей технологии распознавания речи, но Speechmatics смогла достичь точности 91,8%. Google смогла достичь только 83,4%, а Deepgram – 82,3%.
Кэти Видгал является генеральным директором Speechmatics.
«Мы находимся на миссии по доставке следующего поколения возможностей машинного обучения, и через это предлагать более инклюзивную и доступную технологию речи. Это объявление является огромным шагом к достижению этой миссии.»
«Наш фокус на решении проблемы предвзятости ИИ привел к этому монументальному скачку вперед в отрасли распознавания речи, и эффект будет иметь изменения в множестве разных сценариев», – продолжила Видгал. «Подумайте о неправильных подписях, которые мы видим в социальных сетях, судебных заседаниях, где слова неправильно транскрибируются, и платформах электронного обучения, которые боролись с детскими голосами на протяжении всей пандемии. Ошибки, которые люди должны были принять до сих пор, могут иметь осязаемое влияние на их повседневную жизнь.»
Эллисон Чжу Кунеке является ведущим автором исследования Стэнфорда о распознавании речи.
«Это крайне важно изучать и улучшать справедливость в системах речь-текст, учитывая потенциал для различного вреда отдельным лицам через различные отрасли, начиная от здравоохранения и заканчивая уголовным правосудием.»








