заглушки Speechmatics запускает программное обеспечение для автономного распознавания речи - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Speechmatics запускает программное обеспечение для автономного распознавания речи

обновленный on

Ведущий стартап в области технологий распознавания речи Speechmatics выпустила свое программное обеспечение «Автономное распознавание речи», в котором используются новейшие методы глубокого обучения и революционные модели с самоконтролем. Система продемонстрировала способность превзойти Amazon, Google и Microsoft. 

Наборы данных Стэнфорда

Речевая техника основана на наборах данных, найденных в Стэнфордском университете.Расовые различия в распознавании речи', и общая точность афроамериканских голосов достигла 82.8%. Для справки, Google достиг уровня точности только 68.7%, а Amazon — 68.6%.

Уровень точности соответствует снижению ошибок распознавания речи на 45%, что эквивалентно трем словам в среднем предложении. Мало того, что новая система Speechmatics точна в этом отношении, она также продемонстрировала улучшение точности в отношении акцентов, возраста, диалектов и различных других социально-демографических характеристик.

При распознавании речи часто возникает недопонимание из-за ограниченного количества помеченных данных, которые алгоритмы могут использовать для обучения. Маркированные данные должны классифицироваться людьми вручную, что приводит к меньшему количеству данных, доступных для этих систем. Это также ограничивает представление всех голосов, что создает новый набор проблем.

Обучение на неразмеченных данных

Компания Speechmatics добилась больших успехов в этом отношении, поскольку ее технология обучается на огромных объемах неразмеченных данных, полученных непосредственно из Интернета. Данные поступают из таких вещей, как контент в социальных сетях и подкасты. 

Самоконтролируемое обучение позволило системе обучиться на 1.1 миллиона часов аудио, что больше, чем предыдущие 30,000 XNUMX часов. Это позволяет ему иметь гораздо более широкий диапазон представления голосов и помогает уменьшить предвзятость ИИ и ошибки при распознавании речи. 

Что касается детских голосов, Speechmatics также продемонстрировала способность превзойти конкурентов. Детские голоса сложно распознать с помощью устаревшей технологии распознавания речи, но Speechmatics удалось зафиксировать уровень точности 91.8%. Google смог набрать только 83.4%, а Deepgram — 82.3%. 

Кэти Вигдал — генеральный директор Speechmatics. 

«Мы стремимся предоставить возможности машинного обучения следующего поколения и благодаря этому предложить более инклюзивные и доступные речевые технологии. Это объявление является огромным шагом на пути к достижению этой миссии». 

«Наше внимание к борьбе с предвзятостью ИИ привело к этому монументальному скачку вперед в индустрии распознавания речи, и волновой эффект приведет к изменениям во множестве различных сценариев», — продолжил Вигдал. «Подумайте о неправильных подписях, которые мы видим в социальных сетях, о судебных слушаниях, на которых слова неправильно расшифровываются, и о платформах электронного обучения, которые боролись с детскими голосами на протяжении всей пандемии. Ошибки, которые людям приходилось принимать до сих пор, могут оказать ощутимое влияние на их повседневную жизнь». 

Эллисон Чжу Кенеке — ведущий автор Стэнфордского исследования по распознаванию речи.

«Очень важно изучать и улучшать справедливость в системах преобразования речи в текст, учитывая возможность причинения разрозненного вреда отдельным лицам в последующих секторах, от здравоохранения до уголовного правосудия». 

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.