стуб Спеецхматицс лансира софтвер за аутономно препознавање говора - Уните.АИ
Повежите се са нама

Вештачка интелигенција

Спеецхматицс лансира софтвер за аутономно препознавање говора

Ажурирано on

Водећи стартуп технологије за препознавање говора Спеецхматицс је лансирао свој софтвер 'Аутономно препознавање говора' који користи најновије технике дубоког учења и револуционарне самонадзиране моделе. Систем је показао способност да надмаши Амазон, Гоогле и Мицрософт. 

Станфордски скупови података

Спеецхматицс је заснован на скуповима података који се налазе у Станфорд'с 'Расни диспаритети у препознавању говора', и постигла је укупну прецизност од 82.8% за гласове Афроамериканаца. За референцу, Гоогле је постигао само стопу тачности од 68.7%, док је Амазон постигао 68.6%.

Ниво тачности једнак је смањењу грешака у препознавању говора од 45%, што је еквивалент три речи у просечној реченици. Не само да је нови Спеецхматицс систем тачан у овом погледу, већ је показао и побољшања у тачности у односу на акценте, узраст, дијалекте и разне друге социодемографске карактеристике.

Често долази до неспоразума у ​​препознавању говора због ограничене количине означених података које алгоритми могу да користе за обуку. Људи морају ручно да класификују означене податке, што резултира мањом количином података доступних за ове системе. Ово такође ограничава заступљеност свих гласова, што ствара нови сет питања.

Обука о неозначеним подацима

Спеецхматицс остварује велики напредак у овом погледу јер се њена технологија обучава на огромним количинама неозначених података који се добијају директно са интернета. Подаци потичу из ствари попут садржаја друштвених медија и подцаста. 

Самонадгледано учење је омогућило да се систем обучи за 1.1 милион сати аудио записа, што је повећање у односу на претходних 30,000 сати. Ово му омогућава да има много шири опсег представљања гласова и помаже у смањењу пристрасности АИ и грешака у препознавању говора. 

Када је реч о дечјим гласовима, Спеецхматицс је такође показао способност да надмаши конкуренте. Дечје гласове је тешко препознати кроз застарелу технологију препознавања говора, али Спеецхматицс је успео да забележи стопу тачности од 91.8%. Гоогле је могао да постигне само 83.4%, а Деепграм 82.3%. 

Кати Вигдахл је извршни директор Спеецхматицс. 

„Ми смо на мисији да испоручимо следећу генерацију могућности машинског учења, а кроз то понудимо инклузивнију и приступачнију технологију говора. Ова најава је огроман корак ка остварењу те мисије.” 

„Наш фокус на решавању пристрасности вештачке интелигенције довео је до овог монументалног скока напред у индустрији препознавања говора, а ефекат таласања ће довести до промена у мноштву различитих сценарија“, наставио је Вигдал. „Помислите на нетачне натписе које видимо на друштвеним медијима, судске расправе на којима су речи погрешно транскрибоване и платформе за е-учење које су се бориле са дечјим гласовима током пандемије. Грешке које су људи морали да прихвате до сада могу имати опипљив утицај на њихов свакодневни живот.” 

Аллисон Зху Коенецке је водећи аутор Станфордске студије о препознавању говора.

„Кључно је проучити и побољшати праведност у системима говора у текст с обзиром на потенцијал за различите штете појединцима кроз низводне секторе у распону од здравствене заштите до кривичног правосуђа.“ 

Алекс МекФарленд је новинар и писац вештачке интелигенције који истражује најновија достигнућа у вештачкој интелигенцији. Сарађивао је са бројним АИ стартаповима и публикацијама широм света.