csonk A Speechmatics elindítja az autonóm beszédfelismerő szoftvert - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A Speechmatics elindítja az autonóm beszédfelismerő szoftvert

korszerűsített on

Vezető beszédfelismerő technológiai startup Beszédtan bevezette az „Autonomous Speech Recognition” szoftverét, amely a legújabb mély tanulási technikákat és áttörést jelentő önfelügyelt modelleket használja. A rendszer bebizonyította, hogy képes felülmúlni az Amazon, a Google és a Microsoft teljesítményét. 

Stanford adatkészletei

A beszédtan a Stanfordban található adatkészleteken alapul.Faji különbségek a beszédfelismerésben' tanulmányban, és összességében 82.8%-os pontosságot ért el az afroamerikai hangok esetében. Referenciaként a Google csak 68.7%-os pontosságot ért el, míg az Amazon 68.6%-ot.

A pontosság szintje a beszédfelismerési hibák 45%-os csökkenésének felel meg, ami egy átlagos mondat három szójának felel meg. Az új Speechmatics rendszer nem csak ebben a tekintetben pontos, hanem az ékezetek, életkor, dialektusok és számos egyéb szociodemográfiai jellemző pontosságának javulását is kimutatta.

A beszédfelismerésben gyakran félreértés adódik az algoritmusok által önmaguk képzésére felhasználható címkézett adatok korlátozott mennyisége miatt. A címkézett adatokat az embereknek manuálisan kell osztályozniuk, ami azt eredményezi, hogy ezeknél a rendszereknél kevesebb adat áll rendelkezésre. Ez korlátozza az összes hang megjelenítését is, ami új problémákat okoz.

Képzés a címkézetlen adatokról

A Speechmatics nagy előrelépést tesz e tekintetben, mivel technológiája hatalmas mennyiségű, közvetlenül az internetről származó, címkézetlen adatra van kiképezve. Az adatok olyan dolgokból származnak, mint a közösségi média tartalmak és podcastok. 

Az önfelügyelt tanulás lehetővé tette, hogy a rendszert 1.1 millió órányi hangfelvételre oktassák, ami növekedést jelent a korábbi 30,000 XNUMX órához képest. Ez lehetővé teszi a hangok sokkal szélesebb megjelenítési tartományát, és segít csökkenteni a mesterséges intelligencia torzítását és a beszédfelismerési hibákat. 

Ami a gyerekek hangját illeti, a Speechmatics azt is megmutatta, hogy képes felülmúlni a versenytársakat. A gyerekek hangját nehéz felismerni az örökölt beszédfelismerő technológia segítségével, de a Speechmatics 91.8%-os pontosságot tudott rögzíteni. A Google csak 83.4%-ot, a Deepgram pedig 82.3%-ot tudott elérni. 

Katy Wigdahl a Speechmatics vezérigazgatója. 

„Az a küldetésünk, hogy a gépi tanulási képességek következő generációját biztosítsuk, és ezen keresztül átfogóbb és hozzáférhetőbb beszédtechnológiát kínáljunk. Ez a bejelentés óriási lépés e küldetés megvalósítása felé.” 

„A mesterséges intelligencia torzításának leküzdésére való összpontosításunk a beszédfelismerő iparágban ehhez a hatalmas előrelépéshez vezetett, és a hullámzási hatás számos különböző forgatókönyv változásához vezet” – folytatta Wigdahl. „Gondoljunk csak azokra a helytelen feliratokra, amelyeket a közösségi médiában látunk, a bírósági tárgyalásokon, ahol a szavakat rosszul írják át, és az eLearning platformokra, amelyek a világjárvány során végig küzdöttek a gyermekek hangjával. Azok a hibák, amelyeket az embereknek eddig el kellett fogadniuk, kézzelfogható hatással lehetnek mindennapi életükre.” 

Allison Zhu Koenecke a beszédfelismerésről szóló Stanford-tanulmány vezető szerzője.

„Létfontosságú a beszéd-szöveg rendszerek méltányosságának tanulmányozása és javítása, tekintettel arra, hogy az egészségügytől a büntető igazságszolgáltatásig terjedő ágazatokon keresztül különböző károk érhetik az egyéneket.” 

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.