Connect with us

Umělá inteligence

Speechmatics Spouští Autonomní Rozpoznávání Řeči

mm

Vedoucí startup technologie rozpoznávání řeči Speechmatics spustil svůj software ‘Autonomní Rozpoznávání Řeči’, který využívá nejnovější techniky hlubokého učení a průlomové samořízené modely. Systém prokázal schopnost překonat Amazon, Google, a Microsoft.

Stanfordovy Datasets

Speechmatics je založen na datech nalezených ve Stanfordově studii ‘Rasové Rozdíly v Rozpoznávání Řeči’ a dosáhl celkové přesnosti 82,8 % pro afroamerické hlasy. Pro srovnání, Google dosáhl přesnosti pouze 68,7 %, zatímco Amazon dosáhl 68,6 %.Úroveň přesnosti odpovídá 45% snížení chyb rozpoznávání řeči, což je ekvivalent tří slov ve větě. Nový systém Speechmatics není pouze přesný v tomto ohledu, ale také prokázal zlepšení přesnosti napříč akcenty, věkem, dialekty a dalšími sociodemografickými charakteristikami.Často dochází k nedorozumění v rozpoznávání řeči kvůli omezenému množství označených dat, které algoritmy mohou použít pro své vzdělávání. Označená data vyžadují ruční klasifikaci lidmi, což vede k menšímu množství dostupných dat pro tyto systémy. To také omezuje reprezentaci všech hlasů, což vytváří nové problémy.

Školení na Neoznačených Datech

Speechmatics dosahuje velkého pokroku v tomto směru, protože jeho technologie je školená na obrovském množství neoznačených dat získaných přímo z internetu. Data pocházejí z věcí, jako je obsah sociálních médií a podcastů.Samořízené učení umožnilo systému být školen na 1,1 milionu hodin audiozáznamů, což je nárůst z předchozích 30 000 hodin. To umožňuje systému mít mnohem širší rozsah reprezentace hlasů a pomáhá snižovat předpojatost AI a chyby v rozpoznávání řeči.Pokud jde o hlasy dětí, Speechmatics také prokázal schopnost překonat konkurenty. Hlasy dětí jsou obtížně rozpoznatelné pomocí tradiční technologie rozpoznávání řeči, ale Speechmatics dosáhl přesnosti 91,8 %. Google dosáhl pouze 83,4 % a Deepgram 82,3 %.Katy Wigdahl je CEO Speechmatics.“Jsme na misi dodat další generaci schopností strojového učení a nabízet tak více inkluzivní a přístupnou technologii rozpoznávání řeči. Toto oznámení je obrovským krokem směrem k dosažení této mise.”“Naše zaměření na řešení předpojatosti AI vedlo k tomuto monumentálnímu pokroku v oboru rozpoznávání řeči a efekt vlny povede ke změnám v mnoha různých scénářích,” pokračoval Wigdahl. “Zamyslete se nad nesprávnými titulky, které vidíme na sociálních médiích, soudními přelíčeními, kde jsou slova špatně přepisována, a eLearningovými platformami, které měly problémy s hlasy dětí během pandemie. Chyby, které lidé museli přijmout do teď, mohou mít hmatatelný dopad na jejich denní život.”Allison Zhu Koenecke je hlavní autorka Stanfordovy studie o rozpoznávání řeči.“Je zásadní studovat a zlepšovat spravedlnost v systémech rozpoznávání řeči, protože existuje potenciál pro rozdílnou újmu jednotlivcům prostřednictvím následujících sektorů, od zdravotnictví po trestní soudnictví.”

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.