Umělá inteligence

Speechmatics Spouští Autonomní Rozpoznávání Řeči

Published October 26, 2021

Updated April 5, 2026

Alex McFarland

Vedoucí startup technologie rozpoznávání řeči Speechmatics spustil svůj software ‘Autonomní Rozpoznávání Řeči’, který využívá nejnovější techniky hlubokého učení a průlomové samořízené modely. Systém prokázal schopnost překonat Amazon, Google, a Microsoft.

Stanfordovy Datasets

Speechmatics je založen na datech nalezených ve Stanfordově studii ‘Rasové Rozdíly v Rozpoznávání Řeči’ a dosáhl celkové přesnosti 82,8 % pro afroamerické hlasy. Pro srovnání, Google dosáhl přesnosti pouze 68,7 %, zatímco Amazon dosáhl 68,6 %.Úroveň přesnosti odpovídá 45% snížení chyb rozpoznávání řeči, což je ekvivalent tří slov ve větě. Nový systém Speechmatics není pouze přesný v tomto ohledu, ale také prokázal zlepšení přesnosti napříč akcenty, věkem, dialekty a dalšími sociodemografickými charakteristikami.Často dochází k nedorozumění v rozpoznávání řeči kvůli omezenému množství označených dat, které algoritmy mohou použít pro své vzdělávání. Označená data vyžadují ruční klasifikaci lidmi, což vede k menšímu množství dostupných dat pro tyto systémy. To také omezuje reprezentaci všech hlasů, což vytváří nové problémy.

Školení na Neoznačených Datech

Speechmatics dosahuje velkého pokroku v tomto směru, protože jeho technologie je školená na obrovském množství neoznačených dat získaných přímo z internetu. Data pocházejí z věcí, jako je obsah sociálních médií a podcastů.Samořízené učení umožnilo systému být školen na 1,1 milionu hodin audiozáznamů, což je nárůst z předchozích 30 000 hodin. To umožňuje systému mít mnohem širší rozsah reprezentace hlasů a pomáhá snižovat předpojatost AI a chyby v rozpoznávání řeči.Pokud jde o hlasy dětí, Speechmatics také prokázal schopnost překonat konkurenty. Hlasy dětí jsou obtížně rozpoznatelné pomocí tradiční technologie rozpoznávání řeči, ale Speechmatics dosáhl přesnosti 91,8 %. Google dosáhl pouze 83,4 % a Deepgram 82,3 %.Katy Wigdahl je CEO Speechmatics.“Jsme na misi dodat další generaci schopností strojového učení a nabízet tak více inkluzivní a přístupnou technologii rozpoznávání řeči. Toto oznámení je obrovským krokem směrem k dosažení této mise.”“Naše zaměření na řešení předpojatosti AI vedlo k tomuto monumentálnímu pokroku v oboru rozpoznávání řeči a efekt vlny povede ke změnám v mnoha různých scénářích,” pokračoval Wigdahl. “Zamyslete se nad nesprávnými titulky, které vidíme na sociálních médiích, soudními přelíčeními, kde jsou slova špatně přepisována, a eLearningovými platformami, které měly problémy s hlasy dětí během pandemie. Chyby, které lidé museli přijmout do teď, mohou mít hmatatelný dopad na jejich denní život.”Allison Zhu Koenecke je hlavní autorka Stanfordovy studie o rozpoznávání řeči.“Je zásadní studovat a zlepšovat spravedlnost v systémech rozpoznávání řeči, protože existuje potenciál pro rozdílnou újmu jednotlivcům prostřednictvím následujících sektorů, od zdravotnictví po trestní soudnictví.”

Unite.AI

Speechmatics Spouští Autonomní Rozpoznávání Řeči

Stanfordovy Datasets

Školení na Neoznačených Datech

You may like