Connect with us

Kunstig intelligens

Speechmatics Lancerer Autonomt Talegenkendelsessoftware

mm

Den førende talegenkendelsesteknologi-startup Speechmatics har lanceret sin ‘Autonome Talegenkendelse’-software, der anvender de seneste dybe læringsmetoder og gennembrudsself-supervisede modeller. Systemet har demonstreret en evne til at overgå Amazon, Google og Microsoft.

Stanfords Datasets

Speechmatics er baseret på datasets fundet i Stanfords ‘Raciale Uligevægte i Talegenkendelse‘-studie, og det opnåede en samlet nøjagtighed på 82,8% for afroamerikanske stemmer. For reference opnåede Google kun en nøjagtighedsrate på 68,7%, mens Amazon opnåede 68,6%.
Niveauet af nøjagtighed svarer til en 45% reduktion i talegenkendelsesfejl, hvilket er lig med tre ord i en gennemsnitlig sætning. Ikke kun er det nye Speechmatics-system nøjagtigt på denne måde, men det har også demonstreret forbedringer i nøjagtighed på tværs af accenter, alder, dialekter og andre sociodemografiske karakteristika.
Der er ofte misforståelser i talegenkendelse på grund af den begrænsede mængde af mærkede data, som algoritmer kan bruge til at træne sig selv. Mærket data kræver at være manuelt klassificeret af mennesker, hvilket resulterer i en mindre mængde data tilgængelig for disse systemer. Dette begrænser også repræsentationen af alle stemmer, hvilket skaber en ny sæt af problemer.

Træning på Umærket Data

Speechmatics er i gang med at gøre store fremskridt på dette område, da deres teknologi er trænet på massive mængder af umærket data hentet direkte fra internettet. Data kommer fra ting som sociale medieindhold og podcasts.
Selv-supervised læring har gjort det muligt for systemet at blive trænet på 1,1 millioner timer af audio, hvilket er en stigning fra de tidligere 30.000 timer. Dette giver det en langt bredere repræsentation af stemmer og hjælper med at reducere AI-forvrængning og fejl i talegenkendelse.
Når det kommer til børnsstemmer, har Speechmatics også demonstreret en evne til at overgå konkurrenterne. Børnsstemmer er svære at genkende gennem arvet talegenkendelsesteknologi, men Speechmatics formåede at optage en 91,8% nøjagtighedsrate. Google kunne kun opnå 83,4%, og Deepgram 82,3%.
Katy Wigdahl er CEO af Speechmatics.
“Vi er på en mission for at levere den næste generation af machine learning-kapaciteter, og gennem det tilbyde mere inklusiv og tilgængelig taleteknologi. Denne meddelelse er et enormt skridt mod at opnå denne mission.”
“Vores fokus på at tackle AI-forvrængning har ført til dette monumentale spring fremad i talegenkendelsesindustrien, og rippleffekten vil føre til ændringer i en mængde forskellige scenarier,” fortsatte Wigdahl. “Tænk på de forkerte undertekster, vi ser på sociale medier, retssager, hvor ord er mis-transkriberet, og e-læringsplatforme, der har kæmpet med børnsstemmer under pandemien. Fejl, som mennesker har måttet acceptere indtil nu, kan have en konkrete indvirkning på deres daglige liv.”
Allison Zhu Koenecke er hovedforfatter af Stanford-studiet om talegenkendelse.
“Det er kritisk at studere og forbedre lighed i tale-til-tekst-systemer, given den potentielle skade til enkeltpersoner gennem downstream-sektorer, der spænder fra sundhedspleje til kriminalret.”

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.