Kunstig intelligens

Speechmatics Lanserer Autonomt Talegjenkjenning Programvare

Published October 26, 2021

Updated April 5, 2026

Alex McFarland

Ledende talegjenkjenningsteknologi-startup Speechmatics har lansert sin ‘Autonom Talegjenkjenning’ programvare som bruker de nyeste dyptelæringsteknikkene og gjennombruddsself-supervisede modeller. Systemet har demonstrert en evne til å overgå Amazon, Google og Microsoft.

Stanfords Datamengder

Speechmatics er basert på datamengder funnet i Stanfords ‘Rasemessige Ulikheter i Talegjenkjenning’ studie, og det oppnådde en total nøyaktighet på 82,8% for afroamerikanske stemmer. For referanse, oppnådde Google kun en nøyaktighetsrate på 68,7%, mens Amazon oppnådde 68,6%.

Nivået av nøyaktighet tilsvarer en 45% reduksjon i talegjenkjenningfeil, som tilsvarer tre ord i en gjennomsnittlig setning. Ikke bare er det nye Speechmatics-systemet nøyaktig i denne henseende, men det har også demonstrert forbedringer i nøyaktighet over aksenter, alder, dialekter og andre sosiodemografiske karakteristika.

Det er ofte misforståelser i talegjenkjenning på grunn av den begrensede mengden merket data som algoritmer kan bruke til å trene seg selv. Merket data kreves å være manuelt klassifisert av mennesker, noe som resulterer i en mindre mengde data tilgjengelig for disse systemene. Dette begrenser også representasjonen av alle stemmer, noe som skaper en ny rekke med problemer.

Trening på Umerket Data

Speechmatics gjør store fremskritt i denne henseende, ettersom deres teknologi er trent på massive mengder umerket data hentet direkte fra internettet. Dataene kommer fra ting som sosiale medier og podcaster.

Selv-overvåket læring har gjort det mulig for systemet å bli trent på 1,1 millioner timer med lyd, noe som er en økning fra de tidligere 30 000 timene. Dette gjør det mulig for det å ha en mye bredere rekke av representasjon av stemmer, og det hjelper med å redusere AI-forvrengning og feil i talegjenkjenning.

Når det gjelder barnestemmer, demonstrerte Speechmatics også en evne til å overgå konkurrentene. Barnestemmer er vanskelige å gjenkjenne gjennom legacy talegjenkjenningsteknologi, men Speechmatics klarte å oppnå en nøyaktighetsrate på 91,8%. Google kunne kun oppnå 83,4% og Deepgram 82,3%.

Katy Wigdahl er CEO av Speechmatics.

“Vi er på en misjon for å levere neste generasjons maskinlæringsevner, og gjennom det tilby mer inkluderende og tilgjengelig taleteknologi. Denne annonseringen er et enormt skritt mot å oppnå denne misjonen.”

“Vårt fokus på å takle AI-forvrengning har ledet til dette monumentale skrittet fremover i talegjenkjenningindustrien, og virkningene vil føre til endringer i en rekke forskjellige scenarioer,” fortsatte Wigdahl. “Tenk på de feilaktige undertekstene vi ser på sosiale medier, rettssaker hvor ord blir feiltranskribert og e-læringsplattformer som har kjempet med barnestemmer gjennom pandemien. Feil mennesker har måttet akseptere til nå kan ha en tangibel innvirkning på deres daglige liv.”

Allison Zhu Koenecke er hovedforfatter av Stanford-studien om talegjenkjenning.

“Det er kritisk å studere og forbedre rettferdighet i tale-til-tekst systemer gitt den potensielle skaden til enkeltpersoner gjennom nedstrømssektorer som helsevesen til kriminalitet.”

Unite.AI

Speechmatics Lanserer Autonomt Talegjenkjenning Programvare

Stanfords Datamengder

Trening på Umerket Data

You may like