Connect with us

Inteligență artificială

Speechmatics Lansează Software-ul de Recunoaștere a Vorbirii Autonome

mm

Start-up-ul de tehnologie de recunoaștere a vorbirii Speechmatics a lansat software-ul său de ‘Recunoaștere a Vorbirii Autonome’ care utilizează cele mai recente tehnici de învățare profundă și modele autonome de ultimă generație. Sistemul a demonstrat capacitatea de a depăși Amazon, Google și Microsoft

Seturile de Date Stanford

Speechmatics se bazează pe seturile de date găsite în studiul ‘Discriminări Rasiale în Recunoașterea Vorbirii’ de la Stanford și a obținut o acuratețe generală de 82,8% pentru voci de american africain. Pentru referință, Google a obținut o rată de acuratețe de 68,7%, în timp ce Amazon a obținut 68,6%.

Nivelul de acuratețe se traduce printr-o reducere cu 45% a erorilor de recunoaștere a vorbirii, ceea ce este echivalentul a trei cuvinte într-o propoziție medie. Nu numai că noul sistem Speechmatics este precis în acest sens, dar a demonstrat, de asemenea, îmbunătățiri ale acurateței în ceea ce privește accentele, vârsta, dialectele și alte caracteristici sociodemografice.

Există adesea neînțelegeri în recunoașterea vorbirii din cauza cantității limitate de date etichetate pe care algoritmii le pot utiliza pentru a se antrena. Datele etichetate trebuie să fie clasificate manual de către oameni, ceea ce duce la o cantitate mai mică de date disponibile pentru aceste sisteme. Acest lucru limitează, de asemenea, reprezentarea tuturor vocilor, ceea ce creează o nouă serie de probleme.

Antrenarea pe Date Neetichetate

Speechmatics face progrese importante în acest sens, deoarece tehnologia sa este antrenată pe cantități masive de date neetichetate, obținute direct de pe internet. Datele provin din lucruri precum conținutul de pe rețelele sociale și podcast-uri. 

Învățarea auto-supervizată a permis sistemului să fie antrenat pe 1,1 milioane de ore de audio, ceea ce reprezintă o creștere față de cele 30.000 de ore anterioare. Acest lucru îi permite să aibă o gamă mult mai largă de reprezentare a vocilor și ajută la reducerea erorilor și a prejudecăților în recunoașterea vorbirii. 

În ceea ce privește voci de copii, Speechmatics a demonstrat, de asemenea, capacitatea de a depăși competitorii. Voci de copii sunt dificil de recunoscut prin tehnologia de recunoaștere a vorbirii de ultimă generație, dar Speechmatics a reușit să obțină o rată de acuratețe de 91,8%. Google a putut obține doar 83,4%, iar Deepgram 82,3%. 

Katy Wigdahl este directorul general al Speechmatics

“Suntem pe o misiune de a livra următoarea generație de capacități de învățare automată și, prin aceasta, de a oferi tehnologie de vorbire mai incluzivă și accesibilă. Această anunțare este un pas uriaș către realizarea acestei misiuni.” 

“Focusul nostru în abordarea prejudecăților AI a condus la acest salt monumental în industria recunoașterii vorbirii și efectul de undă va duce la schimbări într-o multitudine de scenarii diferite”, a continuat Wigdahl. “Gândiți-vă la subtitrările incorecte pe care le vedem pe rețelele sociale, ședințele de judecată în care cuvintele sunt transcrise greșit și platformele de eLearning care au luptat cu voci de copii pe tot parcursul pandemiei. Erorile pe care oamenii au trebuit să le accepte până acum pot avea un impact tangibil asupra vieții lor de zi cu zi.” 

Allison Zhu Koenecke este autorul principal al studiului Stanford despre recunoașterea vorbirii.

“Este esențial să studiem și să îmbunătățim echitatea în sistemele de vorbire-în-text, dată fiind posibilitatea unui prejudiciu inegal pentru indivizi prin sectoarele în aval, de la sănătate la justiție penală.” 

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.