Kuungana na sisi

Artificial Intelligence

Watafiti Wanatazamia Kupanua Utambuzi wa Usemi Kiotomatiki hadi Lugha 2,000

Imechapishwa

 on

Timu ya watafiti katika Chuo Kikuu cha Carnegie Mellon inatazamia kupanua utambuzi wa usemi otomatiki hadi lugha 2,000. Kufikia sasa hivi, ni sehemu tu ya lugha zinazozungumzwa kati ya 7,000 hadi 8,000 duniani kote ambazo zitanufaika kutokana na teknolojia za kisasa za lugha kama vile unukuzi wa sauti-hadi-maandishi au manukuu otomatiki.

Xinjian Li ni Ph.D. mwanafunzi katika Taasisi ya Teknolojia ya Lugha ya Sayansi ya Kompyuta (LTI).

"Watu wengi katika ulimwengu huu wanazungumza lugha tofauti, lakini zana za teknolojia ya lugha hazijatengenezwa kwa ajili yao zote," alisema. "Kukuza teknolojia na muundo mzuri wa lugha kwa watu wote ni moja ya malengo ya utafiti huu."

Li ni mshiriki wa timu ya wataalamu wanaotaka kurahisisha mahitaji ya data ambayo lugha zinahitaji ili kuunda muundo wa utambuzi wa usemi.

Timu hiyo pia inajumuisha washiriki wa kitivo cha LTI Shinji Watanabe, Florian Metze, David Mortensen na Alan Black.

Utafiti huo wenye kichwa "ASR2K: Utambuzi wa Matamshi kwa Takriban Lugha 2,000 Bila Sauti” iliwasilishwa katika Interspeech 2022 nchini Korea Kusini.

Miundo mingi iliyopo ya utambuzi wa usemi inahitaji seti za data za maandishi na sauti. Ingawa data ya maandishi inapatikana kwa maelfu ya lugha, sivyo ilivyo kwa sauti. Timu inataka kuondoa hitaji la data ya sauti kwa kuzingatia vipengele vya lugha ambavyo ni vya kawaida katika lugha nyingi.

Teknolojia za utambuzi wa usemi kwa kawaida huzingatia fonimu ya lugha, ambazo ni sauti tofauti zinazoitofautisha na lugha nyingine. Hizi ni za kipekee kwa kila lugha. Wakati huo huo, lugha zina simu zinazoelezea jinsi neno linavyosikika kimwili, na simu nyingi zinaweza kuendana na fonimu moja. Ingawa lugha tofauti zinaweza kuwa na fonimu tofauti, simu za msingi zinaweza kuwa sawa.

Timu inashughulikia muundo wa utambuzi wa usemi ambao unategemea kidogo fonimu na maelezo zaidi kuhusu jinsi simu zinavyoshirikiwa kati ya lugha. Hii husaidia kupunguza juhudi zinazohitajika kuunda miundo tofauti kwa kila lugha mahususi. Kwa kuoanisha kielelezo na mti wa filojenetiki, ambao ni mchoro unaoonyesha uhusiano kati ya lugha, inasaidia na sheria za matamshi. Muundo wa timu na muundo wa mti umewawezesha kukadiria muundo wa usemi kwa maelfu ya lugha hata bila data ya sauti.

"Tunajaribu kuondoa hitaji hili la data ya sauti, ambayo hutusaidia kuhama kutoka lugha 100 hadi 200 hadi 2,000," Li alisema. "Huu ni utafiti wa kwanza kulenga idadi kubwa ya lugha, na sisi ndio timu ya kwanza inayolenga kupanua zana za lugha kwa wigo huu."

Utafiti, ukiwa bado katika hatua ya awali, umeboresha zana zilizopo za ukadiriaji wa lugha kwa 5%.

“Kila lugha ni jambo muhimu sana katika utamaduni wake. Kila lugha ina hadithi yake, na ikiwa hautajaribu kuhifadhi lugha, hadithi hizo zinaweza kupotea," Li alisema. "Kukuza aina hii ya mfumo wa utambuzi wa usemi na zana hii ni hatua ya kujaribu kuhifadhi lugha hizo."

Alex McFarland ni mwandishi wa habari wa AI na mwandishi anayechunguza maendeleo ya hivi karibuni katika akili ya bandia. Ameshirikiana na waanzishaji na machapisho mengi ya AI ulimwenguni kote.