Kuungana na sisi

Artificial Intelligence

Kupata NLP Changamoto ya Maswali Yasiyo na Ufahamu

mm
Updated on

Baadhi ya maswali hayajibiki kwa sababu yana taarifa zisizo sahihi - dhamira ambazo mtu anayesikiliza swali lazima achuje na kukataa. Hii inachukulia, bila shaka, kwamba msikilizaji ana taarifa sahihi za kutosha za kulipinga swali, badala ya kutumia swali lenyewe kama chanzo cha habari (isiyo sahihi).

Ni changamoto kwa mifumo ya Usindikaji wa Lugha Asilia (NLP) kama vile GPT-3, ambayo ina a tabia ya 'hallucinate' habari ili kudumisha mazungumzo.

Hivi sasa, inauliza GPT-3 'Marie Curie alivumbua Uranium lini?' kuna uwezekano wa kupata jibu 'Marie Curie aligundua Uranium mnamo 1898'.

Chanzo: https://beta.openai.com/playground (Da Vinci elekeza beta).

Chanzo: https://beta.openai.com/playground (Da Vinci elekeza beta).

Kwa kweli, Uranium ilikuwa iligunduliwa mnamo 1789 na mwanakemia Mjerumani Martin Heinrich Klaproth, wakati ufunuo wa Curies' wa 1898 ulikuwa kutengwa ya radium.

Tatizo la mifumo ya NLP kupuuza presuppositions isiyo sahihi imezingatiwa katika idadi ya matangazo ya utangazaji mwaka huu, ikiwa ni pamoja na njia ambayo matokeo ya utafutaji ya AI ya Google yatapuuza taarifa zisizo sahihi katika swali 'Ni lini Neil Armstrong aliweka mguu kwenye Mars?' - kosa ambalo bado inaonyesha wakati wa kuandika makala hii, na inatumika kwa usawa Toy Story's Buzz Lightyear, ambaye inaonekana ilitua kwenye Mwezi Tarehe 21 Julai mwaka wa 1969.

Tom Hanks, mwingine Toy Story Mhitimu, pia sifa na Google na kutua kwenye Mwezi mnamo 1970, licha ya ukweli kwamba wake Apollo 13 mhusika, mwanaanga Jim Lovell, ni maarufu zaidi kwa isiyozidi baada ya kufikia hili.

Kushughulikia Masuala ya Mawazo katika Mabadilishano ya NLP

Sasa Utafiti wa Google, pamoja na watafiti kutoka Chuo Kikuu cha John Hopkins na Chuo Kikuu cha Brown, wanachunguza mbinu mpya za kujifunza kwa mashine ambazo mifumo ya NLP inaweza hatimaye kufanywa ili kupinga maswali yasiyo sahihi kwa njia sawa na ambayo ni muhimu kwa walimu wa kibinadamu kufanya wakati wa mazungumzo na wanafunzi. .

hivi karibuni karatasi Ni Mwanaisimu yupi Aliyevumbua Balbu? Uthibitishaji wa Kihusishi kwa Majibu ya Maswali inaangazia juhudi za pamoja za kuunda mfumo wa riwaya wa kutambua dhamira na kuzingatia ukweli wao kabla ya kuendelea na ubadilishanaji.

Kanuni mpya huchakata maswali kwa ufasaha kabla ya kurudi kwenye mazungumzo, na kuvunja 'uthibitishaji' wa swali katika mchakato wa sehemu tatu.

Haihesabu! Upande wa kushoto, 'kizuizi' kinachotokea hata wakati mfumo wa hali ya juu wa NLP umeweza kutambua kuwa swali halileti maana. Upande wa kulia, uchanganuzi wa kanuni iliyopendekezwa inayojaribu kurekebisha hitilafu ya chanzo. Chanzo: https://arxiv.org/pdf/2101.00391.pdf

Haihesabu! Upande wa kushoto, 'kizuizi' kinachotokea hata wakati mfumo wa hali ya juu wa NLP umeweza kutambua kuwa swali halileti maana. Upande wa kulia, uchanganuzi wa kanuni iliyopendekezwa inayojaribu kurekebisha hitilafu ya chanzo. Chanzo: https://arxiv.org/pdf/2101.00391.pdf

Ingawa inaonekana ni utaratibu rahisi wa uthibitishaji ambao ulipaswa kujengwa katika mifumo ya maarifa tangu awali, taratibu nyingi za mafunzo zinazotegemea NLP hujifunza taarifa kwa kiwango kisichostahili cha uaminifu kwa data chanzo, ikiwa ni pamoja na hotuba (kama vile habari ghushi) ambazo zinaweza kuwa zimetolewa. iliyochapishwa kwenye vituo 'vilivyoaminika' hapo awali.

Kwa hivyo suala la msingi ni kutambua kwa maelewano chanzo cha uhakika cha ukweli katika hali ya hewa ambapo uenezaji wa 'habari' zisizo sahihi kupitia mitandao ya kijamii, kwa chaguo-msingi, ungeipa mamlaka chini ya mantiki ya ujanibishaji wa kujifunza mashine. Mfumo huu wa mwisho umeelekea kutumia wingi au marudio ya data kama wakala wa usahihi, angalau hadi matukio ya habari ghushi yakawa eneo muhimu la kupendezwa na uga katika miaka ya hivi karibuni.

Kuamua Njia Bora ya Maswali Yasiyojibiwa

Ili kubaini mbinu inayofaa ya kusuluhisha swali ambalo lina habari potofu, watafiti waliendesha maswali 100 kama haya kupitia miundo minne tofauti ya Maswali na Majibu, na kuwauliza wahusika wachague suluhu bora au lenye matatizo kidogo zaidi ambalo miundo hiyo ilitoa.

Matokeo manne ya usanifu yanayowezekana kwa swali 'mbaya' yalikuwa: 'Haijibiki' - ambapo mfumo wa Maswali na Majibu wa kitabu kilichofungwa unazima uchunguzi bila maelezo zaidi; 'Maelezo yenye msingi wa kutofaulu' - pale mfumo unaposhindwa kuthibitisha dhana isiyo sahihi, kwa hakika jibu 'lisilojibiwa', pamoja na maelezo ya ziada; 'Maelezo ya ziada' - ambapo mfumo huota nukuu ya Wikipedia inayohusiana na mada na kuiambatanisha na utangulizi 'Swali hili halijibiwi kwa sababu…'; na 'Fungua kikoa kuandika upya' - wapi a mfumo wa ushindani hutafuta vyanzo vya ziada kutoka Wikipedia.

Mfano huu wa majibu manne yanayowezekana kwa swali linaloonekana kuwa 'lisilojibiwa' unaonyesha ugumu wa kujaribu suluhu ya kikoa yenye ushindani kwa tatizo.

Mfano huu wa majibu manne yanayowezekana kwa swali linaloonekana kuwa 'lisilojibiwa' unaonyesha ugumu wa kujaribu suluhu ya kikoa yenye ushindani kwa tatizo.

Katika kipindi cha majaribio, washiriki watano (walioajiriwa kwenye jukwaa la ndani la Google la watu wengi) walipendelea majibu kulingana na dhana, ambayo ilisababisha watafiti kuunda mfumo mpya wa kutenganisha na kuthibitisha maswali.

Katika mfumo mpya, vichochezi vya lugha hupatikana kutoka kwa swali na jenereta inayozingatia sheria ambayo hutenganisha sentensi kuwa taarifa za ukweli. Ikiwa dhana nyingi zimetolewa kutoka kwa swali, kila moja inachunguzwa, na itachangia jibu la mwisho ikiwa itashughulikia makisio potofu kutoka kwa swali la asili.

Datasets

Madhanio yaliyotolewa katika hatua ya awali yalirekebishwa mwenyewe ili kuunda mkusanyiko wa data wa uthibitishaji wenye madhahania 'dhahabu'. Mawazo yoyote yaliyojitokeza kutoka kwa matawi ya uchunguzi, lakini ambayo hayakuwepo katika maswali ya awali, yaliondolewa.

Waandishi wawili wa karatasi hiyo kisha wakafafanulia kwa mikono dhamira 462 kwa mujibu wa ndio la uthibitisho, kulingana na ukurasa husika wa Wikipedia unaohusishwa na kila swali. Kesi za kutokubaliana zilitatuliwa katika majadiliano ya baada ya ukweli kabla ya kuwekwa kwenye mkusanyiko wa data.

Watafiti walitumia NLI yenye risasi sifuri, kazi ya uainishaji wa msingi/dhahania ambayo ilihitaji muundo wa vifungu vya Wikipedia vinavyohusiana na maswali. Kwa kuwa mchakato huu husababisha jozi nyingi zaidi kuliko swali linaloweza kujumuisha au usaidizi wa muundo, matokeo yaliyochujwa yalijumlishwa na kuwekwa lebo.

Uundaji wa Matokeo na Majibu

Matokeo ya ufanisi zaidi yalipatikana kwa suluhisho la nguvu kazi zaidi: mseto ulioboreshwa zaidi, unaozingatia sheria/NLI uliotokana na ALBERT QNLI na sentensi za Wiki na vihusishi.

Utendaji wa miundo ya uthibitishaji, ambapo 'sentensi za Wiki' hutumia sentensi zilizopatikana kutoka kwa makala ya Wikipedia yanayohusiana na maswali, na 'Vihusishi vya Wiki' hutokezwa vihusishi kutoka kwa sentensi hizo.

Utendaji wa miundo ya uthibitishaji, ambapo 'sentensi za Wiki' hutumia sentensi zilizopatikana kutoka kwa makala ya Wikipedia yanayohusiana na maswali, na 'Vihusishi vya Wiki' hutokezwa vihusishi kutoka kwa sentensi hizo.

Kwa kutumia uundaji huu, watafiti walitengeneza mfumo wa kiolezo ambapo ukweli wa kukanusha kutoka kwa Wikipedia uliongezwa kuwa 'Swali hili haliwezi kujibiwa kwa sababu…' na vishazi sawa. Ingawa sio suluhisho bora, waandishi wanapendekeza kwamba majibu kulingana na kutokuthibitishwa yanaweza kupunguza matukio ya hasi za uwongo.

Mfumo huo hatimaye ulitekelezwa katika Ujenzi wa Transfoma Iliyoongezwa (ETC) mfano.

Athari

Kulingana na utendakazi wake wa mwisho katika ulimwengu wa kweli, inaweza kubishaniwa kuwa mbinu hii yote inaweza kusababisha uingizwaji tu wa 'isiyoweza kuthibitishwa' kwa 'isiyojibiwa', katika hali ambapo mfumo unaounga mkono wa utafiti hauwezi kutathmini marekebisho muhimu kwa kisio sahihi cha swali. . Kwa ufanisi, inaonekana kuwa inaweka miundombinu ya mifumo ya uthibitishaji ya siku zijazo na bora.

Watafiti tayari wanakubali kwamba gharama ya maombi ya API ya msingi wa tokeni ni sababu ya kikwazo wakati wa kuunda majibu marefu ambayo mfumo huu utatoa, na lazima ichukuliwe kuwa maelezo ya ziada ya utafiti wa "moja kwa moja" katika swali inaonekana uwezekano wa kuongeza. ucheleweshaji hata kwa mifumo mikubwa kama vile GPT-3, kwa kuwa mwitikio wa mifumo kama hiyo hadi sasa unategemea ujumuishaji wa jumla wa maarifa wakati wa mafunzo, badala ya utaratibu wa kina wa uthibitishaji unaotegemea mtandao.

Kwa kuongezea, watafiti wanaona kuwa mfumo kwa sasa una mapungufu yanayohusiana na uchanganuzi wa mambo ya kisemantiki ya maandishi:

Kwa mfano, ambaye pip anaamini ni mama yake estella ina kimiliki kilichopachikwa chini ya kitenzi kisichotenda Amini, lakini jenereta yetu hata hivyo ingezalisha 'estella ana 'mama'.

Hata hivyo, timu inatazamia mifumo mipya na inayoweza kunyumbulika zaidi ya kujibu maswali ambayo itaundwa nyuma ya utafiti huu:

Katika siku zijazo, tunapanga kuendeleza kazi hii kwa kupendekeza mifumo ya QA ambayo ni imara zaidi na yenye ushirikiano. Kwa mfano, aina tofauti za kushindwa kwa dhamira zinaweza kushughulikiwa kwa mbinu zaidi za majibu ya maji—kwa mfano, ukiukaji wa makisio ya upekee yanaweza kushughulikiwa vyema kwa kutoa majibu yote yanayowezekana, badala ya kusema kwamba dhamira ya kipekee ilikiukwa.