cung Si NLP të sfidojë pyetjet e keqinformuara - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Marrja e NLP-së për të sfiduar pyetjet e keqinformuara

mm
Përditësuar on

Disa pyetje janë pa përgjigje sepse përmbajnë informacione të pasakta – presupozime që personi që dëgjon pyetjen duhet të filtrojë dhe të heqë dorë. Kjo supozon, natyrisht, që dëgjuesi ka mjaft informacion të saktë për të sfiduar pyetjen, në vend që ta përdorë vetë pyetjen si burim informacioni (të gabuar).

Është një sfidë për sistemet e Përpunimit të Gjuhës Natyrore (NLP) si GPT-3, të cilat kanë një tendenca për të 'halucinuar' informacion për të ruajtur dialogun.

Aktualisht, duke pyetur GPT-3 'Kur e shpiku Marie Curie uraniumin?' ka të ngjarë t'ju marrë përgjigjen 'Marie Curie shpiku uraniumin në 1898'.

Burimi: https://beta.openai.com/playground (Da Vinci instruct beta).

Burimi: https://beta.openai.com/playground (Da Vinci instruct beta).

Në fakt, Urani ishte zbuluar në 1789 nga kimisti gjerman Martin Heinrich Klaproth, ndërsa zbulimi i Curies në 1898 ishte izolim të radiumit.

Problemi i sistemeve NLP që injorojnë presupozimet e pasakta është vënë në fokus në një numër burimesh publicitare këtë vit, duke përfshirë mënyrën se si rezultatet e kërkimit të asistuara nga AI i Google do të injorojnë informacionin e pasaktë në pyetjen "Kur vuri këmbën Neil Armstrong në Mars?" – një gabim i cili ende tregon në kohën e shkrimit të këtij artikulli, dhe në mënyrë të barabartë vlen për Toy StoryBuzz Lightyear, i cili me sa duket u ul në Hënë më 21 korrik 1969.

Tom Hanks, një tjetër Toy Story alumnus, është gjithashtu kredituar nga Google me uljen në Hënë në vitin 1970, pavarësisht se e tij Apollo 13 personazhi, astronauti Jim Lovell, është më i famshëm për të nuk pasi e ka arritur këtë.

Adresimi i Çështjeve të Presupozimeve në Shkëmbimet NLP

Tani Google Research, së bashku me studiues nga Universiteti John Hopkins dhe Universiteti Brown, po heton metoda të reja të mësimit të makinerive me anë të të cilave sistemet NLP mund të bëhen përfundimisht për të sfiduar pyetjet faktikisht të pasakta në të njëjtën mënyrë që është thelbësore që mësuesit të bëjnë gjatë bisedave me nxënësit. .

I fundit letër Cili gjuhëtar shpiku llambën? Verifikimi i parasupozimeve për pyetje-përgjigje përshkruan një përpjekje të përbashkët për të zhvilluar një sistem të ri për të identifikuar supozimet dhe për të marrë parasysh vërtetësinë e tyre përpara se të vazhdojë shkëmbimi

Algoritmi i ri parapërpunon në mënyrë efektive pyetjet përpara se të kthehet në bisedë, duke zbërthyer "autentifikimin" e pyetjes në një proces me tre pjesë.

Nuk llogarit! Në të majtë, 'bllokimi' që ndodh edhe kur një sistem i avancuar NLP ka qenë në gjendje të identifikojë se pyetja nuk ka kuptim. Në të djathtë, një ndarje e një algoritmi të propozuar që përpiqet të korrigjojë gabimin e burimit. Burimi: https://arxiv.org/pdf/2101.00391.pdf

Nuk llogarit! Në të majtë, 'bllokimi' që ndodh edhe kur një sistem i avancuar NLP ka qenë në gjendje të identifikojë se pyetja nuk ka kuptim. Në të djathtë, një ndarje e një algoritmi të propozuar që përpiqet të korrigjojë gabimin e burimit. Burimi: https://arxiv.org/pdf/2101.00391.pdf

Megjithëse duket një rutinë e thjeshtë verifikimi që duhet të ishte ndërtuar në sistemet e njohurive që në fillim, shumica e rutinave të trajnimit të bazuara në NLP mësojnë informacione me një nivel të tepërt besimi për të dhënat burimore, duke përfshirë diskursin (siç janë lajmet e rreme) që mund të kenë qenë të publikuara në kanalet e mëparshme 'të besuara'.

Prandaj, një çështje kyçe është identifikimi me konsensus i një burimi të besueshëm faktesh në një klimë ku përhapja e 'lajmeve' të pasakta përmes mediave sociale, si parazgjedhje, do t'i jepte autoritet nën logjikën e përgjithësimit të mësimit të makinës. Kjo e fundit ka prirur të përdorë sasinë ose përsëritjen e të dhënave si një përafrues për saktësinë, të paktën derisa fenomenet e lajmeve të rreme u bënë një fushë kritike e interesit në këtë fushë vitet e fundit.

Përcaktimi i qasjes më të mirë ndaj pyetjeve pa përgjigje

Për të përcaktuar një qasje të përshtatshme për zgjidhjen e një pyetjeje që përmban dezinformata, studiuesit kryen 100 pyetje të tilla përmes katër modeleve të ndryshme të pyetjeve dhe përgjigjeve dhe u kërkuan subjekteve njerëzore të zgjidhnin zgjidhjen më të mirë ose më pak problematike që gjeneruan modelet.

Katër rezultatet e mundshme arkitekturore për pyetjen 'e keqe' ishin: 'e pa pergjigje' – ku një sistem pyetjesh dhe përgjigjesh me libra të mbyllur në mënyrë efektive mbyll hetimin pa elaborim të mëtejshëm; 'Shpjegim i bazuar në dështimin e supozimeve' – kur sistemi nuk arrin të verifikojë supozimin e pasaktë, në mënyrë efektive një përgjigje 'e papërgjigjshme', me një shpjegim të shtuar; 'Shpjegim ekstraktues' – ku sistemi merr një citim të Wikipedia-s që ka lidhje me temën dhe e shton atë në parathënien "Kjo pyetje është e papranueshme sepse..."; dhe 'Rishkrimi i hapur i domenit' - ku a sistemi konkurrues kërkon burime shtesë nga Wikipedia.

Ky shembull i katër përgjigjeve të mundshme për një pyetje në dukje 'pa përgjigje' ilustron kompleksitetin e përpjekjes për një zgjidhje konkurruese të problemit të bazuar në domen.

Ky shembull i katër përgjigjeve të mundshme për një pyetje në dukje 'pa përgjigje' ilustron kompleksitetin e përpjekjes për një zgjidhje konkurruese të problemit të bazuar në domen.

Gjatë testeve, pesë pjesëmarrësit (të rekrutuar në një platformë të brendshme të burimeve të Google) preferuan përgjigjet e bazuara në supozime, të cilat i çuan studiuesit të zhvillonin një kornizë të re për të zbërthyer dhe verifikuar pyetjet.

Në sistemin e ri, nxitësit gjuhësorë merren nga pyetja nga një gjenerator i bazuar në rregulla që zbërthen fjalinë në deklarata të supozuara të faktit. Nëse nga pyetja rrjedhin supozime të shumta, secila prej tyre hetohet dhe do të kontribuojë në përgjigjen përfundimtare nëse adresojnë supozime të gabuara nga pyetja origjinale.

datasets

Presupozimet e krijuara në fazën fillestare u ndryshuan manualisht për të krijuar një bazë të dhënash verifikimi me presupozime 'ari'. Çdo supozim që doli nga degëzimi i hetimit, por që nuk ishte i pranishëm në pyetjet origjinale, u hoq.

Dy nga autorët e punimit më pas shënuan manualisht 462 supozime për sa i përket po / jo verifikueshmëria, bazuar në një faqe përkatëse të Wikipedia-s lidhur me secilën pyetje. Rastet e mosmarrëveshjeve u zgjidhën në diskutim post-fakto përpara se të angazhoheshin në grupin e të dhënave.

Studiuesit përdorën NLI me goditje zero, një detyrë e klasifikimit të premisave/hipotezave që kërkonte zbërthimin e artikujve të Wikipedia-s në lidhje me pyetjet. Meqenëse ky proces rezulton në shumë më tepër çifte sesa mund të kërkojë pyetja ose mbështetja e modelit, rezultatet e filtruara më pas u grumbulluan dhe u etiketuan.

Rezultatet dhe formulimi i përgjigjes

Rezultatet më efektive u morën nga zgjidhja më intensive e punës: një hibrid i rregulluar më mirë, i bazuar në rregulla/NLI i krijuar nga ALBERT QNLI me fjali dhe parasupozime Wiki.

Performanca e modeleve të verifikimit, ku 'fjalitë Wiki' përdor fjali të marra nga artikujt e Wikipedia-s të lidhura me pyetjet dhe 'Parasupozimet e Wiki' janë krijuar parasupozime nga ato fjali.

Performanca e modeleve të verifikimit, ku 'fjalitë Wiki' përdor fjali të marra nga artikujt e Wikipedia-s të lidhura me pyetjet dhe 'Parasupozimet e Wiki' janë krijuar parasupozime nga ato fjali.

Duke përdorur këtë formulim, studiuesit zhvilluan një sistem shabllon ku një fakt mohues nga Wikipedia iu bashkëngjit 'Kjo pyetje është e papranueshme sepse…' dhe fraza të ngjashme. Megjithëse nuk është një zgjidhje ideale, autorët sugjerojnë që përgjigjet e bazuara në paverifikueshmërinë ka të ngjarë të zvogëlojnë incidencën e negativeve të rreme.

Sistemi u implementua përfundimisht në një Ndërtimi i Zgjeruar i Transformatorit modeli (ETC).

Implikimet

Në varësi të performancës së tij përfundimtare në botën reale, mund të argumentohet se e gjithë kjo qasje mund të çojë në zëvendësimin e thjeshtë të fjalës 'të paverifikueshme' me 'të papërgjigjshme', në rastet kur sistemi i kërkimit mbështetës nuk mund të vlerësojë një korrigjim të dobishëm për supozimin e gabuar të një pyetjeje. . Në mënyrë efektive, duket se po shtron infrastrukturën për sistemet e ardhshme dhe më të mira të verifikimit.

Studiuesit tashmë pranojnë se shpenzimet e kërkesave API të bazuara në token janë një faktor kufizues kur formulohen përgjigjet më të gjata që do të gjenerojë ky sistem dhe duhet të supozohet se shpenzimet shtesë të kërkimit 'live' në një pyetje duket se do të shtojnë latente edhe për sistemet në shkallë të gjerë si GPT-3, pasi reagimi i sistemeve të tilla është varur deri më sot nga inkorporimi i përgjithshëm i njohurive në kohën e trajnimit, në vend të rutinave të gjera të verifikimit të bazuara në rrjet.

Për më tepër, studiuesit vërejnë se sistemi aktualisht ka kufizime në lidhje me analizimin e aspekteve semantike të tekstit:

Për shembull, kush beson se pipi është nëna e Estellës ka një pronore të ngulitur nën një folje jofaktore Besoj, por gjeneratori ynë megjithatë do të gjeneronte 'estella ka 'nënë'.

Sidoqoftë, ekipi parashikon sisteme të reja dhe më fleksibël të përgjigjes së pyetjeve që do të zhvillohen në anën e pasme të këtij hulumtimi:

Në të ardhmen, ne planifikojmë të ndërtojmë këtë punë duke propozuar sisteme SC që janë më të fuqishme dhe bashkëpunuese. Për shembull, lloje të ndryshme të dështimeve të presupozimeve mund të adresohen nga strategji më të rrjedhshme të përgjigjes - p.sh., shkelja e presupozimeve të unike mund të trajtohet më mirë duke ofruar të gjitha përgjigjet e mundshme, në vend që të deklarohet se presupozimi i unike është shkelur.