Connect with us

Tekoäly

Saa NLP haastamaan väärät kysymykset

mm

Joitain kysymyksiä ei voida vastata, koska ne sisältävät virheellistä tietoa – oletuksia, joita kuuntelijan on suodatettava ja hylättävä. Tämä olettaa, että kuuntelija on saanut riittävästi oikein tietoa haastamaan kysymyksen, sen sijaan, että käyttäisi itse kysymystä virheellisen tiedon lähteenä.

Tämä on haaste Natural Language Processing (NLP) -järjestelmille, kuten GPT-3, joilla on taipumus “hallusinoida” tietoa jatkuvan dialogin ylläpitämiseksi.

Tällä hetkellä, kun kysyt GPT-3:ltä “Milloin Marie Curie keksi uraanin?”, saat todennäköisesti vastauksen “Marie Curie keksi uraanin vuonna 1898”.

Lähde: https://beta.openai.com/playground (Da Vinci instruct beta).

Lähde: https://beta.openai.com/playground (Da Vinci instruct beta).

Itse asiassa uraani löydettiin vuonna 1789 saksalaisen kemistin Martin Heinrich Klaprothin toimesta, kun taas Curien vuoden 1898 löytö oli radiumin eristäminen.

NLP-järjestelmien ongelma, joka liittyy virheellisten oletusten ohittamiseen, on tullut esiin useissa julkisuuden kannalta merkittävissä tapauksissa tänä vuonna, mukaan lukien Google-haun tulokset, jotka ohittavat virheellisen tiedon kysymyksessä “Milloin Neil Armstrong astui Marsiin?” – virhe, joka edelleen näkyy tämän artikkelin kirjoittamishetkellä, ja joka koskee myös Toy Storyn hahmoa Buzz Lightyearia, joka ilmeisesti laskeutui Kuuhun 21. heinäkuuta 1969.

Tom Hanks, toinen Toy Storyn näyttelijä, on myös Googlella kreditoitu Kuun laskeutumisesta vuonna 1970, vaikka hänen Apollo 13 -hahmonsa, astronautti Jim Lovell, on kuuluisa siitä, ettei hän onnistunut tässä.

Oletusten ongelman ratkaiseminen NLP-vaihdossa

Nyt Google Research, yhdessä Johns Hopkinsin yliopiston ja Brownin yliopiston tutkijoiden kanssa, tutkii uusia koneoppimismenetelmiä, joilla NLP-järjestelmät voivat lopulta haastaa tosiasiallisesti virheellisiä kysymyksiä samalla tavalla, jolla se on välttämätöntä ihmisopettajille keskustellessa oppilaiden kanssa.

Viimeaikainen artikkeli Kuka kielitieteilijä keksi hehkulampun? Oletuksen verifiointi kysymys-vastaus -järjestelmiin esittää yhteistyöhön perustuvan pyrkinnön kehittää uusi järjestelmä, joka tunnistaa oletukset ja arvioi niiden totuuden ennen kuin jatkaa vaihtoa.

Uusi algoritmi käsittelee kysymyksiä ennen kuin palaa keskusteluun, ja jakaa “kysymyksen todentamisen” kolmeen osaan.

Ei voi laskea! Vasemmalla, 'tiensulkupilari', joka tapahtuu, vaikka edistynyt NLP-järjestelmä on pystynyt tunnistamaan, että kysymys ei ole järkevä. Oikealla, ehdotetun algoritmin hajoitus, joka yrittää korjata virheen lähteessä.

Ei voi laskea! Vasemmalla, ‘tiensulkupilari’, joka tapahtuu, vaikka edistynyt NLP-järjestelmä on pystynyt tunnistamaan, että kysymys ei ole järkevä. Oikealla, ehdotetun algoritmin hajoitus, joka yrittää korjata virheen lähteessä. Lähde: https://arxiv.org/pdf/2101.00391.pdf

Vaikka se näyttää yksinkertaiselta verifiointirutiinilta, joka olisi pitänyt sisällyttää tietojärjestelmiin alusta alkaen, useimmat NLP-pohjaiset koulutusohjelmat oppivat tiedon liian suurella luottamuksella lähdeaineistolle, mukaan lukien keskustelu (kuten väärä uutinen), joka on julkaistu aiemmin “luotettavilla” kanavilla.

On siis tärkeää tunnistaa konsensuksella luotettava tosiasiallisten tietojen lähde ilmapiirissä, jossa virheellisen “uutisen” leviäminen sosiaalisessa mediassa antaisi oletettavasti sille valtuutuksen koneoppimisen yleistämisen logiikan mukaan, ainakin kunnes väärän uutisen ilmiö tuli kriittiseksi aihealueeksi viime vuosina.

Parhaan lähestymistavan määrittäminen vastaamattomiin kysymyksiin

Määrittääkseen sopivan lähestymistavan virheellisen kysymyksen ratkaisemiseksi, tutkijat suorittivat 100 tällaista kysymystä neljän eri Q&A-mallin kautta ja pyysivät ihmiskohtaisia koehenkilöitä valitsemaan parhaan tai vähiten ongelmallisen ratkaisun, jonka mallit generoivat.

Neljä mahdollista arkkitehtuurin tulosta “huonoon” kysymykseen olivat: ‘Vastaamaton’ – jossa suljettu kirja Q&A-järjestelmä sulkee kyselyn ilman lisätietoja; ‘Oletuksen epäonnistumisen perusteella selitys’ – jossa järjestelmä ei voi vahvistaa virheellistä oletusta, tehokkaasti “vastaamaton” vastaus, johon on lisätty selitys; ‘Eksplisiittinen selitys’ – jossa järjestelmä hakee aiheeseen liittyvän Wikipedian lainauksen ja liittää sen esittelyyn “Tämä kysymys on vastaamaton, koska…”; ja ‘Avoin alueen uudelleenkirjoitus’ – jossa kilpailukykyinen järjestelmä hakee lisää lähteitä Wikipediasta.

Tämä esimerkki neljästä mahdollisesta vastauksesta ilmeisesti 'vastaamattomaan' kysymykseen osoittaa yrityksen monimutkaisuutta kilpailukykyisen aluepohjaisen ratkaisun ongelmaan.

Tämä esimerkki neljästä mahdollisesta vastauksesta ilmeisesti ‘vastaamattomaan’ kysymykseen osoittaa yrityksen monimutkaisuutta kilpailukykyisen aluepohjaisen ratkaisun ongelmaan.

Kokeiden aikana viisi osallistujaa (joiden rekrytointi tapahtui Google- sisäisellä crowdsourcing-alustalla) suosivat oletusperäisiä vastauksia, mikä johti tutkijoiden kehittämään uuden kehyksen, joka hajottaa ja vahvistaa kysymyksiä.

Uudessa järjestelmässä kielelliset laukaisijat saadaan kysymyksestä sääntöpohjaisella generoijalla, joka hajottaa lauseen oletusväittämisiksi. Jos useita oletuksia johdetaan kysymyksestä, kunkin niistä tutkitaan, ja ne osallistuvat lopulliseen vastaukseen, jos ne osoittavat virheellisiä oletuksia alkuperäisestä kysymyksestä.

Tiedostot

Alkuvaiheessa generoituja oletuksia muokattiin manuaalisesti luodakseen verifiointitiedoston “kultaisilla” oletuksilla. Kaikki oletukset, jotka tulivat esiin kysymyksen haarakkeesta, mutta eivät olleet läsnä alkuperäisissä kysymyksissä, poistettiin.

Kahden artikkelin kirjoittajan täytyi manuaalisesti annotoida 462 oletusta kyllä/ei -verifiointia varten, perustuen asiaankuuluvaan Wikipedian sivuun, joka liittyi kunkin kysymyksen. Tapaukset, joissa oli erimielisyyttä, ratkaistiin jälkikäteen ennen kuin ne otettiin tiedostoon.

Tutkijat käyttivät zero-shot NLI:a, joka edellytti Wikipedian artikkeleiden hajottamista kysymyksiin liittyen. Koska tämä prosessi johtaa useisiin pareihin kuin kysymys voi sisältää tai malli tukea, suodatetut tulokset yhdistettiin ja merkittiin.

Tulokset ja vastausten muodostus

Parhaat tulokset saavutettiin työläimmällä ratkaisulla: hienosäätöisellä, sääntöpohjaisella/NLI-hybridillä, joka generoitiin ALBERT QNLI:sta Wiki-lauseilla ja oletuksilla.

Verifiointimallien suorituskyky, jossa 'Wiki-lauseet' käyttää kysymykseen liittyviä Wikipedian artikkeleita, ja 'Wiki-oletukset' ovat näistä lauseista generoituja oletuksia.

Verifiointimallien suorituskyky, jossa ‘Wiki-lauseet’ käyttää kysymykseen liittyviä Wikipedian artikkeleita, ja ‘Wiki-oletukset’ ovat näistä lauseista generoituja oletuksia.

Tämän muodostelman avulla tutkijat kehittivät mallijärjestelmän, jossa Wikipedian tosiasiallinen tieto liitettiin “Tämä kysymys on vastaamaton, koska…” -tyyppisiin lauseisiin. Vaikka se ei ole ihanteellinen ratkaisu, kirjoittajat ehdottavat, että vastaukset, jotka perustuvat verifiointiin, ovat todennäköisesti vähentävät virheellisten negatiivisten tapausten määrää.

Järjestelmä toteutettiin lopulta Laajennetun Transformer-rakenteen (ETC) mallissa.

Merkitseminen

Riippuen lopullisesta suorituskyvystä todellisessa maailmassa, voidaan väittää, että tämä lähestymistapa voi johtaa ainoastaan “verifiointiin” “vastaamattoman” sijaan, tapauksissa, joissa tukijärjestelmä ei voi arvioida hyödyllistä korjausta kysymyksen virheelliseen oletukseen. Tehokkaasti, se näyttää rakentavan infrastruktuurin tuleville ja paremmille verifiointijärjestelmille.

Tutkijat myöntävät jo, että token-pohjaisen API-pyynnön kustannukset ovat rajoittava tekijä vastausten muodostamisessa, ja on oletettava, että lisättyyn taustatutkimukseen kysymyksestä liittyvä lisälatenssi on todennäköinen, vaikka suuret järjestelmät, kuten GPT-3, ovat toistaiseksi riippuvaisia yleistetyn tiedon sisällyttämisestä koulutusvaiheessa eikä laajamittaisista, verkkopohjaisista verifiointirutiineista.

Esimerkiksi, kuka uskoo, kuka on Estellan äiti on sisäänrakennettu omistaja epätosiassa verbi uskoa , mutta meidän generoija ei voi muodostaa ‘Estellan’ äiti .

Tutkijaryhmä näkee kuitenkin uusia, joustavampia kysymys-vastausjärjestelmiä, jotka kehitetään tämän tutkimuksen pohjalta:

Tulevaisuudessa suunnittelemme kehittävämme tästä työstä edelleen ehdottamalla QA-järjestelmiä, jotka ovat robustimpia ja yhteistyökykyisempiä. Esimerkiksi erilaiset oletusvirheet voitaisiin käsitellä joustavammilla vastaustaktiikoilla – esimerkiksi yksilöllisten oletusten rikkomiset voitaisiin käsitellä tarjoamalla kaikki mahdolliset vastaukset sen sijaan, että ilmoitettaisiin, että yksilöllisyysoletus oli rikottu.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]