Tekoäly

Tekoälyyn perustuvat generatiiviset kirjoitusmallit "kopioivat ja liittävät" usein lähdetietoja

Päivitetty on Joulukuu 9, 2022

Amerikkalainen näytelmäkirjailija ja yrittäjä Wilson Mizner on usein kuuluisa sanoneen: "Kun varastat yhdeltä kirjailijalta, se on plagiointia; jos varastat monelta, se on tutkimusta.

Samoin oletus ympärillä uusi sukupolvi tekoälypohjaisten luovien kirjoitusjärjestelmien joukossa on se valtavia tietomääriä niille koulutusvaiheessa syötetyt ovat johtaneet aitoon abstraktio korkean tason käsitteitä ja ideoita; että näillä järjestelmillä on käytettävissään tuhansien osallistuneiden tekijöiden tislattu viisaus, josta tekoäly voi muotoilla innovatiivista ja omaperäistä kirjoitusta; ja että ne, jotka käyttävät tällaisia järjestelmiä, voivat olla varmoja siitä, etteivät he vahingossa suostu plagiointiin välityspalvelimen kautta.

Tämän oletuksen kyseenalaistaa tutkimuskonsortion (mukaan lukien Facebook ja Microsoftin tekoälytutkimusosastot) uusi paperi, joka on havainnut, että koneoppimisen generatiiviset kielimallit, kuten GPT-sarja "kopioi toisinaan jopa erittäin pitkiä kohtia" oletettavasti alkuperäiseen tuotantoonsa ilman merkintää.

Kirjoittajat huomauttavat joissakin tapauksissa, että GPT-2 kopioi yli 1,000 XNUMX sanaa harjoitusjoukosta tulostuksessaan.

- paperi on otsikko Kuinka paljon kielimallit kopioivat harjoitustiedoistaan? Kielellisen uutuuden arviointi tekstin luomisessa RAVENin avulla, ja se on Johns Hopkins Universityn, Microsoft Researchin, New Yorkin yliopiston ja Facebook AI Researchin yhteistyö.

KORPPI

Tutkimuksessa käytetään uutta lähestymistapaa nimeltä RAVEN (RAtingVERbalNovelty), lyhenne, jota on viihdyttävästi kidutettu heijastamaan klassisen runon lintupahista:

Tämä lyhenne viittaa Edgar Allan Poen kirjaan "The Raven", jossa kertoja kohtaa salaperäisen korpin, joka huutaa toistuvasti: "Ei koskaan!" Kertoja ei voi kertoa, toistaako korppi vain jotain, mitä se on kuullut ihmisen sanovan, vai rakentaako se omia lausumiaan (ehkä yhdistämällä ei ikinä ja lisää) — sama perus moniselitteisyys, jota artikkelimme käsittelee.

Uuden paperin havainnot liittyvät tekoälyn sisällönkirjoitusjärjestelmien suureen kasvuun, sillä ne pyrkivät syrjäyttämään "yksinkertaiset" muokkaustehtävät ja jopa kirjoittamaan täyspitkää sisältöä. Yksi tällainen järjestelmä sai 21 miljoonaa dollaria A-sarjan rahoituksessa aiemmin tällä viikolla.

Tutkijat huomauttavat tämän "GPT-2 toisinaan kopioi harjoitusjaksot, jotka ovat yli 1,000 sanaa pitkä." (heidän painotuksensa) ja että generatiiviset kielijärjestelmät levittävät kielivirheitä lähdetiedoissa.

RAVENin alla tutkitut kielimallit olivat GPT-julkaisusarja GPT-2:een asti (tekijöillä ei ollut pääsyä GPT-3:een tuolloin), Transformer, Transformer-XL ja LSTM.

Uutuus

Paperi toteaa, että GPT-2 kolikot Bush 2 -tyylinen taivutus, kuten "Sveitsiläinen", ja johdannaisia, kuten "IKEA-ness", luomalla tällaisia uusia sanoja (ne eivät näy GPT-2:n harjoitusdatassa) kieliperiaatteilla, jotka on johdettu koulutuksen aikana muodostetuista korkeamman ulottuvuuden tiloista.

Tulokset osoittavat myös, että "74 prosentilla Transformer-XL:n luomista lauseista on syntaktinen rakenne, jota ei ole harjoituslauseessa", mikä osoittaa, kuten kirjoittajat väittävät, 'hermokielimallit eivät yksinkertaisesti muista; Sen sijaan he käyttävät tuottavia prosesseja, joiden avulla he voivat yhdistää tuttuja osia uudella tavalla.

Joten teknisesti yleistys ja abstraktio shouldnt tuottaa innovatiivista ja uutta tekstiä.

Tietojen päällekkäisyys voi olla ongelma

Paperi teoretisoi, että Natural Language Generation (NLG) -järjestelmien tuottamat pitkät ja sanatarkat lainaukset voivat "paistua" kokonaisiksi tekoälymalliin, koska alkuperäinen lähdeteksti toistetaan useita kertoja aineistoissa, joita ei ole riittävästi poistettu.

Vaikka toinen tutkimusprojekti on havainnut, että tekstin täydellinen päällekkäisyys voi tapahtua, vaikka vain lähdeteksti ilmestyisi kerran Aineistossa kirjoittajat huomauttavat, että projektilla on erilaisia käsitteellisiä arkkitehtuureja kuin tavallisilla sisältöä luovilla tekoälyjärjestelmillä.

Kirjoittajat havaitsevat myös, että dekoodauskomponentin muuttaminen kielentuotantojärjestelmissä voisi lisätä uutuutta, mutta havaitsivat testeissä, että tämä tapahtuu tulosteen laadun kustannuksella.

Lisää ongelmia ilmenee, kun sisältöä luovien algoritmien polttoainetta käyttävien tietojoukot kasvavat jatkuvasti. Tietojen esikäsittelyn kohtuuhintaisuuteen ja kannattavuuteen sekä laadunvarmistukseen ja tietojen päällekkäisyyden poistamiseen liittyvien pahentavien ongelmien lisäksi monia perusvirheitä on jäljellä lähdetiedoissa, jotka sitten leviävät AI:n sisällössä.

Tekijät huomauttavat*:

"Viimeaikaiset lisäykset harjoitussarjojen kokoissa tekevät erityisen tärkeäksi tarkistaa uutuuden, koska näiden harjoitussarjojen suuruus voi murtaa intuitiot siitä, mitä voidaan odottaa tapahtuvan luonnollisesti. Esimerkiksi joitain merkittäviä töitä Kieli hankinta perustuu oletukseen, että epäsäännöllisten verbien säännölliset menneisyyden muodot (esim. tullut, opetettu) eivät esiinny oppijan kokemuksessa, joten jos oppija tuottaa tällaisia sanoja, niiden on oltava uusia oppijalle.

"On kuitenkin käynyt ilmi, että GPT-92:n harjoitussarjassa esiintyy virheellinen säännöllinen muoto kaikissa englannin 2 epäsäännöllisen perusverbin kohdalla."

Lisää tietojen kuratointia tarvitaan

Paperi väittää, että generatiivisten kielijärjestelmien muotoilussa on kiinnitettävä enemmän huomiota uutuuksiin, erityisesti sen varmistamiseen, että tiedosta "suljettu" testiosa (lähdetiedon osa, joka on varattu testaamaan, miten No, lopullinen algoritmi on arvioinut suurimman osan koulutetusta datasta) on sopiva tehtävään.

"Koneoppimisessa on kriittistä arvioida malleja pidätetyllä testijoukolla. Tekstin luomisen avoimesta luonteesta johtuen mallin luoma teksti saatetaan kopioida harjoitusjoukosta, jolloin sitä ei pidätetä – joten näiden tietojen käyttäminen mallin arvioimiseen (esim. johdonmukaisuuden tai kieliopillisuuden vuoksi) ei kelpaa. .'

Kirjoittajat väittävät myös, että myös kielimallien tuottamisessa tarvitaan enemmän huolellisuutta Eliza vaikutus, vuonna 1966 tunnistettu oireyhtymä, joka tunnisti "ihmisten taipumusta lukea paljon enemmän ymmärrystä kuin on oikeutettu tietokoneiden yhdistämiin symbolijonoihin - erityisesti sanoihin".

* Muutokseni upotetut lainaukset hyperlinkeiksi

Liittyvät aiheet:luonnollinen kielenkäsittely NLP tutkimus

Seuraavaksi

Twitch-emotien ymmärtäminen tunneanalyysissä

Älä missaa

Distentanglement on seuraava Deepfake Revolution

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai