Umelá inteligencia

Modely generatívneho písania založené na AI často „kopírujú a prilepujú“ zdrojové údaje

Aktualizované on Decembra 9, 2022

Americký dramatik a podnikateľ Wilson Mizner je často citovaný ako výrok: „Keď kradnete jedného autora, je to plagiát; ak kradnete od mnohých, je to výskum“.

Podobne aj predpoklad okolo Nová generácia systémov kreatívneho písania založených na AI je, že obrovské množstvo údajov kŕmené vo fáze školenia viedli k pravému abstrakcie koncepcií a nápadov na vysokej úrovni; že tieto systémy majú k dispozícii destilovanú múdrosť tisícok prispievajúcich autorov, z ktorej môže AI formulovať inovatívne a originálne písanie; a že tí, ktorí používajú takéto systémy, si môžu byť istí, že sa neúmyselne nevyžívajú v plagiátorstve prostredníctvom proxy.

Je to predpoklad, ktorý spochybňuje nový dokument výskumného konzorcia (vrátane výskumných divízií AI Facebooku a Microsoftu), ktorý zistil, že generatívne jazykové modely strojového učenia, ako je séria GPT „občas kopírujte aj veľmi dlhé pasáže“ do ich údajne pôvodného výstupu bez uvedenia zdroja.

V niektorých prípadoch, poznamenávajú autori, GPT-2 vo svojom výstupe duplikuje viac ako 1,000 XNUMX slov z tréningovej sady.

papier je s názvom Koľko jazykové modely kopírujú zo svojich tréningových údajov? Hodnotenie lingvistickej novosti pri generovaní textu pomocou RAVENa ide o spoluprácu medzi Johns Hopkins University, Microsoft Research, New York University a Facebook AI Research.

RAVEN

Štúdia využíva nový prístup s názvom RAVEN (RAtingVERbalNovelty), skratku, ktorá bola zábavne mučená, aby odrážala vtáčieho darebáka klasickej básne:

„Táto skratka odkazuje na „Havran“ od Edgara Allana Poea, v ktorom sa rozprávač stretáva s tajomným havranom, ktorý opakovane volá: „Už nikdy!“ Rozprávač nedokáže povedať, či havran jednoducho opakuje niečo, čo počul povedať človeka, alebo či vytvára svoje vlastné výroky (možno kombináciou nikdy a viac) — rovnaká základná nejednoznačnosť, ktorou sa zaoberá náš článok.'

Zistenia z nového článku prichádzajú v kontexte veľkého rastu systémov na písanie obsahu AI, ktoré sa snažia nahradiť „jednoduché“ úlohy úprav a dokonca písať obsah v plnej dĺžke. Jeden taký systém dostal 21 milióna dolárov vo financovaní série A začiatkom tohto týždňa.

Vedci na vedomie, že 'GPT-2 niekedy duplikuje tréningové pasáže, ktoré sú viac ako 1,000 slov." (ich dôraz) a že generatívne jazykové systémy šíria jazykové chyby v zdrojových údajoch.

Jazykové modely študované v rámci RAVEN boli séria GPT vydaní až po GPT-2 (autori v tom čase nemali prístup ku GPT-3), Transformer, Transformer-XL a LSTM.

Novinka

Dokument poznamenáva, že GPT-2 razí inflexie v štýle Bush 2, ako napr 'Swissified', a odvodeniny ako napr „IKEA-ness“vytváranie takýchto nových slov (neobjavujú sa v tréningových údajoch GPT-2) na lingvistických princípoch odvodených z priestorov vyšších dimenzií vytvorených počas tréningu.

Výsledky tiež ukazujú, že „74 % viet generovaných Transformer-XL má syntaktickú štruktúru, ktorú nemá žiadna cvičná veta“, čo naznačuje, ako uvádzajú autori, „Nervové jazykové modely sa jednoducho neučia naspamäť; namiesto toho používajú produktívne procesy, ktoré im umožňujú kombinovať známe časti novými spôsobmi.“

Technicky teda zovšeobecňovanie a abstrakcia by vytvárať inovatívne a nové texty.

Duplikácia údajov môže byť problémom

Článok teoretizuje, že dlhé a doslovné citácie produkované systémami Natural Language Generation (NLG) by sa mohli stať „zapečenými“ celkom do modelu AI, pretože pôvodný zdrojový text sa viackrát opakuje v súboroch údajov, ktoré neboli dostatočne deduplikované.

Hoci ďalší výskumný projekt zistil, že k úplnej duplikácii textu môže dôjsť aj vtedy, ak sa objaví iba zdrojový text naraz v súbore údajov autori poznamenávajú, že projekt má odlišné koncepčné architektúry od bežného behu systémov umelej inteligencie generujúcich obsah.

Autori tiež pozorujú, že zmena dekódovacieho komponentu v systémoch na generovanie jazyka by mohla zvýšiť novosť, ale v testoch zistili, že k tomu dochádza na úkor kvality výstupu.

Ďalšie problémy sa objavujú, keď sa súbory údajov, ktoré algoritmy generujúce obsah paliva stále zväčšujú. Okrem zhoršujúcich sa problémov týkajúcich sa cenovej dostupnosti a životaschopnosti predbežného spracovania údajov, ako aj zabezpečenia kvality a deduplikácie údajov, zostáva veľa základných chýb v zdrojových údajoch, ktoré sa potom AI šíria vo výstupe obsahu.

Poznámka autorov*:

„V dôsledku nedávneho nárastu veľkosti tréningových súprav je obzvlášť dôležité kontrolovať novosť, pretože veľkosť týchto tréningových súprav môže narušiť našu intuíciu o tom, čo možno očakávať, že sa prirodzene stane. Napríklad niektoré pozoruhodné práce v Jazyk nadobudnutia vychádza z predpokladu, že formy pravidelného minulého času nepravidelných slovies (napr. stal sa, učil) sa neobjavujú v skúsenosti študenta, takže ak študent vytvorí takéto slová, musia byť pre študenta nové.

"Ukazuje sa však, že pre všetkých 92 základných nepravidelných slovies v angličtine sa v trénovacej množine GPT-2 objavuje nesprávny pravidelný tvar."

Vyžaduje sa viac spravovania údajov

V článku sa tvrdí, že je potrebné venovať väčšiu pozornosť novinkám vo formulácii generatívnych jazykových systémov, s osobitným dôrazom na zabezpečenie toho, aby „zadržaná“ testovacia časť údajov (časť zdrojových údajov, ktorá je vyčlenená na testovanie, ako konečný algoritmus vyhodnotil hlavný súbor trénovaných údajov) je vhodný pre danú úlohu.

„Pri strojovom učení je dôležité hodnotiť modely na zadržanej testovacej sade. Kvôli otvorenému charakteru generovania textu môže byť vygenerovaný text modelu skopírovaný z trénovacej sady, v takom prípade nie je zadržaný – takže použitie týchto údajov na vyhodnotenie modelu (napr. z dôvodu koherencie alebo gramatiky) nie je platné. .'

Autori tiež tvrdia, že pri výrobe jazykových modelov je potrebná väčšia pozornosť Eliza efekt, syndróm identifikovaný v roku 1966, ktorý identifikoval „citlivosť ľudí čítať oveľa viac porozumenia, než je zaručené do reťazcov symbolov – najmä slov – spojených počítačmi“.

* Moja konverzia vložených citácií na hypertextové odkazy