Umělá inteligence

Modely generativního zápisu založené na umělé inteligenci často „kopírují a vkládají“ zdrojová data

aktualizováno on 9. prosince 2022

Americký dramatik a podnikatel Wilson Mizner je často citován jako výrok „Když kradete jednoho autora, je to plagiát; pokud ukradnete mnoho, je to výzkum“.

Podobně i předpoklad kolem nová generace systémů tvůrčího psaní založených na umělé inteligenci je to obrovské množství dat podávané jim ve fázi výcviku vyústily v opravdové abstrakce konceptů a nápadů na vysoké úrovni; že tyto systémy disponují destilovanou moudrostí tisíců přispívajících autorů, z nichž AI může formulovat inovativní a originální psaní; a že ti, kteří takové systémy používají, si mohou být jisti, že se neúmyslně nevyžívají v plagiátorství prostřednictvím proxy.

Je to předpoklad, který zpochybňuje nový článek výzkumného konsorcia (včetně Facebooku a výzkumných divizí AI společnosti Microsoft), které zjistilo, že generativní jazykové modely strojového učení, jako je řada GPT 'občas kopíruj i velmi dlouhé pasáže' do jejich údajně původního výstupu, bez uvedení zdroje.

V některých případech, poznamenávají autoři, GPT-2 ve svém výstupu duplikuje více než 1,000 XNUMX slov z trénovací sady.

Projekt papír je s názvem Jak moc jazykové modely kopírují ze svých tréninkových dat? Hodnocení lingvistické novosti při generování textu pomocí RAVEN, a jde o spolupráci mezi Johns Hopkins University, Microsoft Research, New York University a Facebook AI Research.

HAVRAN

Studie využívá nový přístup nazvaný RAVEN (RAtingVERbalNovelty), což je zkratka, která byla zábavně mučena, aby odrážela ptačího padoucha klasické básně:

"Tato zkratka odkazuje na "Havran" od Edgara Allana Poea, ve kterém se vypravěč setkává s tajemným havranem, který opakovaně volá: "Už nikdy!" Vypravěč nedokáže říci, zda havran pouze opakuje něco, co slyšel říkat člověka, nebo zda konstruuje své vlastní výroky (možná kombinací nikdy a vice) — stejná základní nejednoznačnost, kterou řeší naše noviny.“

Poznatky z nového článku přicházejí v kontextu velkého růstu systémů pro psaní obsahu AI, které se snaží nahradit „jednoduché“ editační úlohy a dokonce psát obsah v plné délce. Jeden takový systém obdržel 21 milionu dolarů ve financování série A začátkem tohoto týdne.

Vědci na vědomí, že 'GPT-2 někdy duplikuje tréninkové pasáže, které jsou více než 1,000 slov dlouhé." (jejich důraz) a že generativní jazykové systémy šíří jazykové chyby ve zdrojových datech.

Jazykové modely studované v rámci RAVEN byly série GPT vydání až po GPT-2 (autoři v té době neměli přístup ke GPT-3), Transformer, Transformer-XL a LSTM.

Novinka

Dokument poznamenává, že GPT-2 razí skloňování ve stylu Bush 2, jako je např 'Swissified'a odvozeniny jako např 'IKEA-ness', vytváří taková nová slova (neobjevují se v trénovacích datech GPT-2) na lingvistických principech odvozených z prostorů vyšších dimenzí vytvořených během tréninku.

Výsledky také ukazují, že „74 % vět generovaných Transformerem-XL má syntaktickou strukturu, kterou nemá žádná cvičná věta“, což naznačuje, jak uvádějí autoři, „Nervové jazykové modely se jednoduše neučí nazpaměť; místo toho používají produktivní procesy, které jim umožňují kombinovat známé části novými způsoby.“

Technicky tedy zobecnění a abstrakce by vytvářet inovativní a neotřelé texty.

Duplikace dat může být problém

Článek teoretizuje, že dlouhé a doslovné citace produkované systémy Natural Language Generation (NLG) by se mohly stát „zapečeným“ celkem v modelu AI, protože původní zdrojový text se několikrát opakuje v souborech dat, které nebyly adekvátně deduplikovány.

Ačkoli další výzkumný projekt zjistil, že může dojít k úplnému zdvojení textu, i když se objeví pouze zdrojový text jednou v datové sadě autoři poznamenávají, že projekt má odlišné koncepční architektury od běžného běhu systémů AI generujících obsah.

Autoři také pozorují, že změna dekódovací složky v systémech generování jazyků by mohla zvýšit novost, ale v testech zjistili, že k tomu dochází na úkor kvality výstupu.

Další problémy se objevují s tím, jak se datové soubory, které podporují algoritmy generující obsah, stále zvětšují. Kromě zhoršujících se problémů týkajících se cenové dostupnosti a životaschopnosti předběžného zpracování dat, jakož i zajištění kvality a deduplikace dat, zůstává mnoho základních chyb ve zdrojových datech, která se pak AI šíří ve výstupu obsahu.

Poznámka autorů*:

„Nedávné nárůsty velikostí tréninkových sad jsou obzvláště důležité pro kontrolu novinek, protože velikost těchto tréninkových sad může narušit naše intuice o tom, co lze očekávat přirozeně. Například některé pozoruhodné práce v jazyk nabytí se opírá o předpoklad, že tvary pravidelného minulého času nepravidelných sloves (např. stal se, učil) se ve studentově zkušenosti neobjevují, takže pokud student taková slova vytvoří, musí být pro studenta nová.

"Ukazuje se však, že u všech 92 základních nepravidelných sloves v angličtině se v cvičné sadě GPT-2 objevuje nesprávný pravidelný tvar."

Je potřeba více datových správ

Článek tvrdí, že je třeba věnovat více pozornosti novinkám ve formulaci generativních jazykových systémů, se zvláštním důrazem na zajištění toho, aby „zadržená“ testovací část dat (část zdrojových dat, která je vyčleněna pro testování, jak i konečný algoritmus vyhodnotil hlavní soubor trénovaných dat) je pro daný úkol vhodný.

„Ve strojovém učení je zásadní vyhodnotit modely na zadržené testovací sadě. Vzhledem k otevřené povaze generování textu může být vygenerovaný text modelu zkopírován z trénovací sady, v takovém případě není zadržen – takže použití těchto dat k vyhodnocení modelu (např. kvůli koherenci nebo gramatice) není platné. .'

Autoři také tvrdí, že je zapotřebí více péče také při výrobě jazykových modelů Eliza efekt, syndrom identifikovaný v roce 1966, který identifikoval „citlivost lidí číst mnohem více porozumění, než je zaručeno do řetězců symbolů – zejména slov – spojených počítači“.

* Můj převod inline citací na hypertextové odkazy