Umělá inteligence

Modely generativního psaní založené na AI často “kopírují a vkládají” zdrojová data

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Americký dramatik a podnikatel Wilson Mizner je často slavně citován, že řekl: ‘Když okrádáš jednoho autora, je to plagiát; pokud okrádáš mnoho, je to výzkum’.

Podobně je předpoklad kolem nové generace AI-založených kreativních systémů psaní, že ohromné množství dat krmené jim ve fázi trénování vedlo k skutečnému abstrakci vysokých konceptů a nápadů; že tyto systémy mají k dispozici destilovanou moudrost tisíců přispívajících autorů, z nichž AI může formulovat inovativní a originální psaní; a že ti, kteří tyto systémy používají, mohou být jisti, že se nedopouštějí plagiátu-proxym.

Je to předpoklad, který je zpochybněn novým článkem z výzkumného konsorcia (včetně Facebooku a Microsoftovy AI výzkumné divize), který zjistil, že modely generativního jazykového učení, jako je série GPT ‘občas kopírují i velmi dlouhé pasáže’ do svých údajně originálních výstupů, bez uvedení zdroje.

V některých případech autoři poznamenávají, že GPT-2 duplikuje více než 1 000 slov z trénovací sady ve svém výstupu.

Článek se jmenuje Jak mnoho jazykových modelů kopíruje ze svých trénovacích dat? Hodnocení lingvistické novosti v textové generaci pomocí RAVEN a je spoluprací mezi Johns Hopkins University, Microsoft Research, New York University a Facebook AI Research.

RAVEN

Studie používá nový přístup nazvaný RAVEN (RAtingVErbalNovelty), akronym, který byl zábavně mučen, aby odrážel ptáka zlého ve klasické básni:

‘Tento akronym odkazuje na “Havrana” od Edgara Allana Poea, ve kterém se vypravěč setkává s záhadným havranem, který opakovaně vykřikuje “Nevermore!” Vypravěč nemůže říci, zda havran pouze opakuje něco, co slyšel od člověka, nebo zda konstruuje své vlastní výpovědi (možná kombinací never a more)—stejné základní dvojznačnost, kterou naše práce řeší.’

Zjištění z nového článku přicházejí v kontextu velkého růstu AI systémů pro psaní obsahu, které se snaží nahradit “jednoduché” úkoly editace, a dokonce i psát plné texty. Jeden takový systém obdržel 21 milionů dolarů ve financování série A předchozí týden.

Výzkumníci poznamenávají, že ‘GPT-2 někdy duplikuje trénovací pasáže, které jsou delší než 1 000 slov.‘ (jejich důraz), a že generativní jazykové systémy šíří lingvistické chyby v zdrojových datech.

Jazykové modely studované v RAVEN byly série GPT verzí až do GPT-2 (autoři neměli přístup k GPT-3 v té době), Transformer, Transformer-XL a LSTM.

Novost

Článek poznamenává, že GPT-2 vymýšlí Bush 2-styl inflexe, jako ‘Swissified’, a derivace, jako ‘IKEA-ness’, vytváří takové nové slova (která se nevyskytují v trénovacích datech GPT-2) na základě lingvistických principů odvozených z vyšších dimenzionálních prostorů zavedených během trénování.

Výsledky také ukazují, že ’74 % vět generovaných Transformerem-XL má syntaktickou strukturu, kterou žádná trénovací věta nemá’, což podle autorů naznačuje, ‘neuronové jazykové modely nedělají pouze memorizaci; místo toho používají produktivní procesy, které jim umožňují kombinovat známé části novými způsoby.’

Takže technicky by generalizace a abstrakce měly produkovat inovativní a novátorský text.

Duplikace dat může být problémem

Článek teoretizuje, že dlouhé a doslovné citace vyrobené systémy NLG (Natural Language Generation) by mohly být “upečené” celé do modelu AI, protože původní zdrojový text je opakovaně uveden v datech, která nebyla dostatečně de-duplikována.

Ačkoli jiný výzkumný projekt zjistil, že kompletní duplikace textu může nastat, i když se zdrojový text objeví jen jednou v datech, autoři poznamenávají, že projekt má odlišné konceptuální architektury než běžné systémy generování obsahu.

Autoři také poznamenávají, že změna dekodéra v systémech generování jazyka by mohla zvýšit novost, ale zjistili, že se to děje na úkor kvality výstupu.

Další problémy vznikají, jak se datasety, které pohánějí algoritmy generování obsahu, stávají stále většími. Kromě zhoršování problémů kolem dostupnosti a životaschopnosti předzpracování dat, jakož i zajištění kvality a de-duplikace dat, mnohé základní chyby zůstávají v zdrojových datech, které se pak šíří v výstupu AI.

Autoři poznamenávají*:

‘Poslední zvýšení velikosti trénovacích sad činí zvláště kritickým zkontrolovat novost, protože velikost těchto trénovacích sad může porušit naše intuice o tom, co lze očekávat, že se bude přirozeně vyskytovat. Například některé pozoruhodné práce v jazyce získávání spoléhají na předpoklad, že pravidelné minulé tvary nepravidelných sloves (například becomed, teached) se nevyskytují v zkušenosti učitele, takže pokud se uče produkuje takové slovo, musí být nové pro učitele.

‘Avšak ukázalo se, že pro všechna 92 základní nepravidelná slovesa v angličtině se chybná pravidelná forma objevuje v trénovacích datech GPT-2.’

Více kurace dat je potřeba

Článek tvrdí, že je třeba věnovat více pozornosti novosti při formulaci generativních jazykových systémů, se zvláštním důrazem na zajištění, aby “vysazená” testovací část dat (část zdrojových dat, která je oddělena pro testování, jak dobře byl finalizovaný algoritmus vyhodnocen na základě hlavní části trénovacích dat) byla vhodná pro úkol.

‘V strojovém učení je kritické vyhodnotit modely na vysazené testovací sadě. Díky otevřené povaze generování textu může vygenerovaný text modelu být zkopírován z trénovacích dat, v takovém případě není vysazený—proto použití těchto dat pro vyhodnocení modelu (například pro koherenci nebo gramatiku) není platné.’

Autoři také tvrdí, že je třeba více péče při výrobě jazykových modelů kvůli Eliza efektu, syndromu identifikovanému v roce 1966, který identifikoval “náchylnost lidí číst mnohem více porozumění, než je odůvodněno, do řetězců symbolů—zejména slov—spojených počítači”.

* Mé převody inline citací na hypertextové odkazy

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Modely generativního psaní založené na AI často “kopírují a vkládají” zdrojová data

RAVEN

Novost

Duplikace dat může být problémem

Více kurace dat je potřeba

You may like