Вештачка интелигенција

Генеративни модели писања засновани на вештачкој интелигенцији често „копирају и лепе“ изворне податке

Ажурирано on Декабрь 9, 2022

Амерички драмски писац и предузетник Вилсон Мизнер је често цитиран како каже „Када крадеш од једног аутора, то је плагијат; ако крадеш од многих, то је истраживање'.

Слично, претпоставка око Нова генерација система креативног писања заснованог на вештачкој интелигенцији јесте да огромне количине података храњени њима у фази обуке резултирали су правим одвајање концепата и идеја високог нивоа; да ови системи имају на располагању дестиловану мудрост хиљада аутора који доприносе, од којих АИ може да формулише иновативно и оригинално писање; и да они који користе такве системе могу бити сигурни да се не упуштају ненамерно у плагијат по пуномоћју.

То је претпоставка коју оспорава нови документ истраживачког конзорцијума (укључујући Фацебоок и Мицрософт-ове истраживачке одељења за вештачку интелигенцију), који је открио да генеративни језички модели машинског учења као што је ГПТ серија 'повремено копирати чак и веома дугачке пасусе' у њихов наводно оригинални излаз, без приписивања.

У неким случајевима, примећују аутори, ГПТ-2 ће дуплирати преко 1,000 речи из скупа за обуку у свом излазу.

папир је насловљен Колико језички модели копирају из својих података о обуци? Евалуација лингвистичке новине у генерисању текста помоћу РАВЕН-а, и представља сарадњу између Универзитета Јохнс Хопкинс, Мицрософт Ресеарцх, Нев Иорк Университи и Фацебоок АИ Ресеарцх.

РАВЕН

Студија користи нови приступ под називом РАВЕН (РАтингВЕРбалНовелти), акроним који је забавно мучен да би одражавао птичијег зликовца класичне песме:

„Овај акроним се односи на „Гавран“ Едгара Алана Поа, у којем наратор наилази на мистериозног гаврана који више пута виче: „Никад више!“ Наратор не може да каже да ли гавран једноставно понавља нешто што је чуо од човека да каже, или конструише сопствене исказе (можда комбинујући никад više) — иста основна двосмисленост на коју се обраћа наш рад.'

Налази из новог документа долазе у контексту великог раста система за писање садржаја са вештачком интелигенцијом који настоје да замене 'једноставне' задатке уређивања, па чак и да напишу садржај пуне дужине. Један такав систем добио 21 милиона долара у серији А финансирање раније ове недеље.

Истраживачи то примећују „ГПТ-2 понекад дуплира одломке за обуку који су дужине преко 1,000 речи.' (њихов нагласак), те да генеративни језички системи пропагирају лингвистичке грешке у изворним подацима.

Језички модели проучавани под РАВЕН-ом били су ГПТ серија издања до ГПТ-2 (аутори у то време нису имали приступ ГПТ-3), Трансформер, Трансформер-КСЛ и ЛСТМ.

Новина

У раду се напомиње да ГПТ-2 кованице кованице Буш 2 стила, као што су 'швајцарски', и деривације као нпр 'ИКЕА-несс', стварајући тако нове речи (оне се не појављују у ГПТ-2 подацима о обуци) на лингвистичким принципима изведеним из простора виших димензија успостављених током обуке.

Резултати такође показују да '74% реченица које генерише Трансформер-КСЛ има синтаксичку структуру коју нема ниједна реченица за обуку', што указује, како аутори наводе, 'неурални језички модели не памте једноставно; уместо тога користе продуктивне процесе који им омогућавају да комбинују познате делове на нове начине.'

Дакле, технички, генерализација и апстракција Треба производи иновативан и нов текст.

Дуплирање података може бити проблем

Рад теоретизира да би дуги и дословни цитати произведени системима за генерирање природног језика (НЛГ) могли постати 'уклопљени' у АИ модел јер се оригинални изворни текст понавља више пута у скуповима података који нису на одговарајући начин уклоњени из дупликата.

Мада још један истраживачки пројекат је открио да може доћи до потпуног умножавања текста чак и ако се појави само изворни текст једном у скупу података, аутори примећују да пројекат има различите концептуалне архитектуре од уобичајених система вештачке интелигенције који генеришу садржај.

Аутори такође примећују да би промена компоненте декодирања у системима за генерисање језика могла повећати новину, али су у тестовима открили да се то дешава на рачун квалитета излаза.

Даљи проблеми се појављују како скупови података који подстичу алгоритме за генерисање садржаја постају све већи. Поред отежавајућих питања око приступачности и одрживости пре-обраде података, као и осигурања квалитета и уклањања дупликата података, многе основне грешке остају у изворним подацима, који затим постају пропагирани у садржају који излази АИ.

Аутори примећују*:

„Недавна повећања величине сетова за обуку чине посебно критичним да се провери да ли постоје новине јер величина ових скупова за обуку може да сломи нашу интуицију о томе шта се може очекивати природно. На пример, неки значајни радови у Језик аквизиција ослања се на претпоставку да се правилни облици прошлог времена неправилних глагола (нпр. постао, поучавао) не појављују у искуству ученика, тако да ако ученик произведе такве речи, оне морају бити нове за ученика.

„Међутим, испоставило се да се за сва 92 основна неправилна глагола на енглеском, нетачан регуларни облик појављује у сету за обуку ГПТ-2.“

Потребно је више курирања података

У раду се наводи да је потребно више пажње посветити новинама у формулисању генеративних језичких система, са посебним нагласком на обезбеђивању да 'задржани' тестни део података (део изворних података који се издваја за тестирање како па је коначни алгоритам проценио главни део обучених података) је погодан за задатак.

„У машинском учењу, кључно је проценити моделе на задржаном скупу тестова. Због отворене природе генерисања текста, генерисани текст модела може бити копиран из скупа за обуку, у ком случају се не задржава—тако да коришћење тих података за процену модела (нпр. за кохерентност или граматичност) није валидно .'

Аутори такође тврде да је потребно више пажње иу производњи језичких модела због Елиза ефекат, синдром идентификован 1966. који је идентификован „подложност људи да читају много више разумевања него што је загарантовано у низове симбола – посебно речи – које су нанизали компјутери“.

* Моја конверзија инлине цитата у хипервезе