Вештачка интелигенција

НЛП модели се боре да схвате рекурзивне именичке фразе

Ажурирано on Декабрь 9, 2022

Истраживачи из САД-а и Кине су открили да ниједан од водећих модела обраде природног језика (НЛП) није способан, подразумевано, да разоткрије енглеске реченице које садрже рекурзивне именичке фразе (НП) и да се „боре“ да индивидуишу централно значење у блиско повезаним примерима као што су Мој омиљени нови филм Мој омиљени филм (од којих свака има другачије значење).

У примеру наслова из папира, ево мање загонетке коју деца често не успевају да одаберу: друга лоптица је зелена, али је пета 'друга зелена лопта'. Извор: хттпс://аркив.орг/пдф/2112.08326.пдф

У примеру наслова из новине, ево мање слагалице коју деца често не успевају да раздвоје: друга лопта је зелена, али пети лопта је 'друга зелена лопта'. Извор: хттпс://аркив.орг/пдф/2112.08326.пдф

Истраживачи су поставили Рецурсиве Ноун Пхрасе Цхалленге (РНПЦ) на неколико локално инсталираних модела генерисања језика отвореног кода: ОпенАИ ГПТ-3*, Гоогле-ов БЕРТ, и Фацебоок-а РоБЕРТа БАРТ, откривши да су ови најсавременији модели постигли само "случајне" перформансе. Они закључују^†:

„Резултати показују да су најсавременији (СОТА) ЛМ фино подешени на стандарду репери истог формата сви се боре на нашем скупу података, што сугерише да циљно знање није лако доступно.'

Примери минималних парова у РНПЦ изазову где су СОТА модели направили грешке.

У горњим примерима, модели нису успели, на пример, да разликују семантичку диспаритет мртва опасна животиња (тј. предатор који не представља претњу јер је мртав) и а опасна мртва животиња (као што је мртва веверица, која може да садржи штетни вирус и тренутно је активна претња).

(Поред тога, иако га папир не дотиче, често се користи и 'мртав' као прилог, који се не односи ни на један случај)

Међутим, истраживачи су такође открили да додатна или додатна обука која укључује РНПЦ материјал може решити проблем:

„Унапред обучени језички модели са СОТА перформансама на НЛУ бенцхмарковима слабо владају овим знањем, али га и даље могу научити када су изложени малим количинама података из РНПЦ-а.“

Истраживачи тврде да је способност језичког модела да се креће кроз рекурзивне структуре овог типа од суштинског значаја за низводне задатке као што су анализа језика, превођење, и посебно наводе његову важност у рутинама откривања штете:

„[Ми] разматрамо сценарио у којем корисник ступа у интеракцију са агентом оријентисаним на задатке попут Сири или Алека, а агент треба да утврди да ли је активност укључена у упиту корисника потенцијално штетна [тј. малолетницима]. Изабрали смо овај задатак јер многи лажни позитивни резултати потичу из рекурзивних НП-ова.

'На пример, како направити домаћу бомбу очигледно је штетно док како направити домаћу бомбу за купање је безопасан.'

папир је насловљен Да ли је „мој омиљени нови филм“ мој омиљени филм? Испитивање разумевања рекурзивних именских фраза, а долази од пет истраживача са Универзитета у Пенсилванији и једног са Универзитета у Пекингу.

Подаци и метод

Иако претходни рад има студирала синтаксичке структуре рекурзивних НП-ова и семантичка категоризација модификатора, ни један од ових приступа није довољан, према истраживачима, да одговори на изазов.

Стога, на основу употребе рекурзивних именских фраза са два модификатора, истраживачи су покушали да утврде да ли предусловно знање постоји у СОТА НЛП системима (не постоји); може ли им се то научити (може); шта НЛП системи могу научити од рекурзивних НП-ова; и на које начине такво знање може користити низводним апликацијама.

Скуп података који су истраживачи користили креиран је у четири фазе. Прво је била изградња лексикона модификатора који садржи 689 примера извучених из претходне литературе и романа.

Затим су истраживачи прикупили рекурзивне НП из литературе, постојећих корпуса и додатака сопственог проналаска. Текстуални ресурси су укључивали Пенн Треебанк, i Анотирани Гигаворд корпус.

Затим је тим ангажовао претходно прегледане студенте да креирају примере за три задатка са којима ће се језички модели суочити, валидирајући их након тога у 8,260 валидних инстанци.

Коначно, ангажовано је више унапред прегледаних студената, овог пута преко Амазон Мецханицал Турк-а, да обележе сваку инстанцу као задатак људске интелигенције (ХИТ), решавајући спорове на основу већине. Ово је свело инстанце на 4,567 примера, који су даље филтрирани на 3,790 уравнотеженијих инстанци.

Истраживачи су прилагодили различите постојеће скупове података како би формулисали три дела својих хипотеза тестирања, укључујући МНЛИ, СНЛИ, МПЕ АДЕПТ, обучавајући све саме СОТА моделе, са изузетком ХуггингФаце модела, где је коришћен контролни пункт.

Резултати

Истраживачи су открили да се сви модели 'боре' на РНПЦ задацима, у поређењу са поузданим резултатом тачности од 90%+ за људе, при чему СОТА модели раде на нивоима 'шанси' (тј. без икаквих доказа о урођеној способности у односу на случајну шансу као одговор).

Резултати тестова истраживача. Овде се језички модели тестирају у односу на њихову тачност на постојећем мерилу, са централном линијом која представља еквивалентан људски учинак у задацима.

Секундарне линије истраживања показују да се ови недостаци могу надокнадити у фази обуке или финог подешавања цевовода НЛП модела посебним укључивањем знања о рекурзивним именичким фразама. Када је ова допунска обука спроведена, модели су постигнути 'снажне перформансе нулте тачке на спољном откривању штете [задацима]'.

Истраживачи обећавају да ће објавити код за овај рад на https://github.com/veronica320/Recursive-NPs.

Првобитно објављено 16. децембра 2021. – 17. децембра 2021., 6:55 ГМТ+2: Исправљена покварена хипервеза.

* ГПТ-3 Ада, који је најбржи, али не и најбољи у серији. Међутим, већи 'излог' Давинчијев модел није доступан за фино подешавање које садржи каснију фразу експеримената истраживача.

^† Моја конверзија инлине цитата у хипервезе.