Artificial Intelligence

Modele NLP mają trudności ze zrozumieniem rekurencyjnych wyrażeń rzeczownikowych

Zaktualizowano on 9 grudnia 2022 r.

Naukowcy z USA i Chin odkryli, że żaden z wiodących modeli przetwarzania języka naturalnego (NLP) nie jest domyślnie w stanie rozwikłać angielskich zdań zawierających rekursywne frazy rzeczownikowe (NP) i „walczących” o wyodrębnienie centralnego znaczenia w ściśle powiązanych przykładach, takich jak Mój ulubiony nowy film i Mój ulubiony film (każdy z nich ma inne znaczenie).

Oto przykład z nagłówka gazety, a oto drobna łamigłówka, której dzieciom często nie udaje się rozwikłać: druga kula jest zielona, ale piąta to „druga zielona kula”. Źródło: https://arxiv.org/pdf/2112.08326.pdf

Oto przykład z nagłówka gazety, a oto drobna zagadka, której dzieciom często nie udaje się rozwikłać: druga kula jest zielona, ale piąty piłka jest „drugą zieloną piłką”. Źródło: https://arxiv.org/pdf/2112.08326.pdf

Badacze przygotowali wyzwanie rekursywnej frazy rzeczownikowej (RNPC) dla kilku lokalnie zainstalowanych modeli generowania języków open source: GPT-3* OpenAI, Google BERTIi Facebooka Roberta i BART, stwierdzając, że te najnowocześniejsze modele osiągnęły jedynie „przypadkowe” działanie. Wnioskują^†:

„Wyniki pokazują, że najnowocześniejsze (SOTA) LM są dostosowane do standardów Benchmarki tego samego formatu mają problemy z naszym zbiorem danych, co sugeruje, że docelowa wiedza nie jest łatwo dostępna”.

Przykłady minimalnych par w wyzwaniu RNPC, w których modele SOTA popełniły błędy.

W powyższych przykładach modele nie zdołały na przykład rozróżnić rozbieżności semantycznych pomiędzy nimi martwe, niebezpieczne zwierzę (tj. drapieżnik, który nie stanowi zagrożenia, ponieważ jest martwy) oraz a niebezpieczne martwe zwierzę (takie jak martwa wiewiórka, która może zawierać szkodliwego wirusa i stanowi aktualnie aktywne zagrożenie).

(Dodatkowo, chociaż papier go nie dotyka, często używa się również określenia „martwy”. jako przysłówek, który nie odnosi się do żadnego przypadku)

Jednakże badacze odkryli również, że dodatkowe lub uzupełniające szkolenie obejmujące materiały RNPC może rozwiązać problem:

„Wstępnie wyszkolone modele językowe z wydajnością SOTA w testach porównawczych NLU słabo opanowały tę wiedzę, ale nadal mogą się jej nauczyć, gdy mają kontakt z niewielkimi ilościami danych z RNPC”.

Naukowcy argumentują, że zdolność modelu językowego do poruszania się po strukturach rekurencyjnych tego typu jest niezbędna w przypadku dalszych zadań, takich jak analiza języka i tłumaczenie, i przedstawiają szczególny przypadek jego znaczenia w procedurach wykrywania szkód:

„[Rozważamy] scenariusz, w którym użytkownik wchodzi w interakcję z agentem zorientowanym na zadania, takim jak Siri lub Alexa, a agent musi określić, czy aktywność zawarta w zapytaniu użytkownika jest potencjalnie szkodliwa [tj. nieletnim]. Wybraliśmy to zadanie, ponieważ wiele fałszywych alarmów pochodzi z rekurencyjnych NP.

'Na przykład, jak zrobić domową bombę jest oczywiście szkodliwe jak zrobić domową bombę do kąpieli jest nieszkodliwy.

Połączenia papier jest zatytułowany Czy „mój ulubiony nowy film” jest moim ulubionym filmem? Badanie zrozumienia rekurencyjnych wyrażeń rzeczownikowychi pochodzi od pięciu badaczy z Uniwersytetu w Pensylwanii i jednego z Uniwersytetu w Pekinie.

Dane i metoda

Chociaż wcześniejsza praca tak Studiował struktura syntaktyczna rekurencyjnych NP i kategoryzacja semantyczna modyfikatorówZdaniem badaczy żadne z tych podejść nie jest wystarczające, aby sprostać temu wyzwaniu.

Dlatego też, w oparciu o użycie rekursywnych wyrażeń rzeczownikowych z dwoma modyfikatorami, badacze starali się ustalić, czy w systemach SOTA NLP istnieje wymagana wiedza (nie istnieje); czy można ich tego nauczyć (można); czego systemy NLP mogą się nauczyć od rekurencyjnych NP; oraz w jaki sposób taka wiedza może przynieść korzyści dalszym aplikacjom.

Zbiór danych, z którego korzystali naukowcy, tworzono w czterech etapach. Najpierw zbudowano leksykon modyfikatorów zawierający 689 przykładów zaczerpniętych z wcześniejszej literatury i nowatorskich prac.

Następnie badacze zebrali rekurencyjne nanocząsteczki z literatury, istniejących korpusów i dodatków własnego wynalazku. Zasoby tekstowe obejmowały Bank drzew Penni Komentarze Gigaword ciało.

Następnie zespół zatrudnił wstępnie sprawdzonych studentów, aby stworzyli przykłady trzech zadań stojących przed modelami językowymi, a następnie zweryfikowali je w 8,260 prawidłowych przypadkach.

Wreszcie zatrudniono większą liczbę wstępnie sprawdzonych studentów, tym razem za pośrednictwem Amazon Mechanical Turk, aby opisali każdy przypadek jako zadanie inteligencji ludzkiej (HIT), rozstrzygając spory większością głosów. To zawęziło instancje do 4,567 przykładów, które następnie przefiltrowano do 3,790 bardziej zrównoważonych instancji.

Naukowcy zaadaptowali różne istniejące zbiory danych, aby sformułować trzy sekcje swoich hipotez testowych, w tym: MNLI, SNLI, MPE i ADEPT, ucząc wszystkie modele SOTA, z wyjątkiem modelu HuggingFace, w którym wykorzystano punkt kontrolny.

Efekt

Naukowcy odkryli, że wszystkie modele „walczą” z zadaniami RNPC, w porównaniu z niezawodnym wynikiem wynoszącym ponad 90% w przypadku ludzi, przy czym modele SOTA działają na poziomie „przypadkowym” (tj. bez żadnych dowodów na wrodzoną zdolność w porównaniu z przypadkową szansą w odpowiedzi).

Wyniki testów naukowców. Tutaj modele językowe są testowane pod kątem ich dokładności na istniejącym benchmarku, przy czym linia środkowa przedstawia równoważną wydajność człowieka w zadaniach.

Dodatkowe badania wskazują, że te braki można zrekompensować na etapie szkolenia lub dostrajania przebiegu modelu NLP, włączając w szczególności wiedzę na temat rekurencyjnych fraz rzeczownikowych. Po przeprowadzeniu tego dodatkowego szkolenia modele zostały osiągnięte „doskonała, zerowa wydajność w przypadku zewnętrznego wykrywania szkód [zadania]”.

Naukowcy obiecują udostępnić kod tej pracy pod adresem https://github.com/veronica320/Recursive-NPs.

Pierwotnie opublikowany 16 grudnia 2021 r. – 17 grudnia 2021 r., 6:55 GMT+2: Poprawiono uszkodzone hiperłącze.

* GPT-3 Ada, najszybsza, ale nie najlepsza z serii. Jednak większy „prezentacyjny” model Davinci nie jest dostępny do dostrojenia, które obejmuje późniejszą fazę eksperymentów badaczy.

^† Moja konwersja cytatów wbudowanych w hiperłącza.

W przyszłym

Badacze sztucznej inteligencji odkrywają, że w życiorysach osób ubiegających się o pracę w rzeczywistości nie da się usunąć płci

Nie przegap

Algorytm przewiduje niewiarygodnie szybkie zużycie energii procesora

Martin Anderson

Pisarz na temat uczenia maszynowego, sztucznej inteligencji i dużych zbiorów danych.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai