Sztuczna inteligencja
Modele NLP mają trudności z zrozumieniem rekursywnych fraz rzeczownikowych
Badacze z USA i Chin odkryli, że żaden z wiodących modeli Przetwarzania Języka Naturalnego (NLP) nie wydaje się być w stanie, domyślnie, rozplątywać angielskich zdań, które zawierają rekursywne frazy rzeczownikowe (NPs), i “zmagają się”, aby wyodrębnić centralne znaczenie w ściśle powiązanych przykładach, takich jak Moja ulubiona nowa film i Moja ulubiona film (każdy z nich ma inne znaczenie).

W przykładzie z nagłówka z pracy, oto mała zagadka, którą dzieci często nie są w stanie rozwiązać: druga piłka jest zielona, ale piąta piłka to ‘druga zielona piłka’. Źródło: https://arxiv.org/pdf/2112.08326.pdf
Badacze ustalili Rekursywny Test Frazy Rzeczownikowej (RNPC) dla kilku lokalnie zainstalowanych modeli generowania języka open source: OpenAI’s GPT-3*, Google’s BERT, i Facebook’s RoBERTa i BART, stwierdzając, że te modele stanu sztuki osiągnęły tylko “przypadek” wynik. Wnioskują†:
‘Wyniki pokazują, że modele językowe stanu sztuki (SOTA) dostrajane na standardowych benchmarkach tego samego formatu wszystkie mają trudności z naszym zestawem danych, co sugeruje, że docelowa wiedza nie jest łatwo dostępna.’

Przykłady par w wyzwaniu RNPC, w których modele SOTA popełniły błędy.
W powyższych przykładach modele nie były w stanie, na przykład, odróżnić semantycznej różnicy między martwa niebezpieczna zwierzę (tj. drapieżnik, który nie stanowi zagrożenia, ponieważ jest martwy) a niedozwolone martwe zwierzę (takie jak martwa wiewiórka, która może zawierać szkodliwy wirus i jest aktualnym zagrożeniem).
(Dodatkowo, chociaż praca nie dotyka tego, ‘martwa’ jest często używana jako przysłówek, który nie dotyczy żadnego z przypadków)
Jednak badacze również stwierdzili, że dodatkowe lub uzupełniające szkolenie, które obejmuje materiał RNPC, może rozwiązać problem:
‘Wstępnie wytrenowane modele językowe z wynikami SOTA na benchmarkach NLU mają słabą wiedzę na ten temat, ale mogą ją jeszcze nauczyć, gdy są narażone na niewielkie ilości danych z RNPC.’
Badacze twierdzą, że zdolność modelu językowego do nawigowania w rekursywnych strukturach tego typu jest niezbędna do zadań podrzędnych, takich jak analiza języka, tłumaczenie, i czynią specjalny przypadek dla jego ważności w rutynach wykrywania szkody:
‘[My] rozważamy scenariusz, w którym użytkownik wchodzi w interakcję z agentem zorientowanym na zadanie, takim jak Siri lub Alexa, i agent musi określić, czy działalność zaangażowana w zapytaniu użytkownika jest potencjalnie szkodliwa [tj. dla nieletnich]. Wybieramy to zadanie, ponieważ wiele fałszywych pozytywów pochodzi z rekursywnych NPs.
‘Na przykład, jak zrobić domową bombę jest oczywiście szkodliwe, podczas gdy jak zrobić domową bombę kąpielową jest nieszkodliwe.’
Praca pracy nosi tytuł Czy “moja ulubiona nowa film” to moja ulubiona film? Badanie zrozumienia rekursywnych fraz rzeczownikowych, i pochodzi od pięciu badaczy z Uniwersytetu Pensylwanii i jednego z Uniwersytetu Pekińskiego.
Dane i Metoda
Chociaż wcześniejsze prace zbadano strukturę składniową rekursywnych NPs i semantyczną kategoryzację modyfikatorów, żaden z tych podejść nie jest wystarczający, według badaczy, aby rozwiązać wyzwanie.
Dlatego też, na podstawie użycia rekursywnych fraz rzeczownikowych z dwoma modyfikatorami, badacze starali się ustalić, czy wymagana wiedza istnieje w systemach NLP SOTA (nie istnieje); czy można ją nauczyć (można); co systemy NLP mogą nauczyć się z rekursywnych NPs; i w jaki sposób taką wiedzę można wykorzystać w dalszych aplikacjach.
Zestaw danych, których użyli badacze, został utworzony w czterech etapach. Po pierwsze, został zbudowany leksykon modyfikatorów zawierający 689 przykładów pobranych z wcześniejszej literatury i nowej pracy.
Następnie badacze zebrali rekursywne NPs z literatury, istniejących korpusów i dodatków własnego pomysłu. Zasoby tekstowe obejmowały Penn Treebank i Annotated Gigaword korpus.
Następnie zespół zatrudnił przeszkolonych studentów college’u, aby stworzyć przykłady dla trzech zadań, które modele językowe będą musiały rozwiązać, walidując je następnie w 8,260 ważnych przypadkach.
Wreszcie, więcej przeszkolonych studentów college’u zostało zatrudnionych, tym razem za pośrednictwem Amazon Mechanical Turk, aby zaznaczyć każdy przypadek jako Zadanie Inteligencji Ludzkiej (HIT), rozstrzygając spory na podstawie większości. To zmniejszyło przypadki do 4,567 przykładów, które zostały dalej przefiltrowane do 3,790 bardziej zbalansowanych przypadków.
Badacze dostosowali różne istniejące zestawy danych, aby sformułować trzy sekcje swoich hipotez testowych, w tym MNLI, SNLI, MPE i ADEPT, szkoląc wszystkie modele SOTA sami, z wyjątkiem modelu HuggingFace, gdzie użyto punkt kontrolny.
Wyniki
Badacze stwierdzili, że wszystkie modele “zmagają się” z zadaniami RNPC, w przeciwieństwie do niezawodnego wyniku 90%+ dla ludzi, z modelami SOTA osiągającymi “przypadek” poziom (tj. bez żadnych dowodów na wrodzoną zdolność wobec losowego przypadku w odpowiedzi).

Wyniki testów badaczy. Tutaj modele językowe są testowane wobec ich dokładności na istniejącym benchmarku, z centralną linią reprezentującą równoważną wydajność ludzką w zadaniach.
Pomocnicze linie dochodzenia wskazują, że te niedobory można wynagrodzić na etapie szkolenia lub dostrajania modelu NLP przez szczególne uwzględnienie wiedzy o rekursywnych frazach rzeczownikowych. Gdy tylko takie uzupełniające szkolenie zostało podjęte, modele osiągnęły ‘silne wyniki zero-shot na zewnętrznych zadaniach wykrywania szkody [zadań]’.
Badacze obiecują udostępnić kod tej pracy na https://github.com/veronica320/Recursive-NPs.
Oryginalnie opublikowane 16 grudnia 2021 – 17 grudnia 2021, 6:55 GMT+2: Poprawiono złamaną hiperłącze.
* GPT-3 Ada, który jest najszybszy, ale nie najlepszy z serii. Jednak większy model “showcase” Davinci nie jest dostępny do dostrajania, które składa się na późniejszą fazę eksperymentów badaczy.
† Moja konwersja cytowań wewnętrznych na hiperłącza.










