Artificial Intelligence

Generowanie parafraz przy użyciu uczenia się przez głębokie wzmacnianie – liderzy myśli

Zaktualizowano on 9 grudnia 2022 r.

Pisząc lub rozmawiając, wszyscy zastanawialiśmy się, czy istnieje lepszy sposób przekazania pomysłu innym. Jakich słów powinienem użyć? Jak powinienem ustrukturyzować myśl? Jak prawdopodobnie zareagują? Na Zwrot, spędzamy dużo czasu myśląc o języku – co działa, a co nie.

Wyobraź sobie, że piszesz temat kampanii e-mailowej, która dotrze do 10 milionów osób z Twojej listy i będzie promować 20% zniżki na nowy, fantazyjny laptop.

Którą linię byś wybrał:

Teraz możesz skorzystać z dodatkowego rabatu 20% na kolejne zamówienie
Przygotuj się – dodatkowe 20% zniżki

Chociaż przekazują te same informacje, jeden osiągnął prawie 15% wyższy współczynnik otwarć niż drugi (i założę się, że nie przebijesz naszego modelu w przewidywaniu, który z nich?). Chociaż język często można przetestować Testy A / B or wielorękich bandytów, automatyczne generowanie parafraz pozostaje naprawdę trudnym problemem badawczym.

Dwa zdania są uważane za parafrazy siebie, jeśli mają to samo znaczenie i mogą być używane zamiennie. Inną ważną rzeczą, która często jest brana za oczywistość, jest to, czy zdanie wygenerowane maszynowo jest płynne.

W przeciwieństwie do uczenia się nadzorowanego, agenci uczenia się przez wzmacnianie (RL) uczą się poprzez interakcję z otoczeniem i obserwację nagród, jakie w rezultacie otrzymują. Ta nieco zróżnicowana różnica ma ogromne implikacje dla sposobu działania algorytmów i sposobu uczenia modeli. Uczenie się o głębokim wzmocnieniu wykorzystuje sieci neuronowe jako aproksymator funkcji, aby umożliwić agentowi nauczenie się, jak osiągać lepsze wyniki niż ludzie w złożonych środowiskach, takich jak Go, Atari i StarCraft II.

Pomimo tego sukcesu, uczenie się przez wzmacnianie nie zostało szeroko zastosowane do rozwiązywania problemów świata rzeczywistego, w tym przetwarzania języka naturalnego (NLP).

W ramach mojego Praca magisterska z zakresu Data Science, pokazujemy, jak można wykorzystać Deep RL, aby przewyższać metody uczenia się pod nadzorem w automatycznym generowaniu parafraz tekstu wejściowego. Problem wygenerowania najlepszej parafrazy można postrzegać jako znalezienie takiego ciągu słów, który maksymalizuje podobieństwo semantyczne między zdaniami, zachowując jednocześnie płynność wypowiedzi. Agenci RL doskonale nadają się do znajdowania najlepszego zestawu działań w celu osiągnięcia maksymalnej oczekiwanej nagrody w środowiskach kontrolnych.

W przeciwieństwie do większości problemów związanych z uczeniem maszynowym, największy problem w większości aplikacji do generowania języka naturalnego (NLG) nie polega na modelowaniu, ale raczej na ocenie. Chociaż ocena człowieka jest obecnie uważana za złoty standard w ocenie NLG, ma ona istotne wady, w tym jest kosztowna, czasochłonna, trudna do dostrojenia i pozbawiona powtarzalności w eksperymentach i zbiorach danych (Han, 2016). W rezultacie badacze od dawna poszukiwali automatycznych wskaźników, które byłyby proste, można je uogólnić i które odzwierciedlałyby ludzką ocenę (Papineni i in., 2002).

Poniżej podsumowano najpopularniejsze metody automatycznej oceny podpisów obrazów generowanych maszynowo wraz z ich zaletami i wadami:

Generowanie parafraz przy użyciu potoku uczenia się ze wzmocnieniem

Opracowaliśmy system o nazwie ParaPhrasee, który generuje wysokiej jakości parafrazy. System składa się z wielu kroków mających na celu zastosowanie uczenia się przez wzmacnianie w sposób efektywny obliczeniowo. Poniżej przedstawiono krótkie podsumowanie rurociągu wysokiego poziomu, a więcej szczegółów zawartych jest w pliku praca.

Dataset

Dostępnych jest kilka zbiorów danych parafraz wykorzystywanych w badaniach, w tym: Korpus Microsoft Paraphrase, Konkurs na podobieństwo tekstu semantycznego ACL, Zduplikowane pytania Quora, Udostępnione łącza na Twitterze. Wybraliśmy MS-COCO biorąc pod uwagę jego rozmiar, czystość i zastosowanie jako punktu odniesienia dla dwóch znaczących artykułów generujących parafrazy. MS-COCO zawiera 120 tys. obrazów typowych scen z 5 podpisami do każdego obrazu dostarczonymi przez 5 różnych adnotatorów.

Chociaż jest on przeznaczony głównie do badań nad obrazem komputerowym, podpisy mają zazwyczaj duże podobieństwo semantyczne i są interesującymi parafrazami. Biorąc pod uwagę, że podpisy obrazów są dostarczane przez różne osoby, zazwyczaj mają one niewielkie różnice w szczegółach przedstawionych w scenie, dlatego wygenerowane zdania mają tendencję do halucynacji szczegółami.

Modelka pod nadzorem

Chociaż uczenie się przez wzmacnianie znacznie się poprawiło pod względem wydajności próbki, czasu uczenia i ogólnych najlepszych praktyk, uczenie modeli RL od podstaw jest nadal stosunkowo bardzo powolne i niestabilne (Arulkumaran i in., 2017). Dlatego zamiast trenować od zera, najpierw szkolimy nadzorowany model, a następnie dostrajamy go za pomocą RL.

Używamy Koder-dekoder ramy modelu i ocenić wydajność kilku nadzorowanych modeli bazowych. Dostrajając model za pomocą RL, dostrajamy jedynie sieć dekoderów, a sieć koderów traktujemy jako statyczną. W związku z tym rozważamy dwa główne ramy:

Trenowanie nadzorowanego modelu od podstaw przy użyciu standardowego/waniliowego dekodera kodera z GRU
Korzystanie z wstępnie wytrenowanych modeli osadzania zdań dla kodera, w tym: zbiorcze osadzanie słów (GloVe), InferSent i BERT

Nadzorowane modele zwykle działają dość podobnie we wszystkich modelach, przy czym BERT i waniliowy koder-dekoder osiągają najlepszą wydajność.

Chociaż wyniki wydają się być rozsądne, istnieją trzy typowe źródła błędów: jąkanie, generowanie fragmentów zdań i halucynacje. Oto główne problemy, które ma rozwiązać zastosowanie RL.

Model uczenia się przez wzmacnianie

Implementacja algorytmów RL jest bardzo trudna, zwłaszcza gdy nie wiadomo, czy problem można rozwiązać. Mogą wystąpić problemy z implementacją Twojego środowiska, agentów, hiperparametrów, funkcji nagrody lub kombinacji wszystkich powyższych! Problemy te nasilają się, gdy wykonujesz głębokie RL, gdy czerpiesz przyjemność z dodatkowej złożoności debugowanie sieci neuronowych.

Podobnie jak w przypadku każdego debugowania, bardzo ważne jest zacznij prosto. Zaimplementowaliśmy warianty dwóch dobrze poznanych środowisk RL zabawek (CartPole i FrozenLake), aby przetestować algorytmy RL i znaleźć powtarzalną strategię transferu wiedzy z nadzorowanego modelu.

Odkryliśmy, że za pomocą Algorytm aktora-krytyka w tych środowiskach uzyskał lepsze wyniki niż REINFORCE. Jeśli chodzi o transfer wiedzy do modelu aktora-krytyka, odkryliśmy, że najlepsze wyniki daje zainicjowanie wag aktora za pomocą wytrenowanego modelu nadzorowanego i wstępne przeszkolenie krytyka. Uznaliśmy, że uogólnienie wyrafinowanych podejść do destylacji polityki na nowe środowiska było trudne, ponieważ wprowadzają one wiele nowych hiperparametrów, które wymagają dostrojenia, aby działały.

Wspierani tymi spostrzeżeniami, przechodzimy następnie do opracowania podejścia do zadania generowania parafraz. Najpierw musimy stworzyć środowisko.

Środowisko pozwala nam łatwo przetestować wpływ wykorzystania różnych metryk oceny jako funkcji nagrody.

Następnie definiujemy agenta, biorąc pod uwagę jego liczne zalety, stosujemy architekturę aktora-krytycznego. Aktor służy do wybierania kolejnego słowa w sekwencji i inicjowania jego wag przy użyciu nadzorowanego modelu. Krytyk szacuje oczekiwaną nagrodę, jaką państwo prawdopodobnie otrzyma za pomoc aktorowi w nauce.

Projektowanie właściwej funkcji nagrody

Najważniejszym elementem projektowania systemu RL jest funkcja nagrody, ponieważ to właśnie agent RL stara się zoptymalizować. Jeśli funkcja nagrody jest nieprawidłowa, wyniki będą ucierpieć, nawet jeśli każda inna część systemu będzie działać!

Klasycznym tego przykładem jest Biegacze Wybrzeża gdzie badacze OpenAI ustawili funkcję nagrody na maksymalizację całkowitego wyniku, a nie na wygranie wyścigu. W rezultacie agent odkrył pętlę, w której mógł uzyskać najwyższy wynik, uderzając w turbosprężarki, nigdy nie kończąc wyścigu.

Biorąc pod uwagę, że ocena jakości parafraz sama w sobie jest nierozwiązanym problemem, zaprojektowanie funkcji nagrody, która automatycznie uchwyci ten cel, jest jeszcze trudniejsze. Większość aspektów języka nie rozkłada się ładnie na metryki liniowe i zależy od zadania (Novikova i in., 2017).

Agent RL często odkrywa interesującą strategię maksymalizacji nagród, która wykorzystuje słabe strony miernika oceny, zamiast generować tekst wysokiej jakości. Zwykle skutkuje to słabą wydajnością metryk, których agent nie optymalizuje bezpośrednio.

Rozważamy trzy główne podejścia:

Metryki nakładania się słów

Typowe wskaźniki oceny NLP uwzględniają proporcję nakładania się słów pomiędzy wygenerowaną parafrazą a zdaniem oceniającym. Im większe nakładanie się, tym większa nagroda. Wyzwanie związane z podejściem na poziomie słowa polega na tym, że agent zawiera zbyt wiele łączących słów, takich jak „a jest włączone”, i nie ma miary płynności. Skutkuje to bardzo niską jakością parafraz.

Metryki podobieństwa i płynności na poziomie zdań

Główną właściwością wygenerowanej parafrazy jest to, że musi ona być płynna i semantycznie podobna do zdania wejściowego. Dlatego staramy się oceniać je indywidualnie, a następnie łączyć metryki. Aby uzyskać podobieństwo semantyczne, używamy podobieństwa cosinus między osadzaniami zdań z wstępnie wytrenowanych modeli, w tym BERT. Dla płynności używamy wyniku opartego na złożoności zdania z GPT-2. Im większy cosinus podobieństwa i płynność, tym większa nagroda.

Wypróbowaliśmy wiele różnych kombinacji modeli osadzania zdań i modeli płynności i chociaż wydajność była rozsądna, głównym problemem, przed którym stanął agent, było niewystarczające zrównoważenie podobieństwa semantycznego z płynnością. W przypadku większości konfiguracji agent priorytetowo traktował płynność, co skutkowało usunięciem szczegółów i umieszczeniem większości obiektów „pośrodku” czegoś lub przesunięciem „na stole” lub „na poboczu drogi”.

Wieloobiektywowe uczenie się przez wzmacnianie jest otwartym pytaniem badawczym i w tym przypadku stanowi duże wyzwanie.

Używanie modelu kontradyktoryjnego jako funkcji nagrody

Biorąc pod uwagę, że ludzie są uważani za złoty standard w ocenie, szkolimy oddzielny model zwany dyskryminatorem, aby przewidywał, czy dwa zdania są wzajemnymi parafrazami (podobnie do sposobu, w jaki oceniałby człowiek). Celem modelu RL jest zatem przekonanie tego modelu, że wygenerowane zdanie jest parafrazą danych wejściowych. Dyskryminator generuje ocenę prawdopodobieństwa, że te dwa zdania będą wzajemnymi parafrazami, co służy jako nagroda w szkoleniu agenta.

Co 5,000 odgadnięć dyskryminator dowiaduje się, która parafraza pochodzi ze zbioru danych, a która została wygenerowana, aby mógł poprawić swoje przyszłe domysły. Proces trwa kilka rund, podczas których agent próbuje oszukać dyskryminator, a dyskryminator próbuje odróżnić wygenerowane parafrazy od parafraz oceniających ze zbioru danych.

Po kilku rundach szkolenia agent generuje parafrazy, które przewyższają nadzorowane modele i spełniają inne funkcje nagradzające.

Wnioski i ograniczenia

Podejścia kontradyktoryjne (w tym gra własna w grach) zapewniają niezwykle obiecujące podejście do uczenia algorytmów RL w zakresie przekraczania wydajności na poziomie ludzkim w przypadku niektórych zadań bez definiowania wyraźnej funkcji nagrody.

Chociaż w tym przypadku RL był w stanie uzyskać lepsze wyniki niż uczenie nadzorowane, ilość dodatkowego obciążenia w zakresie kodu, obliczeń i złożoności nie jest warta wzrostu wydajności w przypadku większości aplikacji. RL najlepiej pozostawić w sytuacjach, w których nie można łatwo zastosować uczenia nadzorowanego, a funkcja nagrody jest łatwa do zdefiniowania (np. gry Atari). Podejścia i algorytmy są znacznie bardziej dojrzałe w uczeniu nadzorowanym, a sygnał błędu jest znacznie silniejszy, co skutkuje znacznie szybszym i stabilniejszym treningiem.

Inną kwestią jest to, że podobnie jak w przypadku innych podejść neuronowych, agent może bardzo poważnie zawieść w przypadkach, gdy dane wejściowe różnią się od danych wejściowych, które widział wcześniej, co wymaga dodatkowej warstwy kontroli poprawności w zastosowaniach produkcyjnych.

Eksplozja zainteresowania podejściami RL i postęp w infrastrukturze obliczeniowej w ciągu ostatnich kilku lat otworzą ogromne możliwości zastosowania RL w przemyśle, zwłaszcza w NLP.

W przyszłym

Poprawa bezpieczeństwa samochodów autonomicznych dzięki nowej metodzie szkolenia

Nie przegap

Naukowcy uważają, że sztuczną inteligencję można wykorzystać do ochrony prywatności ludzi

Andrew Gibbs – Brawo

Andrew Gibbs-Bravo jest analitykiem danych w firmie Zwrot skupił się na ulepszaniu technologii stojącej za wiodącym na świecie copywritingiem opartym na sztucznej inteligencji firmy Phrase. Jest także współorganizatorem London Reinforcement Learning Community Meetup i interesuje się wszystkim, co związane z RL, NLP i uczeniem maszynowym.