stub Zapobieganie „halucynacji” w GPT-3 i innych złożonych modelach językowych – Unite.AI
Kontakt z nami

Artificial Intelligence

Zapobieganie „halucynacji” w GPT-3 i innych złożonych modelach językowych

mm
Zaktualizowano on

Cechą charakterystyczną „fałszywych wiadomości” jest to, że często przedstawiają one fałszywe informacje w kontekście informacji zgodnych z faktami, przy czym nieprawdziwe dane zyskują postrzegany autorytet w wyniku swego rodzaju literackiej osmozy – niepokojącej demonstracji siły półprawd.

Wyrafinowane modele przetwarzania generatywnego przetwarzania języka naturalnego (NLP), takie jak GPT-3, również mają taką tendencję „halucynacje” tego rodzaju zwodnicze dane. Po części dzieje się tak dlatego, że modele językowe wymagają możliwości przeformułowania i podsumowania długich i często labiryntowych fragmentów tekstu, bez żadnych ograniczeń architektonicznych, które mogłyby zdefiniować, zamknąć i „pieczętować” zdarzenia i fakty, tak aby były chronione przed procesem semantyki. rekonstrukcja.

Dlatego fakty nie są święte dla modelu NLP; można je łatwo potraktować w kontekście „semantycznych klocków Lego”, szczególnie tam, gdzie złożona gramatyka lub tajemniczy materiał źródłowy utrudnia oddzielenie odrębnych bytów od struktury języka.

Obserwacja sposobu, w jaki kręto sformułowany materiał źródłowy może zmylić złożone modele językowe, takie jak GPT-3. Źródło: Generowanie parafraz przy użyciu uczenia się przez głębokie wzmacnianie

Obserwacja sposobu, w jaki kręto sformułowany materiał źródłowy może zmylić złożone modele językowe, takie jak GPT-3. Źródło: Generowanie parafraz przy użyciu uczenia się z głębokim wzmocnieniem

Problem ten przenosi się z tekstowego uczenia maszynowego na badania nad wizją komputerową, szczególnie w sektorach, które wykorzystują dyskryminację semantyczną do identyfikacji lub opisu obiektów.

Halucynacje i niedokładna reinterpretacja „kosmetyczna” wpływają również na badania nad wizją komputerową.

Halucynacje i niedokładna reinterpretacja „kosmetyczna” wpływają również na badania nad wizją komputerową.

W przypadku GPT-3 model może być sfrustrowany powtarzaniem pytań na temat, który już poruszał, tak dobrze, jak to możliwe. W najlepszym przypadku przyzna się do porażki:

Mój niedawny eksperyment z podstawowym silnikiem Davinci w GPT-3. Modelka uzyskuje odpowiedź już za pierwszym razem, ale denerwuje się, gdy zadaje jej to pytanie po raz drugi. Ponieważ zachowuje krótkotrwałą pamięć poprzedniej odpowiedzi, a powtarzające się pytanie traktuje jako odrzucenie tej odpowiedzi, przyznaje się do porażki. Źródło: https://www.scalr.ai/post/business-applications-for-gpt-3

Mój niedawny eksperyment z podstawowym silnikiem Davinci w GPT-3. Modelka uzyskuje odpowiedź już za pierwszym razem, ale denerwuje się, gdy zadaje jej to pytanie po raz drugi. Ponieważ zachowuje krótkotrwałą pamięć poprzedniej odpowiedzi, a powtarzające się pytanie traktuje jako odrzucenie tej odpowiedzi, przyznaje się do porażki. Źródło: https://www.scalr.ai/post/business-applications-for-gpt-3

DaVinci i DaVinci Instruct (Beta) radzą sobie pod tym względem lepiej niż inne modele GPT-3 dostępne poprzez API. Tutaj model Curie daje błędną odpowiedź, podczas gdy model Babbage'a z pewnością rozwija równie błędną odpowiedź:

Rzeczy, których Einstein nigdy nie powiedział

Zamawiając silnik GPT-3 DaVinci Instruct (który obecnie wydaje się najbardziej wydajny) do słynnego cytatu Einsteina „Bóg nie gra w kości z wszechświatem”, DaVinci Instruct nie znajduje cytatu i wymyśla niecytat, ciąg dalszy halucynować trzy inne stosunkowo prawdopodobne i całkowicie nieistniejące cytaty (Einsteina lub kogokolwiek innego) w odpowiedzi na podobne pytania:

GPT-3 generuje cztery wiarygodne cytaty Einsteina, z których żaden nie daje żadnych wyników w pełnotekstowym wyszukiwaniu w Internecie, chociaż niektóre wywołują inne (prawdziwe) cytaty Einsteina na temat „wyobraźni”.

Gdyby GPT-3 konsekwentnie błędnie cytował, łatwiej byłoby programowo zignorować te halucynacje. Jednak im bardziej rozpowszechniony i sławny jest cytat, tym większe prawdopodobieństwo, że GPT-3 trafnie go trafi:

GPT-3 najwyraźniej znajduje prawidłowe cytaty, jeśli są one dobrze przedstawione w danych źródłowych.

GPT-3 najwyraźniej znajduje prawidłowe cytaty, jeśli są one dobrze przedstawione w danych źródłowych.

Drugi problem może się pojawić, gdy dane historii sesji GPT-3 przekształcą się w nowe pytanie:

Einstein prawdopodobnie byłby zgorszony, gdyby przypisano mu to powiedzenie. Cytat wydaje się być bezsensowną halucynacją prawdziwego Winstona Churchilla aforyzm. Poprzednie pytanie w sesji GPT-3 dotyczyło Churchilla (nie Einsteina) i wydaje się, że GPT-3 błędnie użył tego tokena sesji do udzielenia odpowiedzi.

Ekonomiczne zwalczanie halucynacji

Halucynacje stanowią zauważalną przeszkodę w przyjęciu wyrafinowanych modeli NLP jako narzędzi badawczych – tym bardziej, że dane wyjściowe takich silników są w dużym stopniu oderwane od materiału źródłowego, który je utworzył, przez co ustalenie prawdziwości cytatów i faktów staje się problematyczne.

Dlatego jednym z obecnych ogólnych wyzwań badawczych w NLP jest ustalenie sposobu identyfikacji halucynacyjnych tekstów bez konieczności wyobrażania sobie zupełnie nowych modeli NLP, które uwzględniają, definiują i uwierzytelniają fakty jako odrębne byty (długoterminowy, odrębny cel w wielu szerszych programach komputerowych). sektory badawcze).

Identyfikacja i generowanie treści halucynacyjnych

nowa współpraca pomiędzy Carnegie Mellon University a Facebook AI Research oferuje nowatorskie podejście do problemu halucynacji, formułując metodę identyfikacji halucynacji i wykorzystując syntetyczne teksty halucynacji do stworzenia zbioru danych, który można wykorzystać jako punkt odniesienia dla przyszłych filtrów i mechanizmów, które mogą ostatecznie stać się jest podstawową częścią architektur NLP.

Źródło: https://arxiv.org/pdf/2011.02593.pdf

Źródło: https://arxiv.org/pdf/2011.02593.pdf

Na powyższym obrazku materiał źródłowy został posegmentowany według słów, z etykietą „0” przypisaną do słów poprawnych i etykietą „1” do słów halucynacyjnych. Poniżej widzimy przykład halucynacyjnego wyjścia, które jest powiązane z informacjami wejściowymi, ale jest uzupełnione nieautentycznymi danymi.

System wykorzystuje wstępnie wytrenowany autokoder odszumiający, który jest w stanie odwzorować halucynacyjny ciąg znaków z powrotem na oryginalny tekst, z którego utworzona została uszkodzona wersja (podobnie jak w moich przykładach powyżej, w których wyszukiwania internetowe ujawniły pochodzenie fałszywych cudzysłowów, ale z programowym i zautomatyzowana metodologia semantyczna). Konkretnie Facebooka BART Model autoenkodera służy do tworzenia uszkodzonych zdań.

Przypisanie etykiety.

Przypisanie etykiety.

Proces mapowania halucynacji z powrotem do źródła, co nie jest możliwe w powszechnym zastosowaniu zaawansowanych modeli NLP, pozwala na mapowanie „odległości edycji” i ułatwia algorytmiczne podejście do identyfikacji treści halucynacji.

Naukowcy odkryli, że system jest w stanie dobrze generalizować nawet wówczas, gdy nie ma dostępu do materiałów referencyjnych dostępnych podczas szkolenia, co sugeruje, że model koncepcyjny jest solidny i można go w dużym stopniu powielić.

Walka z nadmiernym dopasowaniem

Aby uniknąć nadmiernego dopasowania i uzyskać architekturę o szerokim zastosowaniu, badacze losowo porzucili tokeny z procesu, a także zastosowali parafrazę i inne funkcje szumu.

Tłumaczenie maszynowe (MT) również stanowi część tego procesu zaciemniania, ponieważ tłumaczenie tekstu na różne języki prawdopodobnie skutecznie zachowa znaczenie i dodatkowo zapobiegnie nadmiernemu dopasowaniu. Dlatego halucynacje zostały przetłumaczone i zidentyfikowane na potrzeby projektu przez dwujęzycznych mówców w warstwie adnotacji ręcznych.

Inicjatywa osiągnęła nowe najlepsze wyniki w szeregu standardowych testów sektorowych i jako pierwsza osiągnęła akceptowalne wyniki przy użyciu danych przekraczających 10 milionów tokenów.

Kod projektu pt Wykrywanie treści halucynacyjnych w warunkowym generowaniu sekwencji neuronowych, Został wydany na GitHubiei pozwala użytkownikom generować własne syntetyczne dane za pomocą BART z dowolnego korpusu tekstu. Przewiduje się także następną generację modeli wykrywania halucynacji.