Sztuczna inteligencja

Uzyskanie NLP, aby wyzwolić pytania źle poinformowane

Published September 10, 2021

Updated April 5, 2026

Martin Anderson

Niektóre pytania są nieodpowiednie, ponieważ zawierają błędne informacje – założenia, które osoba słuchająca pytania musi odfiltrować i odrzucić. Zakłada to, oczywiście, że słuchacz ma wystarczającą ilość poprawnych informacji, aby zakwestionować pytanie, zamiast używać samego pytania jako źródła (błędnych) informacji.

Jest to wyzwanie dla systemów Przetwarzania Języka Naturalnego (NLP), takich jak GPT-3, które mają tendencję do “halucynowania” informacji w celu utrzymania dialogu.

Obecnie zadanie pytania GPT-3 “Kiedy Marie Curie wynalazła uran?” najprawdopodobniej da odpowiedź “Marie Curie wynalazła uran w 1898 roku”.

Źródło: https://beta.openai.com/playground (Da Vinci instruct beta).

W rzeczywistości uran został odkryty w 1789 roku przez niemieckiego chemika Martina Heinricha Klaprotha, podczas gdy odkrycie radu przez Curies w 1898 roku było izolacją radu.

Problem systemów NLP ignorujących błędne założenia został uwypuklony w kilku publikacjach w tym roku, w tym w sposobie, w jaki wyniki wyszukiwania Google z użyciem sztucznej inteligencji ignorują błędne informacje w pytaniu “Kiedy Neil Armstrong postawił stopę na Marsie?” – błąd, który nadal jest widoczny w momencie pisania tego artykułu i który dotyczy również postaci z filmu Toy Story, Buzz Lightyear, który podobno wylądował na Księżycu 21 lipca 1969 roku.

Tom Hanks, inny aktor z filmu Toy Story, jest również uhonorowany przez Google za lądowanie na Księżycu w 1970 roku, pomimo faktu, że jego postać z filmu Apollo 13, astronauta Jim Lovell, jest najbardziej znany z tego, że nie osiągnął tego.

Rozwiązywanie problemów z założeniami w wymianie NLP

Teraz Google Research, wraz z badaczami z Uniwersytetu Johnsa Hopkinsa i Uniwersytetu Browna, bada nowe metody uczenia maszynowego, których można użyć do wyzwania systemów NLP, aby zakwestionowały pytania zawierające błędne informacje, podobnie jak robią to nauczyciele podczas rozmów z uczniami.

Niedawny artykuł Który lingwista wynalazł żarówkę? Weryfikacja założeń dla odpowiedzi na pytania opisuje zorganizowane wysiłki, aby opracować nowy system, który może identyfikować założenia i sprawdzać ich prawdziwość przed kontynuowaniem wymiany.

Nowy algorytm skutecznie przetwarza pytania przed powrotem do rozmowy, rozkładając “uwierzytelnianie” pytania na trzyetapowy proces.

Nie oblicza! Po lewej stronie widoczny jest ‘zatory’, który występuje nawet wtedy, gdy zaawansowany system NLP jest w stanie określić, że pytanie nie ma sensu. Po prawej stronie znajduje się rozbiórki proponowanego algorytmu, który próbuje naprawić błąd źródłowy. Źródło: https://arxiv.org/pdf/2101.00391.pdf

Chociaż wydaje się to prosta rutyna weryfikacyjna, która powinna być wbudowana w systemy wiedzy od samego początku, większość rutynowych szkoleń NLP uczy się informacji z nieuzasadnionym zaufaniem do danych źródłowych, w tym dyskursu (takiego jak fałszywe wiadomości), które mogły zostać opublikowane na wcześniej “zaufanych” kanałach.

Dlatego też kluczowym problemem jest identyfikacja konsensusu co do niezawodnego źródła faktów w środowisku, w którym proliferacja błędnych “wiadomości” za pośrednictwem mediów społecznościowych domyślnie nadałoby im autorytet zgodnie z logiką uogólniania maszynowego, przynajmniej do czasu, gdy zjawisko fałszywych wiadomości stało się krytycznym obszarem zainteresowania w tej dziedzinie w ostatnich latach.

Określenie najlepszego podejścia do pytań nieodpowiednich

Aby określić odpowiednie podejście do rozwiązania pytania zawierającego błędne informacje, badacze przeprowadzili 100 takich zapytań przez cztery różne modele Q&A i poprosili ludzi, aby wybrali najlepsze lub najmniej problematyczne rozwiązanie, które modele wygenerowały.

Cztery możliwe architektoniczne wyniki “złego” pytania to: ‘Nieodpowiednie’ – gdzie system Q&A z zamkniętą książką skutecznie zamyka zapytanie bez dalszego wyjaśnienia; ‘Wyjaśnienie oparte na awarii założeń’ – gdzie system nie potwierdza błędnego założenia, skutecznie odpowiedź “nieodpowiednia”, z dodatkowym wyjaśnieniem; ‘Wyjaśnienie ekstrakcyjne’ – gdzie system pobiera powiązane cytaty z Wikipedii i dołącza je do wstępnego “To pytanie jest nieodpowiednie, ponieważ…”; oraz ‘Przepisanie w otwartej domenie’ – gdzie konkurencyjny system szuka dodatkowych źródeł z Wikipedii.

Ten przykład czterech możliwych odpowiedzi na pytanie, które wydaje się ‘nieodpowiednie’, ilustruje złożoność próby konkurencyjnego rozwiązania domenowego tego problemu.

W trakcie testów pięciu uczestników (zarekrutowanych na wewnętrznej platformie Google Crowdsourcing) wolało odpowiedzi oparte na założeniach, co skłoniło badaczy do opracowania nowego frameworku, aby rozłożyć i zweryfikować pytania.

W nowym systemie wyzwalacze językowe są pobierane z pytania przez generator oparty na regułach, który dekonstruuje zdanie na potencjalne oświadczenia faktów. Jeśli z pytania wynikają多 założenia, każde z nich jest badane i przyczynia się do ostatecznej odpowiedzi, jeśli dotyczą one błędnych założeń z oryginalnego pytania.

Zestawy danych

Wygenerowane założenia w pierwszym etapie zostały ręcznie zmienione, aby utworzyć zestaw danych weryfikacyjnych z “złotymi” założeniami. Jakiekolwiek założenia, które wynikają z rozgałęzienia zapytania, ale które nie są obecne w oryginalnych pytaniach, zostały usunięte.

Dwóch autorów artykułu ręcznie oznaczyło 462 założenia pod kątem weryfikowalności tak/nie, na podstawie odpowiedniej strony Wikipedii związanej z każdym pytaniem. Przypadki niezgodności zostały rozwiązane w dyskusji po fakcie, zanim zostały zatwierdzone w zestawie danych.

Badacze użyli zero-shot NLI, zadania klasyfikacji zdania, które wymagało dekonstrukcji artykułów z Wikipedii związanych z pytaniami. Ponieważ proces ten daje wiele więcej par niż pytanie może zawierać lub niż model może obsłużyć, wyniki zostały przefiltrowane i oznaczone.

Wyniki i formułowanie odpowiedzi

Najbardziej skuteczne wyniki zostały uzyskane przez najbardziej pracochłonne rozwiązanie: wyrafinowany, oparty na regułach/hybrydowy NLI wygenerowany z ALBERT QNLI z wyrażeniami Wiki i założeniami.

Wyniki modeli weryfikacyjnych, gdzie ‘zdania Wiki’ używają zdań pobranych z artykułów Wikipedii związanych z pytaniami, a ‘założenia Wiki’ są generowanymi założeniami z tych zdań.

Korzystając z tego sformułowania, badacze opracowali system szablonu, w którym fakt negujący z Wikipedii został dołączony do “To pytanie jest nieodpowiednie, ponieważ…” i podobnych fraz. Chociaż nie jest to idealne rozwiązanie, autorzy sugerują, że odpowiedzi oparte na nieuwierzytelnialności mają prawdopodobnie zmniejszyć liczbę fałszywych negatywów.

System został ostatecznie zaimplementowany w modelu Extended Transformer Construction (ETC).

Wnioski

W zależności od jego ostatecznego wyniku w świecie rzeczywistym, można argumentować, że całe to podejście może prowadzić do prostego zastąpienia “nieuwierzytelnialnego” przez “nieodpowiedniego” w przypadkach, w których system badawczy nie może ocenić przydatnego sprostowania błędnego założenia pytania. Skutecznie wydaje się, że tworzy infrastrukturę dla lepszych systemów weryfikacyjnych w przyszłości.

Badacze już teraz przyznają, że koszt żądania tokenów API jest czynnikiem ograniczającym przy formułowaniu dłuższych odpowiedzi, które system ten wygeneruje, i można założyć, że dodatkowy nakład pracy związany z “na żywo” badaniem pytania prawdopodobnie doda opóźnienia nawet w dużych systemach, takich jak GPT-3, ponieważ odpowiedzialność takich systemów do tej pory opierała się na uogólnionym włączaniu wiedzy w czasie szkolenia, a nie na rozległych, sieciowych rutynach weryfikacyjnych.

Ponadto badacze zauważają, że system ma obecnie ograniczenia związane z analizą semantyczną tekstu:

Na przykład, kto wierzy, że Estella jest matką , ma osadzoną własność pod niefaktualnym czasownikiem uwierzyć, ale nasz generator wygenerowałby jednak ‘Estella’ ma ‘matkę’.

Niemniej jednak zespół przewiduje nowe i bardziej elastyczne systemy odpowiedzi na pytania, które zostaną opracowane na podstawie tej pracy:

W przyszłości planujemy rozwijać tę pracę, proponując systemy Q&A, które są bardziej wytrzymałe i współpracujące. Na przykład, różne typy awarii założeń mogą być lepiej obsługiwane przez bardziej płynne strategie odpowiedzi – na przykład, naruszenie założeń unikalności może być lepiej obsłużone przez podanie wszystkich możliwych odpowiedzi, zamiast stwierdzenia, że założenie unikalności zostało naruszone.