Sztuczna inteligencja
Ulepszanie modeli językowych z funkcją wyszukiwania: samorozumowanie i adaptacyjne uzupełnianie dla systemów konwersacyjnych
Duże modele językowe często mają trudności z dostarczaniem precyzyjnych i aktualnych informacji, szczególnie w złożonych zadaniach opartych na wiedzy. Aby pokonać te przeszkody, badacze badają metody poprawy tych modeli poprzez integrację ich z zewnętrznymi źródłami danych.
Dwie nowe podejścia, które pojawiły się w tym polu, to ramy samorozumowania i adaptacyjne uzupełnianie dla systemów konwersacyjnych. W tym artykule zagłębimy się w te innowacyjne techniki i zbadamy, jak one poszerzają granice tego, co jest możliwe z modelami językowymi.
Obietnica i pułapki modeli językowych z funkcją wyszukiwania
Rozumiemy pojęcie modeli językowych z funkcją wyszukiwania (RALM). Podstawową ideą za RALM jest połączenie ogromnej wiedzy i zdolności językowych pre-trenowanych modeli językowych z możliwością dostępu i włączania zewnętrznych, aktualnych informacji podczas inferencji.
Oto prosta ilustracja, jak działa podstawowy RALM:
- Użytkownik zadaje pytanie: “Jaki był wynik igrzysk olimpijskich w 2024 roku?”
- System pobiera odpowiednie dokumenty z zewnętrznej bazy wiedzy.
- Model LLM przetwarza pytanie wraz z pobranymi informacjami.
- Model generuje odpowiedź na podstawie zarówno swojej wewnętrznej wiedzy, jak i zewnętrznych danych.
To podejście wykazało duży potencjał w poprawie dokładności i trafności wyjść modelu LLM, szczególnie w zadaniach wymagających dostępu do bieżących informacji lub wiedzy specyficznej dla danego obszaru. Jednak RALM nie są pozbawione wyzwań. Dwa kluczowe problemy, z którymi borykają się badacze, to:
- Niezawodność: Jak możemy zapewnić, że pobrane informacje są istotne i pomocne?
- Śledzenie: Jak możemy uczynić proces rozumowania modelu bardziej przejrzystym i weryfikowalnym?
Ostatnie badania zaproponowały innowacyjne rozwiązania tych wyzwań, które będziemy badać w głębi.
Samorozumowanie: Ulepszanie RALM z wyraźnymi trajektoriami rozumowania
To jest architektura i proces za retrieval-augmented LLM, skupiający się na ramie o nazwie Samorozumowanie. To podejście wykorzystuje trajektorie, aby poprawić zdolność modelu do rozumowania nad pobranymi dokumentami.
Gdy zadane jest pytanie, pobierane są odpowiednie dokumenty i przetwarzane przez serię kroków rozumowania. Mechanizm samorozumowania stosuje procesy analityczne i trajektorii, aby przefiltrować i zsyntetyzować informacje przed wygenerowaniem ostatecznej odpowiedzi. To podejście nie tylko poprawia dokładność wyjścia, ale także zapewnia, że proces rozumowania za odpowiedziami jest przejrzysty i śledzalny.
W powyższych przykładach, takich jak określenie daty premiery filmu “Catch Me If You Can” lub identyfikacja artystów, którzy pomalowali sufity katedry we Florencji, model skutecznie filtrował przez pobrane dokumenty, aby wyprodukować dokładne, wspierane przez kontekst odpowiedzi.
Ten tabel przedstawia porównawczą analizę różnych wariantów modeli LLM, w tym modeli LLaMA2 i innych modeli z funkcją wyszukiwania w zadaniach takich jak NaturalQuestions, PopQA, FEVER i ASQA. Wyniki są podzielone między wersje podstawowe bez funkcji wyszukiwania a te, które zostały ulepszone z funkcją wyszukiwania.
Ten obrazek przedstawia scenariusz, w którym model LLM jest zlecony do udzielania sugestii na podstawie zapytań użytkownika, pokazując, jak użycie zewnętrznej wiedzy może wpłynąć na jakość i istotność odpowiedzi. Diagram podkreśla dwa podejścia: jedno, w którym model wykorzystuje fragment wiedzy, i drugie, w którym nie. Porównanie podkreśla, jak włączenie konkretnych informacji może dostosować odpowiedzi do potrzeb użytkownika, zapewniając głębię i dokładność, które mogłyby być niedostępne w czysto generatywnym modelu.
Jednym z przełomowych podejść do ulepszania RALM jest wprowadzenie ram samorozumowania. Podstawową ideą tego podejścia jest wykorzystanie zdolności samego modelu językowego do generowania wyraźnych trajektorii rozumowania, które mogą być następnie wykorzystane do poprawy jakości i niezawodności jego wyjść.
Rozłóżmy kluczowe składniki ramy samorozumowania:
- Proces świadomy istotności (RAP)
- Proces selektywny świadomy dowodów (EAP)
- Proces analizy trajektorii (TAP)
Proces świadomy istotności (RAP)
RAP jest zaprojektowany, aby rozwiązać jeden z podstawowych wyzwań RALM: określenie, czy pobrane dokumenty są naprawdę istotne dla zadania. Oto jak to działa:
- System pobiera zestaw potencjalnie istotnych dokumentów przy użyciu modelu wyszukiwania (np. DPR lub Contriever).
- Następnie model językowy jest instruowany, aby ocenić istotność tych dokumentów w odniesieniu do pytania.
- Model wyraźnie generuje powody, wyjaśniając, dlaczego dokumenty są uważane za istotne lub nieistotne.
Na przykład, dane pytanie “Kiedy została zbudowana wieża Eiffla?”, RAP może wyprodukować wyjście takie jak to:
Istotne: Prawda
Powód istotności: Pobrane dokumenty zawierają szczegółowe informacje o datach budowy wieży Eiffla, w tym rozpoczęcia w 1887 roku i zakończenia w 1889 roku.
Ten proces pomaga wyfiltrować nieistotne informacje wcześnie w potoku, poprawiając jakość odpowiedzi modelu.
Proces selektywny świadomy dowodów (EAP)
EAP idzie o krok dalej, instruując model, aby zidentyfikować i cytować konkretnych fragmenty dowodów z istotnych dokumentów. Ten proces naśladuje, jak ludzie mogliby podejść do zadania badawczego, wybierając kluczowe zdania i wyjaśniając ich istotność. Oto jak mogłoby wyglądać wyjście EAP:
Zacytuj treść: "Budowa wieży Eiffla rozpoczęła się 28 stycznia 1887 roku i została ukończona 31 marca 1889 roku."
Powód cytowania: To zdanie dostarcza dokładne daty rozpoczęcia i zakończenia budowy wieży Eiffla, bezpośrednio odpowiadając na pytanie o to, kiedy została zbudowana.
Poprzez wyraźne cytowanie źródeł i wyjaśnianie istotności każdego fragmentu dowodów, EAP poprawia śledzenie i interpretowalność wyjść modelu.
Proces analizy trajektorii (TAP)
TAP jest ostatecznym etapem ramy samorozumowania, gdzie model konsoliduje wszystkie trajektorie rozumowania wygenerowane w poprzednich krokach. Analizuje te trajektorie i produkuje zwięzłe podsumowanie wraz z ostateczną odpowiedzią. Wyjście TAP mogłoby wyglądać tak:
Analiza: Wieża Eiffla została zbudowana między 1887 a 1889 rokiem. Budowa rozpoczęła się 28 stycznia 1887 roku i została ukończona 31 marca 1889 roku. Informacje te są wspierane przez wiele wiarygodnych źródeł, które dostarczają spójne daty budowy wieży.
Odpowiedź: Wieża Eiffla została zbudowana w latach 1887-1889.
Ten proces pozwala modelowi dostarczyć zarówno szczegółowe wyjaśnienie swojego rozumowania, jak i zwięzłą odpowiedź, dostosowaną do różnych potrzeb użytkownika.
Wdrożenie samorozumowania w praktyce
Aby wdrożyć tę ramę samorozumowania, badacze badali różne podejścia, w tym:
- Wyzwanie pre-trenowanych modeli językowych
- Dostosowywanie modeli językowych przy użyciu parametrycznie wydajnych technik, takich jak QLoRA
- Rozwój specjalistycznych architektur neuronowych, takich jak modele uwagi wielogłowej
Każde z tych podejść ma swoje własne kompromisy pod względem wydajności, efektywności i łatwości wdrożenia. Na przykład, podejście wyzywające jest najłatwiejsze do wdrożenia, ale może nie zawsze dawać spójne wyniki. Dostosowywanie oferuje dobrą równowagę między wydajnością a efektywnością, podczas gdy specjalistyczne architektury mogą zapewnić najlepszą wydajność, ale wymagają większych zasobów obliczeniowych do treningu.
Oto uproszczony przykład, jak można wdrożyć RAP przy użyciu podejścia wyzywającego z modelem językowym takim jak GPT-3:
import openai
def relevance_aware_process(question, documents):
prompt = f"""









