Sztuczna inteligencja
Co to są hallucynacje LLM? Przyczyny, problemy etyczne i zapobieganie

Duże modele językowe (LLM) to systemy sztucznej inteligencji zdolne do analizy i generowania tekstów podobnych do ludzkich. Ale mają one problem – LLM hallucynują, czyli wymyślają rzeczy. Hallucynacje LLM sprawiły, że badacze są zaniepokojeni postępem w tej dziedzinie, ponieważ jeśli badacze nie mogą kontrolować wyników modeli, to nie mogą budować krytycznych systemów, które będą służyć ludzkości. Więcej na ten temat później.
Ogólnie LLM używają ogromnych ilości danych szkoleniowych i złożonych algorytmów uczenia, aby generować realistyczne dane wyjściowe. W niektórych przypadkach używa się nauki w kontekście, aby szkolić te modele, używając tylko kilku przykładów. LLM stają się coraz bardziej popularne w różnych dziedzinach, od tłumaczeń maszynowych, analizy sentimentu, wirtualnej pomocy AI, adnotacji obrazu, przetwarzania języka naturalnego itd.
Pomimo nowatorskiej natury LLM, nadal są one podatne na błędy, uprzedzenia i hallucynacje. Yann LeCun, obecny Chief AI Scientist w Meta, niedawno wspomniał o centralnej wadzie LLM, która powoduje hallucynacje: “Duże modele językowe nie mają pojęcia o podstawowej rzeczywistości, którą opisuje język. Te systemy generują tekst, który brzmi dobrze, gramatycznie i semantycznie, ale nie mają jakiegoś obiektywnego celu, poza tym, że tylko spełniają statystyczną spójność z podpowiedzią”.
Hallucynacje w LLM

Image by Gerd Altmann from Pixabay
Hallucynacje odnoszą się do generowania danych wyjściowych, które są poprawne składniowo i semantycznie, ale są odłączone od rzeczywistości i oparte na fałszywych założeniach. Hallucynacja jest jednym z głównych problemów etycznych LLM, i może mieć szkodliwe konsekwencje, gdy użytkownicy bez odpowiedniej wiedzy zaczynają过-reliować na te coraz bardziej przekonywujące modele językowe.
Pewien stopień hallucynacji jest nieunikniony we wszystkich autoregresyjnych LLM. Na przykład model może przypisać fałszywą cytaty celebrycie, którego nigdy nie powiedział. Mogą twierdzić coś na temat określonego tematu, co jest faktcznie niepoprawne lub cytować nieistniejące źródła w pracach badawczych, tym samym rozpowszechniając dezinformację.
Jednakże, uzyskanie modeli AI do hallucynacji nie zawsze ma niekorzystne skutki. Na przykład nowe badanie sugeruje, że naukowcy odkrywają ‘nowe białka o nieograniczonej ilości właściwości’ za pomocą hallucynujących LLM.
Co powoduje hallucynacje LLM?
LLM mogą hallucynować z powodu różnych czynników, od błędów przeszkolenia i kodowania/dekodowania do błędów szkoleniowych.
Przeszkolenie

Image by janjf93 from Pixabay
Przeszkolenie to problem, w którym model AI dopasowuje dane szkoleniowe zbyt dobrze. Jednak nie może w pełni reprezentować całego zakresu danych wejściowych, których może spotkać, tzn. nie potrafi uogólnić swojej mocy predykcyjnej do nowych, niewidzianych danych. Przeszkolenie może prowadzić do generowania treści hallucynacyjnej.
Błędy kodowania i dekodowania

Image by geralt from Pixabay
Jeśli występują błędy w kodowaniu i dekodowaniu tekstu oraz jego następnych reprezentacji, może to również powodować, że model generuje nonsensowne i błędne dane wyjściowe.
Błędy szkoleniowe

Image by Quince Creative from Pixabay
Innym czynnikiem jest obecność pewnych uprzedzeń w danych szkoleniowych, co może powodować, że model daje wyniki, które reprezentują te uprzedzenia, a nie rzeczywistą naturę danych. Jest to podobne do braku różnorodności w danych szkoleniowych, co ogranicza możliwość uogólnienia modelu do nowych danych.
Złożona struktura LLM sprawia, że jest dość trudno dla badaczy AI i praktyków identyfikować, interpretować i poprawiać te podstawowe przyczyny hallucynacji.
Problemy etyczne hallucynacji LLM
LLM mogą utrwalać i nasilać szkodliwe uprzedzenia za pomocą hallucynacji i mogą negatywnie wpływać na użytkowników i mieć szkodliwe konsekwencje społeczne. Niektóre z tych najważniejszych problemów etycznych są wymienione poniżej:
Treści dyskryminujące i toksyczne

Image by ar130405 from Pixabay
Ponieważ dane szkoleniowe LLM często zawierają sociokulturowe stereotypy z powodu wrodzonych uprzedzeń i braku różnorodności. LLM mogą więc wytwarzać i utrwalać te szkodliwe idee wobec grup dyskryminowanych w społeczeństwie.
Mogą one generować te dyskryminujące i nienawistne treści na podstawie rasy, płci, religii, etniczności itd.
Problemy z prywatnością

Image by JanBaby from Pixabay
LLM są szkolone na ogromnym korpusie danych szkoleniowych, który często zawiera informacje osobiste osób. Zdarzały się przypadki, w których takie modele naruszały prywatność ludzi. Mogą one ujawniać określone informacje, takie jak numery bezpieczeństwa społecznego, adresy domowe, numery telefonów komórkowych i dane medyczne.
Dezinformacja i fałszywa informacja

Image by geralt from Pixabay
Modele językowe mogą wytwarzać treści, które wydają się prawdziwe, ale są w rzeczywistości fałszywe i niepoparte dowodami empirycznymi. Może to być przypadkowe, prowadząc do dezinformacji, lub może mieć złośliwe intencje, aby świadomie rozpowszechniać fałszywą informację. Jeśli to nie zostanie powstrzymane, może to stworzyć niekorzystne trendy społeczno-kulturowo-ekonomiczno-polityczne.
Zapobieganie hallucynacjom LLM

Image by athree23 from Pixabay
Badacze i praktycy stosują różne podejścia, aby rozwiązać problem hallucynacji w LLM. Obejmują one poprawę różnorodności danych szkoleniowych, eliminowanie wrodzonych uprzedzeń, stosowanie lepszych technik regularyzacji oraz zastosowanie treningu przeciwnego i uczenia ze wzmocnieniem, między innymi:
- Rozwój lepszych technik regularyzacji jest podstawą rozwiązania problemu hallucynacji. Pomagają one zapobiec przeszkoleniu i innym problemom, które powodują hallucynacje.
- Wzmacnianie danych może zmniejszyć częstotliwość hallucynacji, jak wynika z badania. Wzmacnianie danych polega na dodaniu losowego tokenu w dowolnym miejscu zdania. Podwaja to rozmiar zbioru danych szkoleniowych i powoduje spadek częstotliwości hallucynacji.
- OpenAI i Google’s DeepMind opracowali technikę uczenia ze wzmocnieniem i informacjami zwrotnymi od ludzi (RLHF), aby rozwiązać problem hallucynacji w ChatGPT. Polega to na tym, że oceniający ludzki często przegląda odpowiedzi modelu i wybiera najbardziej odpowiednie dla podpowiedzi użytkownika. Informacje zwrotne są następnie używane do dostosowania zachowania modelu. Ilya Sutskever, główny naukowiec OpenAI, niedawno powiedział, że ten podejście może potencjalnie rozwiązać problem hallucynacji w ChatGPT: “Mam nadzieję, że poprzez einfach poprawienie tego następnego kroku uczenia ze wzmocnieniem i informacjami zwrotnymi od ludzi, możemy nauczyć go, aby nie hallucynował”.
- Identyfikacja treści hallucynacyjnych, aby użyć ich jako przykładu do przyszłego szkolenia, jest również metodą stosowaną do rozwiązania problemu hallucynacji. Nowa technika w tym zakresie wykrywa hallucynacje na poziomie tokenu i przewiduje, czy każdy token w danych wyjściowych jest hallucynowany. Zawiera również metodę nieprzeprowadzonego uczenia się wykrywania hallucynacji.
Po prostu, hallucynacje LLM są coraz większym problemem. I pomimo wysiłków, nadal wiele pracy pozostaje do wykonania, aby rozwiązać ten problem. Złożoność tych modeli sprawia, że jest ogólnie trudno poprawnie identyfikować i korygować podstawowe przyczyny hallucynacji.
Jednakże, dzięki kontynuowanym badaniom i rozwojowi, jest możliwe złagodzenie hallucynacji w LLM i zmniejszenie ich konsekwencji etycznych.
Jeśli chcesz dowiedzieć się więcej o LLM i technikach zapobiegawczych, które są rozwijane, aby rozwiązać problem hallucynacji LLM, odwiedź unite.ai, aby poszerzyć swoją wiedzę.













