Kontakt z nami

Artificial Intelligence

Jak dane syntetyczne wpływają na halucynacje AI?

mm

Chociaż syntetyczne dane są potężnym narzędziem, mogą one ograniczyć halucynacje sztucznej inteligencji tylko w określonych okolicznościach. W prawie każdym innym przypadku będą je wzmacniać. Dlaczego tak jest? Co to zjawisko oznacza dla tych, którzy w nie zainwestowali? 

Czym różnią się dane syntetyczne od danych rzeczywistych?

Dane syntetyczne to informacje generowane przez AI. Zamiast być zbierane z rzeczywistych zdarzeń lub obserwacji, są one wytwarzane sztucznie. Jednak przypominają oryginał na tyle, aby wytworzyć dokładny, trafny wynik. Taki jest w każdym razie pomysł.  

Aby stworzyć sztuczny zbiór danych, inżynierowie AI trenują algorytm generatywny na prawdziwej relacyjnej bazie danych. Po wyświetleniu monitu generuje drugi zbiór, który ściśle odzwierciedla pierwszy, ale nie zawiera żadnych prawdziwych informacji. Podczas gdy ogólne trendy i właściwości matematyczne pozostają nienaruszone, jest wystarczająco dużo szumu, aby zamaskować oryginalne relacje. 

Zestaw danych generowany przez AI wykracza poza deidentyfikację, replikując podstawową logikę relacji między polami zamiast po prostu zastępować pola równoważnymi alternatywami. Ponieważ nie zawiera żadnych danych identyfikacyjnych, firmy mogą go używać do obchodzenia przepisów dotyczących prywatności i praw autorskich. Co ważniejsze, mogą go swobodnie udostępniać lub rozpowszechniać bez obawy o naruszenie. 

Jednak fałszywe informacje są częściej używane do uzupełniania. Firmy mogą ich używać do wzbogacania lub rozszerzania rozmiarów próbek, które są zbyt małe, czyniąc je wystarczająco dużymi, aby skutecznie szkolić systemy AI. 

Czy dane syntetyczne minimalizują halucynacje AI?

Czasami algorytmy odwołują się do nieistniejących zdarzeń lub przedstawiają logicznie niemożliwe sugestie. Te halucynacje są często bezsensowne, mylące lub niepoprawne. Na przykład duży model językowy mógłby napisać artykuł instruktażowy na temat udomowienia lwów lub zostania lekarzem w wieku 6 lat. Jednak nie wszystkie są tak ekstremalne, co może utrudniać ich rozpoznanie. 

Jeśli zostaną odpowiednio wyselekcjonowane, sztuczne dane mogą złagodzić te incydenty. Istotna, autentyczna baza danych treningowych jest podstawą każdego modelu, więc logiczne jest, że im więcej ktoś ma szczegółów, tym dokładniejszy będzie wynik jego modelu. Dodatkowy zestaw danych umożliwia skalowalność, nawet w przypadku niszowych aplikacji z ograniczoną ilością informacji publicznych. 

Debiasing to kolejny sposób, w jaki syntetyczna baza danych może zminimalizować halucynacje AI. Według MIT Sloan School of Management, może pomóc w walce z uprzedzeniami ponieważ nie ogranicza się do pierwotnego rozmiaru próby. Profesjonaliści mogą używać realistycznych szczegółów, aby wypełnić luki, w których wybrane subpopulacje są niedoreprezentowane lub nadreprezentowane. 

Jak sztuczne dane pogarszają halucynacje

Ponieważ inteligentne algorytmy nie potrafi rozumować ani kontekstualizować informacji, są podatne na halucynacje. Modele generatywne — w szczególności wstępnie wytrenowane duże modele językowe — są szczególnie podatne. W pewnym sensie sztuczne fakty pogłębiają problem. 

Wzmocnienie odchylenia

Podobnie jak ludzie, AI może uczyć się i odtwarzać uprzedzenia. Jeśli sztuczna baza danych przecenia niektóre grupy, a niedoreprezentuje inne — co jest niepokojąco łatwe do zrobienia przypadkowo — jej logika podejmowania decyzji będzie przekrzywiona, co negatywnie wpłynie na dokładność wyników. 

Podobny problem może pojawić się, gdy firmy używają fałszywych danych, aby wyeliminować rzeczywiste uprzedzenia, ponieważ mogą one już nie odzwierciedlać rzeczywistości. Na przykład, ponieważ ponad 99% przypadków raka piersi występują u kobiet, a wykorzystanie dodatkowych informacji w celu zrównoważenia reprezentacji może zaburzyć diagnozę.

Halucynacje przecinające się

Intersekcjonalność to socjologiczna rama opisująca, w jaki sposób przecinają się takie dane demograficzne, jak wiek, płeć, rasa, zawód i klasa. Analizuje, w jaki sposób nakładające się tożsamości społeczne grup skutkują unikalnymi kombinacjami dyskryminacji i przywilejów.

Gdy od modelu generatywnego żąda się wytworzenia sztucznych szczegółów na podstawie tego, na czym został wytrenowany, może on wygenerować kombinacje, które nie istniały w oryginale lub są logicznie niemożliwe.

Ericka Johnson, profesor gender and society na Uniwersytecie w Linköping, współpracowała z naukowcem uczącym się maszyn, aby zademonstrować to zjawisko. Użyli generatywnej sieci adwersaryjnej tworzyć wersje syntetyczne danych ze spisu powszechnego w Stanach Zjednoczonych z 1990 r. 

Od razu zauważyli rażący problem. Sztuczna wersja miała kategorie zatytułowane „żona i singiel” oraz „nigdy niezamężni mężowie”, które były halucynacjami interseksjonalnymi.

Bez odpowiedniej kuracji baza danych replik będzie zawsze nadreprezentować dominujące subpopulacje w zestawach danych, jednocześnie niedoreprezentując — lub nawet wykluczając — niedoreprezentowane grupy. Przypadki skrajne i wartości odstające mogą być całkowicie ignorowane na rzecz dominujących trendów. 

Upadek modelu 

Nadmierne poleganie na sztucznych wzorcach i trendach prowadzi do załamania się modelu — wydajność algorytmu drastycznie się pogarsza, ponieważ staje się on mniej przystosowany do obserwacji i zdarzeń w świecie rzeczywistym. 

To zjawisko jest szczególnie widoczne w generatywnej sztucznej inteligencji nowej generacji. Wielokrotne używanie sztucznej wersji do ich trenowania powoduje pętlę samokonsumującą. Jedno z badań wykazało, że ich spadek jakości i wycofania stopniowo, bez wystarczającej ilości aktualnych, rzeczywistych danych w każdym pokoleniu.

Przeładowanie 

Przeładowanie jest nadmiernym poleganiem na danych treningowych. Algorytm działa dobrze na początku, ale będzie miał halucynacje, gdy zostaną mu przedstawione nowe punkty danych. Informacje syntetyczne mogą pogłębiać ten problem, jeśli nie odzwierciedlają dokładnie rzeczywistości. 

Konsekwencje dalszego korzystania z danych syntetycznych

Rynek danych syntetycznych przeżywa rozkwit. Firmy w tej niszy branżowej zebrał około 328 milionów dolarów w 2022 r., w porównaniu z 53 mln USD w 2020 r. — wzrost o 518% w ciągu zaledwie 18 miesięcy. Warto zauważyć, że jest to wyłącznie finansowanie publicznie znane, co oznacza, że ​​rzeczywista kwota może być jeszcze wyższa. Można śmiało powiedzieć, że firmy są niesamowicie zaangażowane w to rozwiązanie. 

Jeśli firmy będą nadal korzystać ze sztucznej bazy danych bez odpowiedniej kuracji i odchylenia, wydajność ich modelu będzie stopniowo spadać, co zrujnuje ich inwestycje w AI. Rezultaty mogą być poważniejsze, w zależności od zastosowania. Na przykład w opiece zdrowotnej wzrost liczby halucynacji może skutkować błędnymi diagnozami lub niewłaściwymi planami leczenia, co prowadzi do gorszych wyników leczenia pacjentów.

Rozwiązanie nie będzie wymagało powrotu do rzeczywistych danych

Systemy AI potrzebują milionów, jeśli nie miliardów, obrazów, tekstów i filmów do szkolenia, z których wiele jest pobieranych z publicznych stron internetowych i kompilowanych w ogromnych, otwartych zestawach danych. Niestety, algorytmy zużywają te informacje szybciej, niż ludzie są w stanie je wygenerować. Co się stanie, gdy nauczą się wszystkiego?

Liderzy biznesu obawiają się osiągnięcia ściany danych — punktu, w którym wszystkie publiczne informacje w internecie zostaną wyczerpane. Może to nastąpić szybciej, niż myślą. 

Mimo że zarówno ilość zwykłego tekstu na przeciętnej stronie internetowej, jak i liczba użytkowników Internetu rosną w tempie od 2% do 4% co roku algorytmy wyczerpują wysokiej jakości dane. Tylko 10% do 40% można wykorzystać do szkolenia bez utraty wydajności. Jeśli trendy się utrzymają, zasoby informacji publicznej generowanej przez ludzi mogą się wyczerpać do 2026 r.

Najprawdopodobniej sektor AI może uderzyć w ścianę danych jeszcze wcześniej. Generatywny boom AI ostatnich kilku lat zwiększył napięcia dotyczące własności informacji i naruszenia praw autorskich. Coraz więcej właścicieli witryn korzysta z protokołu wykluczenia robotów — standardu, który używa pliku robots.txt do blokowania robotów sieciowych — lub jasno daje do zrozumienia, że ​​ich witryna jest niedostępna. 

Badanie z 2024 r. opublikowane przez grupę badawczą kierowaną przez MIT ujawniło, że w zbiorze danych Colossal Cleaned Common Crawl (C4) — korpusie indeksowania sieci na dużą skalę — rosną ograniczenia. 28% najbardziej aktywnych, krytycznych źródeł w C4 były całkowicie ograniczone. Co więcej, 45% C4 jest teraz oznaczone jako niedostępne zgodnie z warunkami usługi. 

Jeśli firmy będą przestrzegać tych ograniczeń, świeżość, trafność i dokładność rzeczywistych faktów publicznych spadnie, zmuszając je do polegania na sztucznych bazach danych. Mogą nie mieć zbyt dużego wyboru, jeśli sądy orzekną, że każda alternatywa jest naruszeniem praw autorskich. 

Przyszłość syntetycznych danych i halucynacji AI 

Wraz z unowocześnianiem praw autorskich i coraz większą liczbą właścicieli witryn ukrywających swoje treści przed robotami indeksującymi, generowanie sztucznych zestawów danych stanie się coraz bardziej popularne. Organizacje muszą przygotować się na stawienie czoła zagrożeniu halucynacji. 

Zac Amos jest pisarzem technicznym, który koncentruje się na sztucznej inteligencji. Jest także redaktorem ds. funkcji w Rehack, gdzie można przeczytać więcej o jego twórczości.