Connect with us

Liderzy opinii

Wzrost danych syntetycznych i dlaczego będą one uzupełniać, a nie zastępować dane rzeczywiste

mm

Elon Musk niedawno ogłosił, że wyczerpaliśmy dostępne dane ludzkie do szkolenia modeli AI. Jego ostrzeżenie jest najnowszym komentarzem na temat potrzeby nowych źródeł danych, jeśli AI ma kontynuować swój gwałtowny postęp. W branżach takich jak opieka zdrowotna i finanse, surowe przepisy dotyczące prywatności powodują, że brak danych staje się jeszcze bardziej dotkliwy.

Dane syntetyczne – możliwe rozwiązanie tego braku – nie są nowe, ale ich znaczenie ciągle rośnie, co jest dowodem ostatnich fal połączeń i inwestycji w tej dziedzinie. Istnieją jednak pewne głębokie niepewności dotyczące użycia danych syntetycznych, zwłaszcza ryzyko załamania modelu, gdzie jakość wyjścia wielomodalnego modelu Large Language (LLM) pogarsza się bez danych świata rzeczywistego do treningu. Czy ten problem okaże się nierozwiązywalny czy rozwiązywalny, może mieć znaczący wpływ na przyszłość generatywnego AI (Gen AI).

Co to są dane syntetyczne i jak są tworzone?

Dane syntetyczne są tworzone sztucznie, a nie zbierane z rzeczywistych zdarzeń. AI-generowane dane syntetyczne są obecnie najbardziej rozpowszechnioną formą, która obejmuje trening modeli na danych świata rzeczywistego w celu wykrycia wzorców i korelacji, a następnie generowanie nowych danych, które naśladują te właściwości statystyczne.

LLM są używane do generowania różnych typów danych syntetycznych, w tym danych strukturalnych, takich jak dane tabelaryczne, i danych niestrukturalnych, takich jak wolne teksty, filmy i obrazy. Zależnie od typu generowanych danych, stosuje się różne metody.

Na przykład, dwie powszechne metody stosowane do generowania syntetycznych danych obrazowych to GAN i modele dyfuzji. GAN używają dwóch sieci neuronowych: generator tworzy sztuczne wersje danych rzeczywistych, a dyskryminator identyfikuje, które są rzeczywiste, a które wygenerowane. Pracując razem w sposób ciągły, generator próbuje “oszukać” dyskryminator, ciągle poprawiając realizm i różnorodność sztucznych danych. Modele dyfuzji stosują odmienny podejście, ucząc się zniekształcać dane rzeczywiste, a następnie odwracać ten proces, aby “odszumiać” je. Po skutecznym treningu mogą one generować wysokiej jakości syntetyczne dane audio i wizualne.

Rosnące znaczenie danych syntetycznych

Istnieje długotrwałe zainteresowanie danymi syntetycznymi. Jednak w ciągu ostatnich 5 lat, gwałtowny rozwój LLM zwiększył zapotrzebowanie na dane syntetyczne i stworzył coraz skuteczniejszy sposób ich generowania na dużą skalę. W wyniku tego, użycie danych syntetycznych gwałtownie wzrosło.

Gartner przewiduje, że dane syntetyczne staną się 60% wszystkich danych używanych do treningu LLM do 2024 roku, w porównaniu z zaledwie 1% w 2021 roku. Istnieje każdy powód, by sądzić, że ta szacunkowa wartość jest ogólnie dokładna. Na przykład, model Phi-4 firmy Microsoft, który przewyższa inne LLM, pomimo że jest znacznie mniejszy, został pomyślnie wytrenowany na głównie syntetycznych danych. Tymczasem inżynierowie Amazon Alexa badają użycie modelu “nauczyciel/uczeń”, w którym model “nauczyciel” generuje syntetyczne dane, które są następnie używane do dokształcenia mniejszego modelu “ucznia”.

To powszechne przyjęcie jest odzwierciedlone przez główne ruchy na rynku. Sektor danych syntetycznych doświadczył boomu inwestycyjnego w latach 2021-22. Gretel AI i Tonic.ai zabezpieczyły rundy Series B o wartości 50 milionów i 35 milionów dolarów odpowiednio. Następnie MOSTLY AI zakończył rundę Series B o wartości 25 milionów i Synthesis AI zabezpieczył 17 milionów dolarów w rundzie Series A.

Niedawno trend ten zmierza ku dużym przejęciom. Przejęcie Gretel przez NVIDIA tej wiosny wesprze pracę giganta technologicznego w tej dziedzinie. Podobnie, firma rozwiązań AI SAS nabyła startup danych syntetycznych Hazy w listopadzie 2024 roku.

Firma analityczna Cognilytica oszacowała, że rynek generowania danych syntetycznych w 2021 roku miał wartość około 110 milionów dolarów. Firma spodziewa się, że osiągnie 1,15 miliarda dolarów do 2027 roku. Inne prognozy przewidują wzrost o 31% dla sektora, gdy będzie on rósł do $2,33 miliarda do 2030 roku.

Załamanie modelu

Jednak ekscytujący potencjał danych syntetycznych wiąże się z znaczącą wadą: załamaniem modelu. Jest to zjawisko, w którym LLM szkolone wyłącznie na danych syntetycznych zaczynają produkować mniej precyzyjne lub mniej zróżnicowane dane wyjściowe.

Podczas gdy dane świata rzeczywistego mają tendencję do bycia wysokiej złożoności, dane syntetyczne są często uproszczone i skondensowane przez modele. Na przykład, badacze odkryli, że dokładność modelu szkolonego do wykrywania rakowych zmian skórnych na zdjęciach była odwrotnie proporcjonalna do ilości danych syntetycznych treningowych. Niedawne badanie przeprowadzone przez akademików z Oxfordu, Cambridge, Imperial College i Uniwersytetu w Toronto wykazało, że użycie danych wygenerowanych przez model bez rozróżnienia prowadzi do “nieodwracalnych wad w wynikowym modelu”.

Co gorsza, większość LLM są “czarnymi skrzynkami”, co utrudnia zrozumienie, jak będą reagować na dane syntetyczne. Badacze z Rice University i Stanford doszli do wniosku, że bez pewnych świeżych danych świata rzeczywistego “przyszłe modele generatywne są skazane na to, aby ich jakość (precyzja) lub różnorodność (przywołanie) postępowały maleć”.

Powyższa potrzeba danych świata rzeczywistego

Oczywiście, nawet przy wzroście popytu na dane syntetyczne, potrzeba danych świata rzeczywistego pozostaje. W rzeczywistości, popyt na wysokiej jakości dane świata rzeczywistego może nawet wzrosnąć. Powodem tego jest to, że dane świata rzeczywistego zawsze będą potrzebne, aby trenować modele AI, które generują dane syntetyczne. A po drugie, aby uniknąć załamania modelu, konieczne jest ciągłe synchronizowanie danych syntetycznych z danymi świata rzeczywistego.

Dane rzeczywiste do treningu modeli generujących dane syntetyczne

Jak wcześniej wspomniano, większość danych syntetycznych jest tworzona za pomocą Gen AI. A te modele Gen AI muszą być trenowane na danych świata rzeczywistego, aby tworzyć użyteczne dane syntetyczne. To dlatego, że mogą one tworzyć dane syntetyczne tylko poprzez replikowanie wzorców i właściwości statystycznych danych świata rzeczywistego.

Rozważmy niedawny przykład firmy ubezpieczeniowej, która była w stanie wykorzystać dane syntetyczne do przetestowania różnych dostawców bez narażania swoich wrażliwych danych klientów. Aby wygenerować ten zestaw danych syntetycznych, który dokładnie naśladował rzeczywistość, musiała użyć swoich własnych danych świata rzeczywistego do treningu modelu AI, który następnie wygenerował dane syntetyczne.

Dane rzeczywiste do łagodzenia załamania modelu

Istnieją różne strategie łagodzenia ryzyka załamania modelu. Obejmują one walidację i regularne przeglądy zestawów danych syntetycznych oraz sprawdzanie jakości danych syntetycznych przed ich użyciem w modelach generatywnych. Jednak najczęstsze podejście polega na zróżnicowaniu danych poprzez łączenie danych syntetycznych z danymi ludzkimi. Badanie Gartnera wykazało, że 63% respondentów preferuje użycie częściowo syntetycznego zestawu danych, przy czym tylko 13% stwierdziło, że używa w pełni syntetycznych danych.

Dodanie nawet niewielkich ilości danych świata rzeczywistego może znacznie poprawić wydajność modelu. Badacze z Uniwersytetu Południowej Kalifornii odkryli, że firmy mogą zastąpić do 90% swoich danych świata rzeczywistego danymi syntetycznymi bez widocznego spadku wydajności. Jednak zastąpienie tego ostatniego 10% danych ludzkich powoduje znaczny spadek.

Jakość również ma znaczenie, jak to widać w przypadku sukcesu Microsoftu z Phi-4. Ten LLM został wytrenowany na głównie syntetycznych danych wygenerowanych przez GPT-4o. Jednak większość danych treningowych – ogólnego zestawu danych używanego w pierwszym etapie treningu przed dopasowaniem modelu – była starannie wyselekcjonowanymi, wysokiej jakości danymi świata rzeczywistego, w tym książkami i artykułami badawczymi.

Potencjalne korzyści, które mogą przynieść dane syntetyczne

Kiedy dane syntetyczne są używane w sposób inteligentny i łączone skutecznie z danymi świata rzeczywistego, mają one potencjał rozwiązać sześć konkretnych problemów związanych z danymi treningowymi AI: niedobór, dostępność, homogeniczność, stronniczość, problemy z prywatnością i koszty.

Niedobór danych

Ponieważ firmy AI rywalizują o zdobycie udziału w rynku i osiągnięcie nowych rekordów, niezaspokojony popyt na dane do treningu ich LLM rośnie. Dane syntetyczne mają potencjał wypełnić tę lukę, przynajmniej według badań Gartnera. Jednak należy zauważyć, że użycie znacznych ilości danych świata rzeczywistego w zestawach danych treningowych i do synchronizacji w celu uniknięcia załamania modelu nadal będzie potrzebne.

Dostępność danych

Coraz częściej duże firmy technologiczne pełnią rolę strażników danych, tworząc barierę wejścia dla mniejszych graczy. Dane syntetyczne mają potencjał zdemokratyzować Gen AI, czyniąc duże ilości danych treningowych tanimi i dostępnymi. Niemniej jednak, nie usunie to odpowiedzialności dużych firm technologicznych za poprawę dostępu do danych świata rzeczywistego, ponieważ nadal będą one potrzebne do treningu modeli generujących dane syntetyczne.

Homogeniczność danych

W niektórych niszowych przypadkach użycia, takich jak trening AI do prowadzenia samochodów, zestawy danych świata rzeczywistego są zbyt homogeniczne. W przypadku prowadzenia, deweloperzy mogą generować dane syntetyczne, aby wypełnić luki w danych dla nietypowych sytuacji. To umożliwia modelom treningowe dla rzadkich zdarzeń na drodze.

Stronniczość

Niektóre zestawy danych świata rzeczywistego zawierają wewnętrzne stronniczości, więc dane syntetyczne mogą być generowane, aby zapewnić, że modele AI otrzymują bardziej zrównoważony obraz. Na przykład, w finansach, brytyjski Urząd Nadzoru Finansowego (FCA) argumentował, że dane syntetyczne mają potencjał przeciwdziałać potencjalnym stronniczościom spowodowanym przez to, że pewne grupy są niedoreprezentowane w zestawach danych ludzkich.

Prywatność

W sektorach takich jak opieka zdrowotna i finanse, wymagania dotyczące prywatności powodują, że brak danych staje się jeszcze bardziej dotkliwy. Z danymi syntetycznymi, firmy mogą tworzyć zestawy danych treningowych dla swoich modeli zawierających dane niszowe bez narażania prywatności klientów. Jednak, jak raport zlecony przez brytyjskie Royal Society wskazał w odniesieniu do danych syntetycznych w badaniach medycznych, istnieje założenie, że dane syntetyczne są “wewnętrznie prywatne”. To “mityczne pojęcie”. Jak zauważają badacze, dane syntetyczne mogą przeciekać informacje o danych, z których zostały wygenerowane.

Szczególnie, modele trenowane na wrażliwych danych są narażone na ataki inwersji modelu, w których hakerzy są w stanie odtworzyć części oryginalnego zestawu danych.

Koszty

Ogólnie rzecz biorąc, dane syntetyczne są generowane przy niższych kosztach niż dane świata rzeczywistego. Ponadto, dane syntetyczne są dostarczane z etykietami, co oszczędza czas i koszty. W niektórych projektach treningowych AI, do 80% projektu zajmuje przygotowanie danych, w tym etykietowanie. To wyjaśnia, dlaczego pojawiły się firmy specjalizujące się w taniej pracy w celu spełnienia potrzeb przetwarzania danych gigantów z Doliny Krzemowej.

Uzupełnianie, a nie zastępowanie danych rzeczywistych

Te korzyści danych syntetycznych mogą być wykorzystane, pod warunkiem że nie są traktowane jako zastępstwo dla danych rzeczywistych. Zamiast tego, ich rola powinna polegać na uzupełnieniu zestawów danych rzeczywistych, zapewniając sposoby zwiększenia skali dostępnych punktów danych.

W kontekście, nadchodzący LLM Meta, LLAMA Behemoth, jest trenowany na 30 bilionach punktów danych. Oczywiście, znalezienie danych świata rzeczywistego w tej skali jest wyzwaniem, jeśli nie niemożliwe. Jednak, jak zauważono, użycie danych świata rzeczywistego nadal jest konieczne, czy to do treningu modeli generujących dane syntetyczne, czy do synchronizacji z danymi syntetycznymi w celu zapewnienia dokładności i uniknięcia załamania modelu. Na skalę, na jakiej LLM pracują obecnie, nawet jeśli dane syntetyczne stanowią znaczącą część danych treningowych, nadal będzie istniał znaczący popyt na dane świata rzeczywistego. I to oznacza, że pozostaną złożone problemy do rozwiązania wokół gatekeepingu, dostępu, stronniczości, kosztów i czasu.

Przez ponad 13 lat Gediminas Rickevicius był siłą napędową wzrostu wiodących firm IT, reklamowych i logistycznych na całym świecie. Zmienił tradycyjne podejście do rozwoju biznesu i sprzedaży, integrując big data w strategiczne podejmowanie decyzji. Jako Senior VP of Global Partnerships w Oxylabs, Gediminas kontynuuje swoją misję wyposażania firm w najnowocześniejsze rozwiązania do gromadzenia danych z publicznych stron internetowych.