AI 101
Modele dyfuzyjne w AI – wszystko, co musisz wiedzieć

W ekosystemie AI, modele dyfuzyjne wyznaczają kierunek i tempo postępu technologicznego. Rewolucjonizują sposób, w jaki podejmujemy się złożonych zadań generatywnych AI. Modele te opierają się na matematyce zasad gaussowskich, wariancji, równań różniczkowych i sekwencji generatywnych. (Poniżej wyjaśnimy techniczne terminy)
Nowoczesne produkty i rozwiązania AI opracowane przez Nvidia, Google, Adobe i OpenAI umieściły modele dyfuzyjne w centrum uwagi. DALL.E 2, Stable Diffusion i Midjourney to znaczące przykłady modeli dyfuzyjnych, które ostatnio krążą w sieci. Użytkownicy podają prosty tekst jako dane wejściowe, a te modele mogą przekształcić je w realistyczne obrazy, takie jak ten poniżej.

Obraz wygenerowany za pomocą Midjourney v5 przy użyciu danych wejściowych: vibrant California poppies. Źródło: Midjourney
Zastanówmy się nad podstawowymi zasadami działania modeli dyfuzyjnych i tym, jak zmieniają one kierunki i normy świata, jaki widzimy dzisiaj.
Co to są modele dyfuzyjne?
Według publikacji naukowej “Denoising Diffusion Probabilistic Models“, modele dyfuzyjne są definiowane jako:
„Model dyfuzyjny lub probabilistyczny model dyfuzyjny to łańcuch Markowa parametryzowany, szkolony przy użyciu inferencji wariancji, w celu wytworzenia próbek pasujących do danych po skończonym czasie”
Prościej mówiąc, modele dyfuzyjne mogą generować dane podobne do tych, na których są szkolone. Jeśli model jest szkolony na obrazach kotów, może wygenerować podobne realistyczne obrazy kotów.
Teraz spróbujmy rozbić techniczną definicję wymienioną powyżej. Modele dyfuzyjne czerpią inspirację z zasady działania i matematycznych podstaw modelu probabilistycznego, który może analizować i przewidywać zachowanie systemu, który zmienia się w czasie, takiego jak przewidywanie zwrotu z rynku akcji lub rozprzestrzeniania się pandemii.
Definicja mówi, że są to łańcuchy Markowa parametryzowane, szkolone przy użyciu inferencji wariancji. Łańcuchy Markowa to modele matematyczne, które definiują system, który przechodzi między różnymi stanami w czasie. Istniejący stan systemu może określać tylko prawdopodobieństwo przejścia do określonego stanu. Innymi słowy, bieżący stan systemu zawiera możliwe stany, które system może przyjąć lub osiągnąć w dowolnym momencie.
Szkolenie modelu przy użyciu inferencji wariancji obejmuje złożone obliczenia dotyczące rozkładów prawdopodobieństwa. Ma ono na celu znalezienie dokładnych parametrów łańcucha Markowa, które pasują do obserwowanych (znanych lub rzeczywistych) danych po określonym czasie. Ten proces minimalizuje wartość funkcji straty modelu, która jest różnicą między przewidywanym (nieznanym) a obserwowanym (znanym) stanem.
Po przeszkoleniu model może generować próbki pasujące do obserwowanych danych. Te próbki reprezentują możliwe trajektorie lub stany, które system może przyjąć lub osiągnąć w czasie, a każda trajektoria ma różne prawdopodobieństwo wystąpienia. Dlatego model może przewidywać przyszłe zachowanie systemu, generując zakres próbek i znajdując ich odpowiednie prawdopodobieństwa (prawdopodobieństwo tych zdarzeń).
Jak interpretować modele dyfuzyjne w AI?
Modele dyfuzyjne to głębokie modele generatywne, które działają przez dodawanie szumu (szumu Gaussa) do dostępnych danych szkoleniowych (tak zwany proces dyfuzyjny do przodu) i następnie odwracanie procesu (znany jako proces denoisingu lub odwrócony proces dyfuzyjny), aby odzyskać dane. Model stopniowo uczy się usuwać szum. Ten nauczony proces denoisingu generuje nowe, wysokiej jakości obrazy z losowych nasion (losowych obrazów zaszumionych), jak pokazano na ilustracji poniżej.

Proces dyfuzyjny odwrócony: zaszumiony obraz jest oczyszczany, aby odzyskać oryginalny obraz (lub wygenerować jego wariacje) za pomocą przeszkolonego modelu dyfuzyjnego. Źródło: Denoising Diffusion Probabilistic Models
3 Kategorie modeli dyfuzyjnych
Istnieją trzy podstawowe ramy matematyczne, które leżą u podstaw nauki za modelami dyfuzyjnymi. Wszystkie trzy opierają się na tych samych zasadach dodawania szumu, a następnie jego usuwania, aby wygenerować nowe próbki. Omówimy je poniżej.

Model dyfuzyjny dodaje i usuwa szum z obrazu. Źródło: Diffusion Models in Vision: A Survey
1. Denoising Diffusion Probabilistic Models (DDPMs)
Jak wyjaśniono powyżej, DDPMs to modele generatywne, głównie wykorzystywane do usuwania szumu z danych wizualnych lub audio. Wykazały one imponujące wyniki w różnych zadaniach denoisingu obrazu i audio. Na przykład, przemysł filmowy wykorzystuje nowoczesne narzędzia do przetwarzania obrazu i wideo, aby poprawić jakość produkcji.
2. Modele generatywne oparte na szumie (SGMs)
SGMs mogą generować nowe próbki z danej dystrybucji. Działają one przez naukę funkcji estymacji, która może oszacować logarytmiczne gęstości docelowej dystrybucji. Estymacja gęstości logarytmicznej zakłada, że dostępne punkty danych są częścią nieznanego zbioru danych (zbioru testowego). Ta funkcja estymacji może następnie generować nowe punkty danych z dystrybucji.
Na przykład, deep fake są znane z produkcji fałszywych wideo i audio znanych osobistości. Ale są one głównie przypisywane Generative Adversarial Networks (GANs). Jednak SGMs wykazały podobne możliwości – czasem przewyższają – w generowaniu wysokiej jakości twarzy celebrytów. Ponadto, SGMs mogą pomóc w rozszerzeniu zbiorów danych medycznych, które nie są łatwo dostępne w dużych ilościach ze względu na surowe regulacje i standardy branżowe.
3. Równania różniczkowe stochastyczne (SDEs)
SDEs opisują zmiany w losowych procesach w czasie. Są one powszechnie stosowane w fizyce i rynkach finansowych, w których losowe czynniki znacząco wpływają na wyniki rynkowe.
Na przykład, ceny towarów są bardzo dynamiczne i wpływają na szereg losowych czynników. SDEs obliczają pochodne finansowe, takie jak kontrakty futures (takie jak kontrakty na ropę naftową). Mogą one modelować fluktuacje i obliczać korzystne ceny, aby dać poczucie bezpieczeństwa.
Główne zastosowania modeli dyfuzyjnych w AI
Zobaczmy, jakie są powszechnie stosowane praktyki i zastosowania modeli dyfuzyjnych w AI.
Generowanie wysokiej jakości wideo
Tworzenie wysokiej jakości wideo przy użyciu głębokiego uczenia jest trudne, ponieważ wymaga wysokiej ciągłości klatek wideo. To właśnie tutaj przydają się modele dyfuzyjne, ponieważ mogą generować podzbiór klatek wideo, aby wypełnić brakujące klatki, w wyniku czego otrzymujemy wysokiej jakości i gładkie wideo bez opóźnień.
Naukowcy opracowali elastyczne modele dyfuzyjne i Residual Video Diffusion, aby służyć temu celowi. Te modele mogą również produkować realistyczne wideo, płynnie dodając ramki AI wygenerowane między rzeczywistymi ramkami.
Te modele mogą po prostu rozszerzyć liczbę klatek na sekundę (FPS) niskiego wideo FPS, dodając dummy klatki po nauczeniu się wzorców z dostępnych klatek. Z prawie żadną utratą klatek, te ramy mogą dalej pomóc modelom opartym na głębokim uczeniu się, aby wygenerować wideo AI z czystego szkła, które wyglądają jak naturalne ujęcia z wysokiej jakości kamer.
W 2023 roku dostępna jest szeroka gama godnych uwagi generatorów wideo AI, aby uczynić produkcję i edycję wideo szybką i prostą.
Generowanie obrazu z tekstu
Modele tekstu do obrazu wykorzystują dane wejściowe, aby wygenerować wysokiej jakości obrazy. Na przykład, podając dane wejściowe “czerwona jabłko na talerzu” i wytwarzając fotorealistyczny obraz jabłka na talerzu. Blended diffusion i unCLIP to dwa godne uwagi przykłady takich modeli, które mogą generować wysokiej jakości i dokładne obrazy na podstawie danych wejściowych użytkownika.
Ponadto, GLIDE od OpenAI to kolejne szeroko znane rozwiązanie, które zostało wydane w 2021 roku i produkuje fotorealistyczne obrazy przy użyciu danych wejściowych użytkownika. Później OpenAI wydało DALL.E-2, swój najbardziej zaawansowany model generowania obrazu dotąd.
Podobnie, Google opracował model generowania obrazu znany jako Imagen, który wykorzystuje duży model językowy, aby rozwijać głębokie zrozumienie tekstu wejściowego, a następnie generuje fotorealistyczne obrazy.
Wspomnieliśmy już o innych popularnych narzędziach do generowania obrazu, takich jak Midjourney i Stable Diffusion (DreamStudio). Zobacz obraz wygenerowany za pomocą Stable Diffusion poniżej.

Kolaz obliczony za pomocą Stable Diffusion 1.5 przy użyciu danych wejściowych: “collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, (side) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”
Modele dyfuzyjne w AI – co można oczekiwać w przyszłości?
Modele dyfuzyjne ujawniły obiecujący potencjał jako solidne podejście do generowania wysokiej jakości próbek z złożonych zbiorów danych obrazu i wideo. Poprzez poprawę ludzkiej zdolności do korzystania z i manipulowania danymi, modele dyfuzyjne mogą potencjalnie rewolucjonizować świat, jaki widzimy dzisiaj. Możemy oczekiwać, że zobaczymy jeszcze więcej zastosowań modeli dyfuzyjnych, które staną się integralną częścią naszego codziennego życia.
Mówiąc to, modele dyfuzyjne nie są jedyną techniką generatywnej AI. Naukowcy również wykorzystują Generative Adversarial Networks (GANs), Variational Autoencoders i oparte na przepływie głębokie modele generatywne, aby generować treści AI. Zrozumienie podstawowych cech, które różnią modele dyfuzyjne od innych modeli generatywnych, może pomóc wytwarzać bardziej skuteczne rozwiązania w nadchodzących dniach.
Aby dowiedzieć się więcej o technologiach opartych na AI, odwiedź Unite.ai. Zobacz nasze opracowane zasoby na temat narzędzi generatywnej AI poniżej.
- 10 najlepszych narzędzi do powiększania i poprawy jakości obrazu AI
- 10 najlepszych generatorów sztuki AI
- 8 najlepszych generatorów muzyki AI
- 9 najlepszych narzędzi do poprawy jakości wideo i aplikacji
- 8 „najlepszych” generatorów wideo AI
- 10 najlepszych generatorów głosu AI
- 9 „najlepszych” narzędzi do pisania AI i aplikacji












