AI 101

Modele dyfuzji w AI – wszystko, co musisz wiedzieć

Published March 31, 2023

Updated April 5, 2026

Haziqa Sajid

A collage of human faces created using AI image generator

W ekosystemie AI, modele dyfuzji wyznaczają kierunek i tempo postępu technologicznego. Rewolucjonizują sposób, w jaki podejmujemy się złożonych zadań generatywnych AI. Modele te opierają się na matematyce zasad gaussowskich, wariancji, równań różniczkowych i sekwencji generatywnych. (Poniżej wyjaśnimy techniczne terminy)

Nowoczesne produkty i rozwiązania AI opracowane przez Nvidia, Google, Adobe i OpenAI postawiły modele dyfuzji w centrum uwagi. DALL.E 2, Stable Diffusion i Midjourney to znaczące przykłady modeli dyfuzji, które ostatnio krążą w sieci. Użytkownicy podają prosty tekst jako dane wejściowe, a te modele mogą je przekształcić w realistyczne obrazy, takie jak ten poniżej.

Obraz wygenerowany za pomocą Midjourney v5 przy użyciu danych wejściowych: żywe kalifornijskie makowe kwiaty. Źródło: Midjourney

Zbadajmy podstawowe zasady działania modeli dyfuzji i to, jak zmieniają kierunki i normy świata, jaki widzimy dzisiaj.

Co to są modele dyfuzji?

Zgodnie z publikacją badawczą „Denoising Diffusion Probabilistic Models”, modele dyfuzji są definiowane jako:

„Model dyfuzji lub probabilistyczny model dyfuzji jest łańcuchem Markowa z parametrem, który jest szkolony przy użyciu inferencji wariacyjnej w celu wytworzenia próbek pasujących do danych po skończonym czasie”

Po prostu, modele dyfuzji mogą generować dane podobne do tych, na których są szkolone. Jeśli model jest szkolony na obrazach kotów, może generować podobne realistyczne obrazy kotów.

Teraz spróbujmy rozbić techniczną definicję wymienioną powyżej. Modele dyfuzji czerpią inspirację z zasad działania i podstaw matematycznych modelu probabilistycznego, który może analizować i przewidywać zachowanie systemu, który zmienia się w czasie, takiego jak przewidywanie zwrotu z rynku akcji lub rozprzestrzeniania się pandemii.

Definicja mówi, że są to łańcuchy Markowa z parametrem, szkolone przy użyciu inferencji wariacyjnej. Łańcuchy Markowa są modelami matematycznymi, które definiują system, który przechodzi między różnymi stanami w czasie. Istniejący stan systemu może tylko określać prawdopodobieństwo przejścia do określonego stanu. Innymi słowy, obecny stan systemu zawiera możliwe stany, które system może przyjąć w dowolnym momencie.

Szkolenie modelu przy użyciu inferencji wariacyjnej obejmuje złożone obliczenia dla rozkładów prawdopodobieństwa. Ma ono na celu znalezienie dokładnych parametrów łańcucha Markowa, które pasują do danych obserwowanych (znanych lub rzeczywistych) po określonym czasie. Ten proces minimalizuje wartość funkcji straty modelu, która jest różnicą między przewidywanym (nieznanym) a obserwowanym (znanych) stanem.

Gdy model jest już szkolony, może generować próbki pasujące do danych obserwowanych. Te próbki reprezentują możliwe trajektorie lub stany, które system może przyjąć w czasie, a każda trajektoria ma różne prawdopodobieństwo wystąpienia. Dlatego model może przewidywać przyszłe zachowanie systemu, generując zakres próbek i znajdując ich odpowiednie prawdopodobieństwa (prawdopodobieństwo tych zdarzeń).

Jak interpretować modele dyfuzji w AI?

Modele dyfuzji są głębokimi modelami generatywnymi, które działają przez dodawanie szumu (szumu Gaussa) do dostępnych danych szkoleniowych (znanych również jako proces dyfuzji do przodu) i następnie odwracanie procesu (znanego jako odhałaszczenie lub proces dyfuzji wstecznej) w celu odzyskania danych. Model stopniowo uczy się usuwać szum. Ten nauczony proces odhałaszczenia generuje nowe, wysokiej jakości obrazy z losowych nasion (losowych obrazów zaszumionych), jak pokazano na ilustracji poniżej.

Proces dyfuzji wstecznej: zaszumiony obraz jest odhałaszcany w celu odzyskania oryginalnego obrazu (lub wygenerowania jego wariacji) za pomocą wyszkolonego modelu dyfuzji. Źródło: Denoising Diffusion Probabilistic Models

3 Kategorie modeli dyfuzji

Istnieją trzy podstawowe ramy matematyczne, które leżą u podstaw nauki o modelach dyfuzji. Wszystkie trzy opierają się na tych samych zasadach dodawania szumu, a następnie usuwania go w celu wygenerowania nowych próbek. Oto krótkie omówienie każdej z nich.

Model dyfuzji dodaje i usuwa szum z obrazu. Źródło: Diffusion Models in Vision: A Survey

1. Modele probabilistyczne dyfuzji odhałaszczenia (DDPM)

Jak wyjaśniono powyżej, DDPM są modelami generatywnymi, które głównie służą do usuwania szumu z danych wizualnych lub audio. Wykazały one imponujące wyniki w różnych zadaniach odhałaszczenia obrazu i audio.

2. Modele generatywne oparte na szumie i ocenie (SGM)

SGM mogą generować nowe próbki z danego rozkładu. Działają one przez naukę funkcji oceny, która może oszacować logarytmiczne gęstości docelowego rozkładu. Oszacowanie logarytmiczne gęstości zakłada, że dostępne punkty danych są częścią nieznanego zestawu danych (zestawu testowego). Ta funkcja oceny może następnie generować nowe punkty danych z rozkładu.

Na przykład, głębokie fałszerstwa są znane z produkcji fałszywych filmów i audio słynnych osób. Ale są one głównie przypisywane sieciom generatywnym i przeciwniczym (GAN). Jednak SGM wykazały podobne możliwości – czasem przewyższają – w generowaniu wysokiej jakości twarzy celebrytów. Ponadto, SGM mogą pomóc w rozwijaniu zestawów danych opieki zdrowotnej, które nie są łatwo dostępne w dużych ilościach ze względu na surowe przepisy i standardy branżowe.

3. Równania różniczkowe stochastyczne (SDE)

SDE opisują zmiany w losowych procesach w czasie. Są one powszechnie stosowane w fizyce i rynkach finansowych, w których losowe czynniki znacznie wpływają na wyniki rynkowe.

Na przykład, ceny towarów są bardzo dynamiczne i wpływają na szereg losowych czynników. SDE obliczają finansowe pochodne, takie jak kontrakty futures (takie jak kontrakty na ropę). Mogą one modelować fluktuacje i obliczać korzystne ceny, aby dać poczucie bezpieczeństwa.

Główne zastosowania modeli dyfuzji w AI

Spójrzmy na niektóre powszechnie stosowane praktyki i zastosowania modeli dyfuzji w AI.

Generowanie wysokiej jakości wideo

Tworzenie wysokiej jakości wideo przy użyciu głębokiego uczenia jest trudne, ponieważ wymaga wysokiej ciągłości klatek wideo. To właśnie tutaj modele dyfuzji przydają się, ponieważ mogą generować podzbiór klatek wideo, aby wypełnić brakujące klatki, w wyniku czego powstają wysokiej jakości i gładkie wideo bez opóźnień.

Badacze opracowali elastyczne modele dyfuzji i resztkowe wideo dyfuzji, aby służyć temu celowi. Te modele mogą również produkować realistyczne wideo, dodając płynnie wygenerowane przez AI klatki między rzeczywiste klatki.

Te modele mogą po prostu rozszerzyć FPS (klatki na sekundę) niskiego wideo FPS, dodając klatki podrzędne po nauczeniu się wzorców z dostępnych klatek. Z prawie żadną utratą klatek te ramy mogą dalej pomóc modelom opartym na głębokim uczeniu, aby generować wideo oparte na AI z czystego arkusza, które wyglądają jak naturalne ujęcia z wysokiej jakości kamer.

W 2023 roku dostępnych jest wiele wyjątkowych generatorów wideo AI, aby uczynić produkcję i edycję wideo szybką i prosto.

Generowanie obrazu z tekstu

Modele tekstu do obrazu używają danych wejściowych, aby wygenerować wysokiej jakości obrazy. Na przykład, podając dane wejściowe „czerwona jabłko na talerzu” i wytwarzając fotorealistyczny obraz jabłka na talerzu. Blended diffusion i unCLIP to dwa znaczące przykłady takich modeli, które mogą generować bardzo istotne i dokładne obrazy na podstawie danych wejściowych użytkownika.

Ponadto, GLIDE od OpenAI to kolejne szeroko znane rozwiązanie, które zostało wydane w 2021 roku i produkuje fotorealistyczne obrazy przy użyciu danych wejściowych użytkownika. Później OpenAI wydało DALL.E-2, najbardziej zaawansowany model generowania obrazu.

Podobnie, Google opracowało model generowania obrazu znany jako Imagen, który używa dużego modelu językowego, aby rozwinąć głębokie zrozumienie tekstowych danych wejściowych, a następnie generuje fotorealistyczne obrazy.

Wspomnieliśmy o innych popularnych narzędziach do generowania obrazu, takich jak Midjourney i Stable Diffusion (DreamStudio). Spójrz na obraz wygenerowany przy użyciu Stable Diffusion poniżej.

Kolaż twarzy ludzkich stworzony za pomocą Stable Diffusion 1.5 przy użyciu danych wejściowych: „koliaże, hiperrealistyczne, wiele wariacji portretu bardzo starego Toma Yorke, wariacje twarzy, piosenkarza i kompozytora, (bok) profil, różne wieki, makro obiektyw, liminalna przestrzeń, autorstwa Lee Bermejo, Alphonse Mucha i Greg Rutkowski, broda, gładka twarz, kości policzkowe”

Modele dyfuzji w AI – co można oczekiwać w przyszłości?

Modele dyfuzji ujawniły obiecujący potencjał jako solidne podejście do generowania wysokiej jakości próbek z złożonych zestawów danych obrazu i wideo. Poprzez poprawę ludzkiej zdolności do korzystania i manipulowania danymi, modele dyfuzji mogą potencjalnie rewolucjonizować świat, jaki widzimy dzisiaj. Możemy oczekiwać, że zobaczymy jeszcze więcej zastosowań modeli dyfuzji, które staną się integralną częścią naszego codziennego życia.

Mówiąc to, modele dyfuzji nie są jedyną techniką generatywnej AI. Badacze również używają sieci generatywnych i przeciwniczych (GAN), wariacyjnych autoencoderów i opartych na przepływie głębokich modeli generatywnych, aby generować treści AI. Zrozumienie podstawowych cech, które różnią modele dyfuzji od innych modeli generatywnych, może pomóc w wytworzeniu bardziej skutecznych rozwiązań w nadchodzących dniach.

Aby dowiedzieć się więcej o technologiach opartych na AI, odwiedź Unite.ai. Spójrz na nasze opracowane zasoby dotyczące narzędzi generatywnej AI poniżej.