Kontakt z nami
Kurs mistrzowski AI:

Artificial Intelligence

Modele dyfuzyjne w sztucznej inteligencji – wszystko, co musisz wiedzieć

mm

Opublikowany

 on

Kolaż ludzkich twarzy stworzony przy użyciu generatora obrazów AI

W ekosystemie sztucznej inteligencji modele dyfuzji wyznaczają kierunek i tempo postępu technologicznego. Rewolucjonizują sposób, w jaki podchodzimy do złożonych problemów generatywna sztuczna inteligencja zadania. Modele te opierają się na matematyce zasad Gaussa, wariancji, równań różniczkowych i ciągów generatywnych. (Poniżej wyjaśnimy żargon techniczny)

Nowoczesne produkty i rozwiązania zorientowane na sztuczną inteligencję opracowane przez Nvidia, Google, Adobe i OpenAI umieściły modele dyfuzyjne w centrum uwagi. DALL.E 2, Stabilna dyfuzja, W połowie drogi to wybitne przykłady modeli dyfuzji, które ostatnio robią furorę w Internecie. Użytkownicy jako dane wejściowe wprowadzają prosty komunikat tekstowy, a modele te mogą konwertować je na realistyczne obrazy, takie jak ten pokazany poniżej.

Obraz wygenerowany za pomocą programu Midjourney v5 przy użyciu wiersza poleceń: żywe maki kalifornijskie.

Obraz wygenerowany za pomocą programu Midjourney v5 przy użyciu wiersza poleceń: żywe maki kalifornijskie. Źródło: W połowie drogi

Przyjrzyjmy się podstawowym zasadom działania modeli dyfuzji oraz temu, jak zmieniają one kierunki i normy świata, jakim go widzimy dzisiaj.

Czym są modele dyfuzyjne?

Jak wynika z publikacji badawczej „Odszumiające modele probabilistyczne dyfuzji”, modele dyfuzji definiuje się jako:

„Model dyfuzyjny lub probabilistyczny model dyfuzyjny to sparametryzowany łańcuch Markowa wytrenowany przy użyciu wnioskowania wariacyjnego w celu wytworzenia próbek pasujących do danych po skończonym czasie”

Mówiąc najprościej, modele dyfuzyjne mogą generować dane podobne do tych, na których są trenowane. Jeśli model ćwiczy na obrazach kotów, może wygenerować podobne realistyczne obrazy kotów.

Spróbujmy teraz rozbić wspomnianą powyżej definicję techniczną. Modele dyfuzyjne czerpią inspirację z zasady działania i matematycznych podstaw modelu probabilistycznego, który może analizować i przewidywać zachowanie systemu zmieniające się w czasie, na przykład przewidywanie zwrotu na giełdzie lub rozprzestrzeniania się pandemii.

Definicja mówi, że są to sparametryzowane łańcuchy Markowa trenowane za pomocą wnioskowania wariacyjnego. Łańcuchy Markowa to modele matematyczne definiujące system przełączający się w czasie między różnymi stanami. Istniejący stan systemu może jedynie określić prawdopodobieństwo przejścia do określonego stanu. Innymi słowy, bieżący stan systemu zawiera możliwe stany, które system może osiągnąć lub osiągnąć w dowolnym momencie.

Uczenie modelu przy użyciu wnioskowania wariacyjnego obejmuje złożone obliczenia rozkładów prawdopodobieństwa. Ma na celu znalezienie dokładnych parametrów łańcucha Markowa, które po określonym czasie odpowiadają obserwowanym (znanym lub rzeczywistym) danym. Proces ten minimalizuje wartość funkcji straty modelu, będącej różnicą pomiędzy stanem przewidywanym (nieznanym) i obserwowanym (znanym).

Po przeszkoleniu model może generować próbki pasujące do obserwowanych danych. Próbki te reprezentują możliwe trajektorie lub stany, które system może śledzić lub zdobywać w czasie, a każda trajektoria ma inne prawdopodobieństwo wystąpienia. W związku z tym model może przewidzieć przyszłe zachowanie systemu, generując zakres próbek i znajdując ich odpowiednie prawdopodobieństwa (prawdopodobieństwo wystąpienia tych zdarzeń).

Jak interpretować modele dyfuzji w AI?

Modele dyfuzyjne to głębokie modele generatywne, które działają poprzez dodanie szumu (szum Gaussa) do dostępnych danych szkoleniowych (znanego również jako proces dyfuzji w przód), a następnie odwrócenie procesu (znanego jako odszumianie lub proces dyfuzji odwrotnej) w celu odzyskania danych. Model stopniowo uczy się usuwać szum. Ten wyuczony proces odszumiania generuje nowe, wysokiej jakości obrazy z losowych nasion (obrazy z losowymi szumami), jak pokazano na poniższej ilustracji.

Proces odwrotnej dyfuzji: zaszumiony obraz jest odszumiany w celu odzyskania oryginalnego obrazu (lub wygenerowania jego odmian) za pomocą wyszkolonego modelu dyfuzji.

Proces odwrotnej dyfuzji: zaszumiony obraz jest odszumiany w celu odzyskania oryginalnego obrazu (lub wygenerowania jego odmian) za pomocą wyszkolonego modelu dyfuzji. Źródło: Odszumiające modele probabilistyczne dyfuzji

3 Kategorie modeli dyfuzyjnych

Tam są trzy podstawowe ramy matematyczne które stanowią podstawę nauki stojącej za modelami dyfuzji. Wszystkie trzy działają na tych samych zasadach: dodawania szumu, a następnie usuwania go w celu wygenerowania nowych próbek. Omówmy je poniżej.

Model dyfuzyjny dodaje i usuwa szum z obrazu.

Model dyfuzyjny dodaje i usuwa szum z obrazu. Źródło: Modele dyfuzji w wizji: ankieta

1. Modele probabilistyczne dyfuzji odszumiającej (DDPM)

Jak wyjaśniono powyżej, DDPM to modele generatywne używane głównie do usuwania szumu z danych wizualnych lub dźwiękowych. Wykazały imponujące wyniki w różnych zadaniach odszumiania obrazu i dźwięku. Na przykład branża filmowa wykorzystuje nowoczesne narzędzia do przetwarzania obrazu i wideo w celu poprawy jakości produkcji.

2. Modele generatywne oparte na wynikach uzależnione od szumu (SGM)

SGM mogą generować nowe próbki z danej dystrybucji. Działają poprzez uczenie się funkcji wyniku estymacji, która może oszacować gęstość logarytmiczną rozkładu docelowego. Oszacowanie gęstości logów zakłada dla dostępnych punktów danych, że są one częścią nieznanego zbioru danych (zestawu testowego). Ta funkcja punktacji może następnie wygenerować nowe punkty danych z rozkładu.

Na przykład, głębokie podróbki są znani z tworzenia fałszywych filmów i nagrań audio znanych osobistości. Ale głównie im się to przypisuje Generatywne sieci przeciwne (GAN). Jednakże SGM tak mają wykazały podobne możliwości – czasami przewyższają – w generowaniu wysokiej jakości twarzy gwiazd. SGM mogą również pomóc w rozszerzeniu zbiorów danych dotyczących opieki zdrowotnej, które nie są łatwo dostępne w dużych ilościach ze względu na surowe przepisy i standardy branżowe.

3. Stochastyczne równania różniczkowe (SDE)

SDE opisują zmiany w procesach losowych dotyczące czasu. Są szeroko stosowane w fizyce i na rynkach finansowych, w których występują czynniki losowe, które znacząco wpływają na wyniki rynkowe.

Na przykład ceny towarów są bardzo dynamiczne i wpływają na nie szereg czynników losowych. SDE obliczają finansowe instrumenty pochodne, takie jak kontrakty futures (takie jak kontrakty na ropę naftową). Potrafią modelować wahania i dokładnie obliczać korzystne ceny, aby dać poczucie bezpieczeństwa.

Główne zastosowania modeli dyfuzyjnych w sztucznej inteligencji

Przyjrzyjmy się niektórym powszechnie stosowanym praktykom i zastosowaniom modeli dyfuzji w sztucznej inteligencji.

Generowanie wideo wysokiej jakości

Tworzenie wysokiej klasy filmów przy użyciu głęboka nauka jest wyzwaniem, ponieważ wymaga dużej ciągłości klatek wideo. W tym miejscu przydatne są modele dyfuzyjne, ponieważ mogą generować podzbiór klatek wideo w celu wypełnienia brakujących klatek, co zapewnia wysoką jakość i płynność filmów bez opóźnień.

Naukowcy opracowali Elastyczny model dyfuzji i resztkowa dyfuzja wideo techniki służące temu celowi. Modele te mogą również tworzyć realistyczne filmy, płynnie dodając klatki wygenerowane przez sztuczną inteligencję pomiędzy rzeczywistymi klatkami.

Modele te mogą po prostu zwiększyć liczbę klatek na sekundę (FPS) wideo o niskiej liczbie klatek na sekundę, dodając fikcyjne klatki po zapoznaniu się z wzorcami dostępnych klatek. Niemal bez utraty klatek te struktury mogą dodatkowo wspierać modele oparte na głębokim uczeniu się w generowaniu od podstaw filmów opartych na sztucznej inteligencji, które wyglądają jak naturalne ujęcia z wysokiej klasy konfiguracji kamer.

Szeroka gama niezwykłych Generatory wideo AI będzie dostępny w 2023 r., dzięki czemu produkcja i edycja treści wideo będzie szybka i prosta.

Generowanie tekstu na obraz

Modele zamiany tekstu na obraz wykorzystują monity wejściowe do generowania obrazów o wysokiej jakości. Na przykład podanie „czerwonego jabłka na talerzu” i utworzenie fotorealistycznego obrazu jabłka na talerzu. Mieszana dyfuzja i odczep to dwa wybitne przykłady takich modeli, które mogą generować bardzo trafne i dokładne obrazy na podstawie danych wejściowych użytkownika.

Tak więc, GLIDE autorstwa OpenAI to kolejne szeroko znane rozwiązanie wprowadzone na rynek w 2021 roku, które generuje fotorealistyczne obrazy na podstawie danych wejściowych użytkownika. Później OpenAI wypuściło DALL.E-2, swój najbardziej zaawansowany jak dotąd model generowania obrazu.

Podobnie Google opracowało również model generowania obrazu znany jako Obraz, który wykorzystuje duży model językowy do głębokiego zrozumienia tekstu wejściowego, a następnie generuje fotorealistyczne obrazy.

Wspomnieliśmy o innych popularnych narzędziach do generowania obrazów, takich jak Midjourney i Stable Diffusion (pracownia marzeń) powyżej. Spójrz na obraz wygenerowany za pomocą Stable Diffusion poniżej.

Kolaż ludzkich twarzy stworzony w Stable Diffusion 1.5

Obraz utworzony za pomocą Stable Diffusion 1.5 przy użyciu następującego podpowiedzi: „kolaże, hiperrealistyczny, wiele odmian portret bardzo starego Thoma Yorke’a, różnice w twarzy, piosenkarz i autor tekstów, profil (z boku), różny wiek, obiektyw makro, przestrzeń liminalna, autor: lee bermejo, alphonse mucha i greg rutkowski, siwobrody, gładka twarz, kości policzkowe”

Modele dyfuzyjne w sztucznej inteligencji – czego się spodziewać w przyszłości?

Modele dyfuzyjne ujawniły obiecujący potencjał jako solidne podejście do generowania wysokiej jakości próbek ze złożonych zbiorów danych obrazów i wideo. Poprawiając zdolność człowieka do wykorzystywania danych i manipulowania nimi, modele dyfuzyjne mogą potencjalnie zrewolucjonizować świat, jakim go widzimy dzisiaj. Możemy spodziewać się, że jeszcze więcej zastosowań modeli dyfuzyjnych stanie się integralną częścią naszego codziennego życia.

Powiedziawszy to, modele dyfuzyjne nie są jedyną techniką generatywną AI. Badacze wykorzystują także generatywne sieci przeciwstawne (GAN) i wariacyjne Autoencoderyoraz głębokie modele generatywne oparte na przepływach do generowania treści AI. Zrozumienie podstawowych cech odróżniających modele dyfuzyjne od innych modeli generatywnych może pomóc w opracowaniu bardziej efektywnych rozwiązań w nadchodzących dniach.

Aby dowiedzieć się więcej o technologiach opartych na sztucznej inteligencji, odwiedź stronę Unite.ai. Poniżej znajdziesz wybrane zasoby na temat generatywnych narzędzi AI.