Umelá inteligencia

Difúzne modely v AI – všetko, čo potrebujete vedieť

uverejnené

Pred rokom 1

March 31, 2023

Koláž ľudských tvárí vytvorená pomocou generátora obrázkov AI

V ekosystéme AI modely difúzie určujú smer a tempo technologického pokroku. Spôsobujú revolúciu v spôsobe, akým pristupujeme ku komplexu generatívna AI úlohy. Tieto modely sú založené na matematike gaussovských princípov, rozptylu, diferenciálnych rovníc a generatívnych postupností. (Technický žargón vysvetlíme nižšie)

Moderné produkty a riešenia zamerané na AI vyvinuté spoločnosťami Nvidia, Google, Adobe a OpenAI postavili modely difúzie do centra pozornosti. DALL.E 2, Stabilná difúziaa Stredná cesta sú významnými príkladmi modelov difúzie, ktoré sa v poslednej dobe šíria na internete. Používatelia poskytujú jednoduchú textovú výzvu ako vstup a tieto modely ich dokážu previesť na realistické obrázky, ako je napríklad obrázok uvedený nižšie.

Obrázok vygenerovaný pomocou Midjourney v5 pomocou vstupnej výzvy: živé kalifornské maky. Zdroj: Stredná cesta

Poďme preskúmať základné pracovné princípy modelov difúzie a ako menia smery a normy sveta, ako ho vidíme dnes.

Čo sú difúzne modely?

Podľa výskumnej publikácie „Pravdepodobnostné modely odšumovania difúzie“, sú modely difúzie definované ako:

„Difúzny model alebo pravdepodobnostný difúzny model je parametrizovaný Markovov reťazec trénovaný pomocou variačnej inferencie na vytvorenie vzoriek zodpovedajúcich údajom po konečnom čase“

Jednoducho povedané, modely difúzie môžu generovať údaje podobné tým, na ktorých sú trénované. Ak model trénuje na obrázkoch mačiek, môže vytvárať podobné realistické obrázky mačiek.

Skúsme teraz rozobrať vyššie spomínanú technickú definíciu. Difúzne modely čerpajú inšpiráciu z pracovného princípu a matematického základu pravdepodobnostného modelu, ktorý dokáže analyzovať a predpovedať správanie systému, ktoré sa mení v čase, ako je predpovedanie návratnosti akciového trhu alebo šírenia pandémie.

Definícia uvádza, že ide o parametrizované Markovove reťazce trénované variačnou inferenciou. Markovove reťazce sú matematické modely, ktoré definujú systém, ktorý v priebehu času prepína medzi rôznymi stavmi. Existujúci stav systému môže určiť len pravdepodobnosť prechodu do konkrétneho stavu. Inými slovami, súčasný stav systému obsahuje možné stavy, ktoré môže systém kedykoľvek nasledovať alebo získať.

Trénovanie modelu pomocou variačnej inferencie zahŕňa zložité výpočty rozdelenia pravdepodobnosti. Jeho cieľom je nájsť presné parametre Markovovho reťazca, ktoré sa zhodujú s pozorovanými (známymi alebo skutočnými) údajmi po určitom čase. Tento proces minimalizuje hodnotu stratovej funkcie modelu, čo je rozdiel medzi predpovedaným (neznámym) a pozorovaným (známym) stavom.

Po trénovaní môže model generovať vzorky zodpovedajúce pozorovaným údajom. Tieto vzorky predstavujú možné trajektórie alebo stav, ktorý by systém mohol sledovať alebo získať v priebehu času, a každá trajektória má inú pravdepodobnosť, že sa stane. Model teda môže predpovedať budúce správanie systému vygenerovaním radu vzoriek a nájdením ich príslušných pravdepodobností (pravdepodobnosti výskytu týchto udalostí).

Ako interpretovať modely difúzie v AI?

Difúzne modely sú hlboké generatívne modely, ktoré fungujú pridaním šumu (Gaussov šum) k dostupným trénovacím údajom (tiež známym ako proces priamej difúzie) a následným obrátením procesu (známeho ako proces odšumovania alebo spätnej difúzie) na obnovenie údajov. Model sa postupne učí odstraňovať hluk. Tento naučený proces odšumovania generuje nové, vysokokvalitné obrázky z náhodných semien (obrázky s náhodným šumom), ako je znázornené na obrázku nižšie.

Proces reverznej difúzie: Zašumený obraz sa odšumuje, aby sa obnovil pôvodný obraz (alebo sa vygenerovali jeho variácie) prostredníctvom trénovaného modelu difúzie. Zdroj: Pravdepodobnostné modely odšumovania difúzie

3 kategórie modelov difúzie

Existujú tri základné matematické rámce ktoré podporujú vedu za modelmi difúzie. Všetky tri fungujú na rovnakých princípoch pridávania šumu a jeho následného odstránenia na generovanie nových vzoriek. Poďme o nich diskutovať nižšie.

Difúzny model pridáva a odstraňuje šum z obrazu. Zdroj: Difúzne modely vo vízii: Prieskum

1. Odšumovacie modely pravdepodobnosti difúzie (DDPM)

Ako je vysvetlené vyššie, DDPM sú generatívne modely používané hlavne na odstránenie šumu z vizuálnych alebo zvukových údajov. Ukázali pôsobivé výsledky pri rôznych úlohách odšumovania obrazu a zvuku. Napríklad filmový priemysel využíva moderné nástroje na spracovanie obrazu a videa na zlepšenie kvality produkcie.

2. Noise-Conditioned Score-Based Generative Models (SGM)

SGM môžu generovať nové vzorky z danej distribúcie. Pracujú tak, že sa učia funkciu odhadu skóre, ktorá dokáže odhadnúť logaritmickú hustotu cieľovej distribúcie. Odhad hustoty logaritmu vytvára predpoklady pre dostupné dátové body, že sú súčasťou neznámeho súboru údajov (testovacieho súboru). Táto funkcia skóre potom môže generovať nové dátové body z distribúcie.

Napríklad, hlboké falzifikáty sú známe tým, že vyrábajú falošné videá a audiozáznamy známych osobností. Väčšinou sa im však pripisujú Generative Adversarial Networks (GAN). SGM však majú preukázali podobné schopnosti – občas prekonali – pri vytváraní vysoko kvalitných tvárí celebrít. SGM môžu tiež pomôcť rozšíriť súbory údajov o zdravotnej starostlivosti, ktoré nie sú ľahko dostupné vo veľkých množstvách z dôvodu prísnych predpisov a priemyselných noriem.

3. Stochastické diferenciálne rovnice (SDE)

SDE popisujú zmeny v náhodných procesoch týkajúcich sa času. Sú široko používané vo fyzike a na finančných trhoch zahŕňajúce náhodné faktory, ktoré významne ovplyvňujú výsledky trhu.

Napríklad ceny komodít sú vysoko dynamické a ovplyvnené radom náhodných faktorov. SDE počítajú finančné deriváty ako futures kontrakty (ako kontrakty na ropu). Môžu modelovať výkyvy a presne vypočítať priaznivé ceny, aby mali pocit bezpečia.

Hlavné aplikácie modelov difúzie v AI

Pozrime sa na niektoré široko prispôsobené postupy a použitia modelov difúzie v AI.

Vysokokvalitné generovanie videa

Vytváranie špičkových videí pomocou hlboké vzdelávanie je náročné, pretože vyžaduje vysokú kontinuitu snímok videa. Tu sa hodia modely difúzie, pretože dokážu vygenerovať podmnožinu snímok videa na vyplnenie chýbajúcich snímok, výsledkom čoho sú vysokokvalitné a plynulé videá bez latencie.

Výskumníci vyvinuli Flexibilný difúzny model a zvyšková videodifúzia techniky slúžiace tomuto účelu. Tieto modely môžu tiež vytvárať realistické videá bezproblémovým pridávaním snímok vygenerovaných AI medzi skutočné snímky.

Tieto modely môžu jednoducho rozšíriť FPS (snímky za sekundu) videa s nízkym FPS pridaním fiktívnych snímok po naučení vzorov z dostupných snímok. Takmer bez straty snímok môžu tieto rámce ďalej pomáhať modelom založeným na hĺbkovom učení vytvárať videá založené na AI od začiatku, ktoré vyzerajú ako prirodzené zábery zo špičkových nastavení kamier.

Široká škála pozoruhodných AI video generátory je k dispozícii v roku 2023, aby bola produkcia a úprava videoobsahu rýchla a jednoduchá.

Generovanie textu na obrázok

Modely prevodu textu na obrázok používajú vstupné výzvy na generovanie obrázkov vo vysokej kvalite. Napríklad zadaním vstupu „červené jablko na tanieri“ a vytvorením fotorealistického obrazu jablka na tanieri. Zmiešaná difúzia a unCLIP sú dva prominentné príklady takýchto modelov, ktoré dokážu generovať vysoko relevantné a presné obrázky na základe vstupu používateľa.

Takže, GLIDE od OpenAI je ďalšie všeobecne známe riešenie uvedené na trh v roku 2021, ktoré vytvára fotorealistické obrázky pomocou vstupu používateľa. Neskôr OpenAI vydalo DALL.E-2, svoj doteraz najpokročilejší model generovania obrázkov.

Podobne aj Google vyvinul model generovania obrázkov známy ako Obraz, ktorá využíva veľký jazykový model na rozvoj hlbokého textového porozumenia vstupného textu a následne generuje fotorealistické obrázky.

Spomenuli sme ďalšie populárne nástroje na generovanie obrázkov ako Midjourney a Stable Diffusion (štúdio snov) vyššie. Pozrite si obrázok vygenerovaný pomocou stabilnej difúzie nižšie.

Koláž ľudských tvárí vytvorená pomocou Stable Diffusion 1.5

Obrázok vytvorený pomocou Stable Diffusion 1.5 s použitím nasledujúcej výzvy: „koláže, hyperrealistické, veľa variácií portrét veľmi starého Thoma yorka, variácie tváre, spevák a skladateľ, ( bočný ) profil, rôzne vekové kategórie, makroobjektív, liminálny priestor, podľa lee bermejo, alphonse mucha a greg rutkowski, sivá brada, hladká tvár, lícne kosti“

Difúzne modely v AI – čo očakávať v budúcnosti?

Difúzne modely odhalili sľubný potenciál ako robustný prístup k generovaniu vysokokvalitných vzoriek z komplexných súborov obrázkov a videí. Zlepšením ľudskej schopnosti používať a manipulovať s údajmi môžu modely difúzie potenciálne spôsobiť revolúciu vo svete, ako ho dnes vidíme. Môžeme očakávať, že ešte viac aplikácií difúznych modelov sa stane neoddeliteľnou súčasťou nášho každodenného života.

Difúzne modely však nie sú jedinou generatívnou technikou AI. Výskumníci tiež používajú Generative Adversarial Networks (GAN), variačné Automatické kódovačea hlboké generatívne modely založené na toku na generovanie obsahu AI. Pochopenie základných charakteristík, ktoré odlišujú modely difúzie od iných generatívnych modelov, môže v nadchádzajúcich dňoch pomôcť vytvoriť efektívnejšie riešenia.

Ak sa chcete dozvedieť viac o technológiách založených na AI, navštívte Unite.ai. Pozrite si naše vybrané zdroje o generatívnych nástrojoch AI nižšie.