Spojte se s námi

Umělá inteligence

Difúzní modely v AI – Vše, co potřebujete vědět

mm
Koláž lidských tváří vytvořená pomocí generátoru obrázků AI

V ekosystému umělé inteligence modely difúze určují směr a tempo technologického pokroku. Způsobují revoluci ve způsobu, jakým přistupujeme ke komplexu generativní AI úkoly. Tyto modely jsou založeny na matematice gaussovských principů, rozptylu, diferenciálních rovnic a generativních posloupností. (Technický žargon vysvětlíme níže)

Moderní produkty a řešení zaměřené na umělou inteligenci vyvinuté společnostmi Nvidia, Google, Adobe a OpenAI postavily do středu pozornosti difúzní modely. DALL.E 2, Stabilní difúze, a Střední cesta jsou významnými příklady modelů difúze, které se v poslední době objevují na internetu. Uživatelé poskytují jednoduchou textovou výzvu jako vstup a tyto modely je mohou převést na realistické obrázky, jako je ten, který je zobrazen níže.

Obrázek generovaný pomocí Midjourney v5 pomocí vstupní výzvy: zářivé kalifornské máky.

Obrázek generovaný pomocí Midjourney v5 pomocí vstupní výzvy: zářivé kalifornské máky. Zdroj: Střední cesta

Pojďme prozkoumat základní principy fungování modelů difúze a to, jak mění směry a normy světa, jak jej dnes vidíme.

Co jsou difúzní modely?

Podle výzkumné publikace „Pravděpodobnostní modely odšumování difúze,“ jsou difúzní modely definovány jako:

"Difúzní model nebo pravděpodobnostní difúzní model je parametrizovaný Markovův řetězec trénovaný pomocí variační inference k vytvoření vzorků odpovídajících datům po konečném čase."

Jednoduše řečeno, modely difúze mohou generovat data podobná těm, na kterých jsou trénovány. Pokud model trénuje na obrázcích koček, může vytvářet podobné realistické obrázky koček.

Nyní se pokusíme rozebrat výše zmíněnou technickou definici. Difúzní modely čerpají inspiraci z pracovního principu a matematického základu pravděpodobnostního modelu, který dokáže analyzovat a předpovídat chování systému, které se mění v čase, jako je předpovídání návratnosti akciového trhu nebo šíření pandemie.

Definice říká, že jde o parametrizované Markovovy řetězce trénované variační inferencí. Markovovy řetězce jsou matematické modely, které definují systém, který v průběhu času přepíná mezi různými stavy. Stávající stav systému může určit pouze pravděpodobnost přechodu do konkrétního stavu. Jinými slovy, aktuální stav systému obsahuje možné stavy, které může systém v libovolném okamžiku následovat nebo získat.

Trénink modelu pomocí variační inference zahrnuje složité výpočty pro rozdělení pravděpodobnosti. Klade si za cíl najít přesné parametry Markovova řetězce, které se po určité době shodují s pozorovanými (známými nebo skutečnými) daty. Tento proces minimalizuje hodnotu ztrátové funkce modelu, což je rozdíl mezi predikovaným (neznámým) a pozorovaným (známým) stavem.

Po natrénování může model generovat vzorky odpovídající pozorovaným datům. Tyto vzorky představují možné trajektorie nebo stavy, které by systém mohl sledovat nebo získat v průběhu času, a každá trajektorie má jinou pravděpodobnost, že se stane. Model tedy může předpovídat budoucí chování systému generováním řady vzorků a nalezením jejich příslušných pravděpodobností (pravděpodobnosti, že k těmto událostem dojde).

Jak interpretovat modely difúze v AI?

Difúzní modely jsou hluboké generativní modely, které fungují tak, že k dostupným trénovacím datům přidávají šum (Gaussův šum) (také známý jako proces dopředné difúze) a poté proces obrátí (známý jako proces odšumování nebo proces zpětné difúze), aby se data obnovila. Model se postupně učí odstraňovat hluk. Tento naučený proces odšumování generuje nové, vysoce kvalitní obrázky z náhodných semen (obrázky s náhodným šumem), jak je znázorněno na obrázku níže.

Proces reverzní difúze: Šumový obraz je odšumován, aby se obnovil původní obraz (nebo generoval jeho variace) prostřednictvím trénovaného modelu difúze.

Proces reverzní difúze: Šumový obraz je odšumován, aby se obnovil původní obraz (nebo generoval jeho variace) prostřednictvím trénovaného modelu difúze. Zdroj: Pravděpodobnostní modely odšumování difúze

3 kategorie difúzních modelů

Existují tři základní matematické rámce které jsou základem vědy za modely difúze. Všechny tři pracují na stejných principech přidání šumu a jeho následného odstranění pro generování nových vzorků. Pojďme si je probrat níže.

Difúzní model přidává a odstraňuje šum z obrazu.

Difúzní model přidává a odstraňuje šum z obrazu. Zdroj: Difúzní modely ve vidění: Průzkum

1. Pravděpodobnostní modely odšumování difúze (DDPM)

Jak bylo vysvětleno výše, DDPM jsou generativní modely používané hlavně k odstranění šumu z vizuálních nebo zvukových dat. Ukázaly působivé výsledky v různých úkolech pro odšumování obrazu a zvuku. Například filmový průmysl používá moderní nástroje pro zpracování obrazu a videa ke zlepšení kvality produkce.

2. Noise-Conditioned Score-Based Generative Models (SGM)

SGM mohou generovat nové vzorky z dané distribuce. Pracují tak, že se učí funkci skóre odhadu, která dokáže odhadnout logaritmickou hustotu cílové distribuce. Odhad hustoty logaritmu vytváří předpoklady pro dostupné datové body, že jsou součástí neznámé datové sady (testovací sady). Tato funkce skóre pak může generovat nové datové body z distribuce.

Například, hluboké padělky jsou notoricky známé produkcí falešných videí a audií slavných osobností. Ale jsou většinou připisovány Generative Adversarial Networks (GAN). Nicméně, SGM mají ukázaly podobné schopnosti – občas překonaly – při generování vysoce kvalitních tváří celebrit. SGM mohou také pomoci rozšířit soubory zdravotních dat, které nejsou snadno dostupné ve velkém množství kvůli přísným předpisům a průmyslovým standardům.

3. Stochastické diferenciální rovnice (SDE)

SDE popisují změny v náhodných procesech týkající se času. Jsou široce používány ve fyzice a na finančních trzích zahrnujících náhodné faktory, které významně ovlivňují výsledky trhu.

Například ceny komodit jsou vysoce dynamické a ovlivněné řadou náhodných faktorů. SDE počítají finanční deriváty jako futures kontrakty (jako kontrakty na ropu). Mohou modelovat výkyvy a přesně vypočítat příznivé ceny, aby získali pocit bezpečí.

Hlavní aplikace difúzních modelů v AI

Podívejme se na některé široce přizpůsobené postupy a použití modelů difúze v AI.

Vysoce kvalitní generování videa

Vytváření špičkových videí pomocí hluboké učení je náročný, protože vyžaduje vysokou kontinuitu video snímků. Zde se hodí modely difúze, protože dokážou generovat podmnožinu video snímků, které doplní chybějící snímky, což vede k vysoce kvalitním a plynulým videím bez latence.

Výzkumníci vyvinuli Flexibilní difúzní model a zbytková videodifúze techniky k tomuto účelu. Tyto modely mohou také vytvářet realistická videa bezproblémovým přidáváním snímků generovaných umělou inteligencí mezi skutečné snímky.

Tyto modely mohou jednoduše rozšířit FPS (snímky za sekundu) videa s nízkou FPS přidáním fiktivních snímků poté, co se naučí vzory z dostupných snímků. S téměř nulovou ztrátou snímků mohou tyto rámce dále pomáhat modelům založeným na hlubokém učení při vytváření videí na bázi umělé inteligence od začátku, která vypadají jako přirozené záběry ze špičkových nastavení vaček.

Široká škála pozoruhodných AI video generátory je k dispozici v roce 2023, aby byla produkce a úprava videoobsahu rychlá a přímočará.

Generování textu na obrázek

Modely typu text-to-image využívají vstupní výzvy ke generování vysoce kvalitních obrázků. Například zadáním vstupu „červené jablko na talíři“ a vytvořením fotorealistického obrazu jablka na talíři. Smíšená difúze si unCLIP jsou dva prominentní příklady takových modelů, které mohou generovat vysoce relevantní a přesné obrázky na základě uživatelského vstupu.

Takže, GLIDE od OpenAI je další široce známé řešení vydané v roce 2021, které vytváří fotorealistické obrázky pomocí uživatelského vstupu. Později OpenAI vydala DALL.E-2, svůj dosud nejpokročilejší model generování obrázků.

Podobně Google také vyvinul model generování obrázků známý jako Obraz, která využívá velký jazykový model k rozvoji hlubokého textového porozumění vstupnímu textu a následně generuje fotorealistické obrázky.

Zmínili jsme další oblíbené nástroje pro generování obrázků, jako je Midjourney a Stable Diffusion (studio snů) výše. Podívejte se na obrázek vygenerovaný pomocí Stable Diffusion níže.

Koláž lidských tváří vytvořená pomocí Stable Diffusion 1.5

Obrázek vytvořený pomocí Stable Diffusion 1.5 pomocí následující výzvy: „koláže, hyperrealistické, mnoho variací portrét velmi starého Thoma yorka, variace obličeje, zpěvák a skladatel, ( boční ) profil, různé věkové kategorie, makro objektiv, liminální prostor, lee bermejo, alphonse mucha a greg rutkowski, šedý vous, hladký obličej, lícní kosti“

Difúzní modely v AI – co očekávat v budoucnu?

Difúzní modely odhalily slibný potenciál jako robustní přístup ke generování vysoce kvalitních vzorků z komplexních obrazových a video datových sad. Díky zlepšení lidských schopností používat a manipulovat s daty mohou modely difúze potenciálně způsobit revoluci ve světě, jak jej dnes vidíme. Můžeme očekávat, že ještě více aplikací difúzních modelů se stane nedílnou součástí našeho každodenního života.

Difúzní modely však nejsou jedinou generativní technikou umělé inteligence. Výzkumníci také používají Generative Adversarial Networks (GAN), variační Autokodérya hluboké generativní modely založené na toku pro generování obsahu AI. Pochopení základních charakteristik, které odlišují modely difúze od jiných generativních modelů, může v nadcházejících dnech pomoci vytvořit efektivnější řešení.

Chcete-li se dozvědět více o technologiích založených na umělé inteligenci, navštivte Unite.ai. Níže si prohlédněte naše vybrané zdroje o generativních nástrojích umělé inteligence.