AI 101

Difuzní modely v AI – vše, co potřebujete vědět

Published March 31, 2023

Updated April 5, 2026

Haziqa Sajid

A collage of human faces created using AI image generator

V ekosystému AI nastavují difuzní modely směr a tempo technologického pokroku. Revolucionalizují způsob, jakým přistupujeme ke komplexním úkolem generativní AI. Tyto modely jsou založeny na matematice gaussovských principů, variance, diferenciálních rovnic a generativních sekvencí. (Podrobněji vysvětlíme technické termíny níže)

Moderní AI-orientované produkty a řešení vyvinuté společnostmi Nvidia, Google, Adobe a OpenAI umístily difuzní modely do centra pozornosti. DALL.E 2, Stable Diffusion a Midjourney jsou prominentní příklady difuzních modelů, které se v poslední době objevily na internetu. Uživatelé zadají jednoduchý textový vstup a tyto modely mohou převést na realistické obrázky, jako je ten níže.

Obrázek vygenerovaný pomocí Midjourney v5 s vstupním promptem: vibrant California poppies. Zdroj: Midjourney

Zkoumejme základní principy fungování difuzních modelů a to, jak mění směr a normy světa, jak ho vidíme dnes.

Co jsou difuzní modely?

Podle výzkumné publikace „Denoising Diffusion Probabilistic Models“ jsou difuzní modely definovány jako:

„Difuzní model nebo probabilistický difuzní model je parametrický Markovův řetězec, který je trénován pomocí variacionální inference pro generování vzorků, které odpovídají datům po konečném čase“

Jednoduše řečeno, difuzní modely mohou generovat data podobná těm, na kterých byly trénovány. Pokud je model trénován na obrázcích koček, může generovat podobné realistické obrázky koček.

Nyní se pokusme rozložit technickou definici uvedenou výše. Difuzní modely čerpají inspiraci z pracovního principu a matematického základu probabilistického modelu, který může analyzovat a předpovídat chování systému, který se mění s časem, jako je předpovídání návratnosti akciového trhu nebo šíření pandemie.

Definice uvádí, že jsou parametrickými Markovovými řetězci trénovanými pomocí variacionální inference. Markovovy řetězce jsou matematickými modely, které definují systém, který přechází mezi různými stavy v čase. Stávající stav systému může určit pouze pravděpodobnost přechodu do konkrétního stavu. Jinými slovy, současný stav systému obsahuje možné stavy, které systém může následovat nebo získat v daném čase.

Trénování modelu pomocí variacionální inference zahrnuje komplexní výpočty pro pravděpodobnostní distribuce. Cílem je najít přesné parametry Markovova řetězce, které odpovídají pozorovaným (známým nebo skutečným) datům po určitém čase. Tento proces minimalizuje hodnotu loss funkce modelu, která je rozdíl mezi předpovídaným (neznámým) a pozorovaným (známým) stavem.

Jakmile je model trénován, může generovat vzorky, které odpovídají pozorovaným datům. Tyto vzorky reprezentují možné trajektorie nebo stavy, které systém může následovat nebo získat v čase, a každá trajektorie má jinou pravděpodobnost výskytu. Protože model může předpovídat budoucí chování systému generováním rozsahu vzorků a nalezením jejich příslušných pravděpodobností (pravděpodobnosti těchto událostí).

Jak interpretovat difuzní modely v AI?

Difuzní modely jsou hluboké generativní modely, které fungují tak, že přidávají šum (Gaussovský šum) k dostupným trénovacím datům (také známým jako forward difuzní proces) a poté reverzují proces (známý jako denoising nebo reverse difuzní proces) pro obnovení dat. Model postupně učí odstraňovat šum. Tento naučený denoising proces generuje nové, vysoce kvalitní obrázky z náhodných semen (náhodně šumových obrázků), jak je znázorněno na ilustraci níže.

Reverse difuzní proces: Šumový obrázek je denoizován pro obnovení původního obrázku (nebo generování jeho variací) pomocí trénovaného difuzního modelu. Zdroj: Denoising Diffusion Probabilistic Models

3 kategorie difuzních modelů

Existují tři základní matematické rámce, které podkladají vědu za difuzními modely. Všichni tři fungují na stejných principech přidávání šumu a poté jeho odstranění pro generování nových vzorků. Zkoumejme je níže.

Difuzní model přidává a odstraňuje šum z obrázku. Zdroj: Diffusion Models in Vision: A Survey

1. Denoising Diffusion Probabilistic Models (DDPMs)

Jak je vysvětleno výše, DDPMs jsou generativní modely, které jsou hlavně používány pro odstranění šumu z vizuálních nebo audio dat. Prokázaly působivé výsledky na různých úkolech odstranění šumu z obrázků a audia. Například filmový průmysl používá moderní nástroje pro zpracování obrázků a videí ke zlepšení produkční kvality.

2. Noise-Conditioned Score-Based Generative Models (SGMs)

SGMs mohou generovat nové vzorky z dané distribuce. Fungují tak, že se učí odhadnout skórovací funkci, která může odhadnout logaritmickou hustotu cílové distribuce. Logaritmická hustota odhaduje předpoklady pro dostupné datové body, že jsou součástí neznámé datové sady (testovací sady). Tato skórovací funkce může poté generovat nové datové body z distribuce.

Například deep fakes jsou proslulé tím, že vytvářejí falešné videa a audia slavných osobností. Ale jsou většinou připsány Generative Adversarial Networks (GANs). Nicméně SGMs prokázaly podobné schopnosti – někdy i lepší – při generování vysoce kvalitních obrázků slavných osobností. Kromě toho SGMs mohou pomoci rozšířit zdravotnické datové sady, které nejsou snadno dostupné ve velkém množství kvůli přísným předpisům a odvětvovým standardům.

3. Stochastic Differential Equations (SDEs)

SDEs popisují změny náhodných procesů v čase. Široce se používají ve fyzice a finančních trzích, které zahrnují náhodné faktory, které významně ovlivňují výsledky trhu.

Například ceny komodit jsou vysoce dynamické a ovlivněné řadou náhodných faktorů. SDEs počítají finanční deriváty, jako jsou futures kontrakty (jako kontrakty na crude oil). Mohou modelovat fluktuace a přesně vypočítat výhodné ceny, aby poskytly pocit jistoty.

Hlavní aplikace difuzních modelů v AI

Zkoumejme některé široce akceptované postupy a použití difuzních modelů v AI.

Generování vysoce kvalitních videí

Vytvoření vysoce kvalitních videí pomocí hlubokého učení je náročné, protože vyžaduje vysokou kontinuitu videofrámů. Zde přicházejí difuzní modely, protože mohou generovat podmnožinu videofrámů pro vyplnění mezery mezi chybějícími rámci, což vede k vysoce kvalitním a plynulým videím bez prodlevy.

Výzkumníci vyvinuli Flexible Diffusion Model a Residual Video Diffusion techniky pro tento účel. Tyto modely mohou také produkovat realistické videa přidáním AI-generovaných rámců mezi skutečné rámce.

Tyto modely mohou jednoduše prodloužit FPS (snímků za sekundu) nízkoFPS videa přidáním falešných rámců po naučení se vzorců z dostupných rámců. S téměř žádnou ztrátou rámců mohou tyto rámce dále pomoci hluboce učícím se modelům generovat AI-založená videa z ničeho, která vypadají jako přirozené záběry z vysoce kvalitních kamer.

Široká škála pozoruhodných AI video generátorů je k dispozici v roce 2023, aby usnadnila produkci a editaci videoobsahu.

Text-to-Image Generace

Text-to-image modely používají vstupní prompty pro generování vysoce kvalitních obrázků. Například zadání “červené jablko na talíři” a produkce fotorealistického obrázku jablka na talíři. Blended difuze a unCLIP jsou dva prominentní příklady takových modelů, které mohou generovat vysoce relevantní a přesné obrázky na základě uživatelského vstupu.

Kromě toho GLIDE od OpenAI je další široce známá řešení vydaná v roce 2021, která produkuje fotorealistické obrázky pomocí uživatelského vstupu. Později OpenAI vydala DALL.E-2, svůj nej pokročilejší model generování obrázků dosud.

Podobně Google vyvinul model generování obrázků nazvaný Imagen, který používá velký jazykový model pro rozvoj hlubokého textového porozumění vstupnímu textu a poté generuje fotorealistické obrázky.

Mentionovali jsme další populární nástroje pro generování obrázků, jako je Midjourney a Stable Diffusion (DreamStudio). Podívejte se na obrázek vygenerovaný pomocí Stable Diffusion níže.

Koláž lidských tváří vytvořená pomocí Stable Diffusion 1.5 s promptem: „koláže, hyper-realistické, mnoho variací portrétu velmi starého thom yorke, variace tváří, zpěvák-skladatel, (stranový) profil, různé věkové kategorie, makro objektiv, liminální prostor, od lee bermejo, alphonse mucha a greg rutkowski, greybeard, hladká tvář, lícní kosti“

Difuzní modely v AI – Co očekávat v budoucnosti?

Difuzní modely prokázaly slibný potenciál jako robustní přístup k generování vysoce kvalitních vzorků z komplexních obrazových a videodat. Zlepšením lidské schopnosti používat a manipulovat s daty mohou difuzní modely potenciálně revolucionalizovat svět, jak ho vidíme dnes. Můžeme očekávat, že uvidíme ještě více aplikací difuzních modelů, které se stanou integrovanou součástí našeho každodenního života.

Řekli jsme, že difuzní modely nejsou jediným generativním AI technikou. Výzkumníci také používají Generative Adversarial Networks (GANs), Variational Autoencoders a flow-based hluboké generativní modely pro generování AI obsahu. Porozumění základním charakteristikám, které odlišují difuzní modely od ostatních generativních modelů, může pomoci vytvořit účinnější řešení v nadcházejících dnech.

Chcete-li se dozvědět více o AI-založených technologiích, navštivte Unite.ai. Zkontrolujte naše kurátorované zdroje o generativních AI nástrojích níže.