ШІ 101

Дифузійні моделі в штучному інтелекті – все, що вам потрібно знати

Опубліковано 31 березня 2023

Оновлено 23 травня 2026

Haziqa Sajid

A collage of human faces created using AI image generator

У екосистемі штучного інтелекту дифузійні моделі встановлюють напрям і темп технологічних досягнень. Вони революціонізують підхід до складних завдань генеративного штучного інтелекту. Ці моделі засновані на математичних принципах гауссовських розподілів, дисперсії, диференціальних рівнянь та генеративних послідовностей. (Ми пояснимо технічні терміни нижче)

Сучасні продукти та рішення, розроблені компаніями Nvidia, Google, Adobe та OpenAI, поставили дифузійні моделі в центр уваги. DALL.E 2, Stable Diffusion та Midjourney – це відомі приклади дифузійних моделей, які зараз широко обговорюються в інтернеті. Користувачі вводять простий текстовий запит, і ці моделі можуть перетворити їх у реалістичні зображення, як показано нижче.

Зображення, згенероване за допомогою Midjourney v5 з використанням запиту: яскраві каліфорнійські маки. Джерело: Midjourney

Давайте дослідимо основні принципи роботи дифузійних моделей та те, як вони змінюють напрямки та норми світу, який ми бачимо сьогодні.

Що таке дифузійні моделі?

За даними дослідницької публікації “Дифузійні моделі з шумоподавленням“, дифузійні моделі визначаються як:

«Дифузійна модель або ймовірнісна дифузійна модель – це параметризована марковська ланцюг, навчена за допомогою варіаційної інференції для генерації зразків, що відповідають даних після скінченного часу»

Простіше кажучи, дифузійні моделі можуть генерувати дані, подібні до тих, на яких вони були навчені. Якщо модель навчається на зображеннях котів, вона може генерувати подібні реалістичні зображення котів.

Тепер спробуємо розібрати технічне визначення, згадане вище. Дифузійні моделі черпають ідеї з робочого принципу та математичної основи ймовірнісної моделі, яка може аналізувати та передбачати поведінку системи, що змінюється з часом, наприклад, передбачення курсу акцій або поширення пандемії.

Визначення говорить про те, що вони є параметризованими марковськими ланцюгами, навченими за допомогою варіаційної інференції. Марковські ланцюги – це математичні моделі, які визначають систему, що перемикається між різними станами з часом. Існуючий стан системи може тільки визначити ймовірність переходу до певного стану. Інакше кажучи, поточний стан системи визначає можливі стани, які система може зайняти в будь-який момент часу.

Навчання моделі за допомогою варіаційної інференції включає складні розрахунки ймовірнісних розподілів. Метою є знайти точні параметри марковського ланцюга, які відповідають спостережуваним (відомим або фактичним) даним після певного часу. Цей процес мінімізує значення функції втрат моделі, яка є різницею між передбачуваним (невідомим) та спостережуваним (відомим) станом.

Після навчання модель може генерувати зразки, що відповідають спостережуваним даним. Ці зразки представляють можливі траєкторії або стани, які система могла б зайняти з часом, і кожна траєкторія має різну ймовірність реалізації. Отже, модель може передбачити майбутню поведінку системи, генеруючи ряд зразків та знаходячи їхні відповідні ймовірності (ймовірність цих подій).

Як інтерпретувати дифузійні моделі в штучному інтелекті?

Дифузійні моделі – це глибокі генеративні моделі, які працюють шляхом додавання шуму (гауссовського шуму) до наявних навчальних даних (так званий прямий дифузійний процес) та потім зворотнього процесу (відомого як денойзинг або зворотній дифузійний процес) для відновлення даних. Модель поступово вчиться видаляти шум. Цей навчений процес денойзингу генерує нові, високоякісні зображення з випадкових початкових даних (випадкових зашумлених зображень), як показано на ілюстрації нижче.

Зворотній дифузійний процес: зашумлене зображення очищується для відновлення оригінального зображення (або генерації його варіантів) за допомогою навченої дифузійної моделі. Джерело: Дифузійні моделі з шумоподавленням

3 категорії дифузійних моделей

Є три фундаментальні математичні основи, які лежать в основі науки про дифузійні моделі. Всі три працюють на тих же принципах додавання шуму та його подальшого видалення для генерації нових зразків. Давайте розглянемо їх нижче.

Дифузійна модель додає та видаляє шум з зображення. Джерело: Дифузійні моделі в зорових даних: огляд

1. Дифузійні моделі з шумоподавленням (DDPMs)

Як вже згадувалося вище, DDPMs – це генеративні моделі, які переважно використовуються для видалення шуму з візуальних або аудіоданих. Вони показали вражаючі результати на різних завданнях очищення зображень та аудіо.

2. Генеративні моделі на основі оцінки шуму (SGMs)

SGMs можуть генерувати нові зразки з заданого розподілу. Вони працюють шляхом навчання оцінки оцінки логарифмічної густини цільового розподілу. Оцінка логарифмічної густини робить припущення щодо наявних даних, які є частиною невідомого набору даних (тестового набору). Ця оцінка може потім генерувати нові дані з розподілу.

Наприклад, фейкові відео та аудіо відомі тим, що створюють фальшиві відео та аудіо відомих особистостей. Однак вони переважно пов’язані з генеративними адверсарними мережами (GANs). Однак SGMs також показали подібні можливості – іноді перевершуючи – у генерації високоякісних зображень знаменитостей. Крім того, SGMs можуть допомогти розширити набори даних у сфері охорони здоров’я, які не завжди легко доступні у великих кількостях через суворі правила та стандарти галузі.

3. Стохастичні диференціальні рівняння (SDEs)

SDEs описують зміни випадкових процесів щодо часу. Вони широко використовуються в фізиці та фінансових ринках, які включають випадкові фактори, які суттєво впливають на результати ринку.

Наприклад, ціни на товари є дуже динамічними та залежать від ряду випадкових факторів. SDEs можуть розрахувати фінансові похідні, такі як ф’ючерсні контракти (наприклад, контракти на нафту). Вони можуть моделювати коливання та точно розрахувати вигідні ціни, щоб дати відчуття безпеки.

Основні застосування дифузійних моделей в штучному інтелекті

Давайте розглянемо деякі широко прийняті практики та застосування дифузійних моделей в штучному інтелекті.

Генерація високоякісних відео

Створення високоякісних відео за допомогою глибокого навчання є складним завданням, оскільки для цього потрібна висока безперервність кадрів відео. Саме тут на допомогу приходять дифузійні моделі, оскільки вони можуть генерувати підмножину кадрів відео для заповнення пропущених кадрів, що призводить до високоякісних та гладких відео без затримок.

Дослідники розробили техніки гнучкої дифузійної моделі та залишкової відеодифузії для виконання цієї мети. Ці моделі також можуть генерувати реалістичні відео, безшовно додаючи кадри, згенеровані штучним інтелектом, між фактичними кадрами.

Ці моделі можуть просто розширити частоту кадрів (кадрів за секунду) відео з низькою частотою кадрів, додаючи фальшиві кадри після вивчення закономірностей з наявних кадрів. З майже без втрати кадрів ці рамки також можуть допомогти моделям глибокого навчання генерувати відео на основі штучного інтелекту з нуля, які виглядають як натуральні зйомки з висококласного камерального обладнання.

Широкий спектр видатних генераторів відео на основі штучного інтелекту доступний у 2023 році, щоб зробити виробництво та редагування відеоконтенту швидкими та простими.

Генерація зображень за текстом

Моделі генерації зображень за текстом використовують текстові запити для генерації високоякісних зображень. Наприклад, введення “червоний апельсин на тарілці” та генерація фотореалістичних зображень апельсина на тарілці. Змішана дифузія та unCLIP – це два відомі приклади таких моделей, які можуть генерувати високореєстровані та точні зображення на основі користувацького вводу.

Також GLIDE від OpenAI – це ще одна широко відома рішення, випущена у 2021 році, яка генерує фотореалістичних зображень за допомогою користувацького вводу. Пізніше OpenAI випустила DALL.E-2, свою найрозвітлішу модель генерації зображень.

Аналогічно, Google розробила модель генерації зображень, відому як Imagen, яка використовує велику мовну модель для розвитку глибокого текстового розуміння введеного тексту, а потім генерує фотореалістичних зображень.

Ми вже згадували інші популярні інструменти генерації зображень, такі як Midjourney та Stable Diffusion (DreamStudio). Подивіться на зображення, згенероване за допомогою Stable Diffusion нижче.

Колаж людських облич, створений за допомогою Stable Diffusion 1.5 з використанням запиту: “колаж, гіперреалістичний, багато варіантів портрет дуже старого Тома Йорка, обличчя варіантів, співака та автора пісень, (бічний) профіль, різні віки, макрооб’єктив, лімінальний простір, Лі Бермеджо, Альфонс Муха та Грег Рутковський, сивий, гладке обличчя, вилиці”

Дифузійні моделі в штучному інтелекті – чого очікувати в майбутньому?

Дифузійні моделі показали перспективний потенціал як надійний підхід до генерації високоякісних зразків з складних наборів даних зображень та відео. Покращуючи здатність людини використовувати та маніпулювати даними, дифузійні моделі можуть потенційно революціонізувати світ, який ми бачимо сьогодні. Ми можемо очікувати побачити ще більше застосунків дифузійних моделей, які стають невід’ємною частиною нашого повсякденного життя.

Однак дифузійні моделі не єдина техніка генерації штучного інтелекту. Дослідники також використовують генеративні адверсарні мережі (GANs), варіаційні автоенкодери та потокові глибокі генеративні моделі для генерації контенту на основі штучного інтелекту. Поняття фундаментальних характеристик, які відрізняють дифузійні моделі від інших генеративних моделей, може допомогти створити більш ефективні рішення в майбутньому.

Для вивчення更多 інформації про технології на основі штучного інтелекту відвідайте Unite.ai. Подивіться наші відібрані ресурси щодо генеративного штучного інтелекту нижче.