заглушки Дифузійні моделі в штучному інтелекті - все, що вам потрібно знати - Unite.AI
Зв'язатися з нами
Майстер-клас ШІ:

Штучний Інтелект

Дифузійні моделі в ШІ – усе, що вам потрібно знати

mm

опублікований

 on

Колаж із людських облич, створений за допомогою генератора зображень AI

В екосистемі штучного інтелекту дифузійні моделі визначають напрямок і темп технологічного прогресу. Вони революціонізують наш підхід до комплексу генеративний ШІ завдання. Ці моделі базуються на математиці принципів Гауса, дисперсії, диференціальних рівнянь і генеративних послідовностей. (Ми пояснимо технічний жаргон нижче)

Сучасні продукти та рішення, орієнтовані на ШІ, розроблені Nvidia, Google, Adobe і OpenAI, поставили дифузійні моделі в центр уваги. DALL.E 2, Стабільна дифузія та Серед подорожі є яскравими прикладами дифузійних моделей, які останнім часом ходять в Інтернеті. Користувачі надають прості текстові підказки як вхідні дані, і ці моделі можуть перетворювати їх у реалістичні зображення, як-от показано нижче.

Зображення, створене за допомогою Midjourney v5 за допомогою підказки введення: яскраві каліфорнійські маки.

Зображення, створене за допомогою Midjourney v5 за допомогою підказки введення: яскраві каліфорнійські маки. Джерело: Серед подорожі

Давайте дослідимо основні принципи роботи дифузійних моделей і те, як вони змінюють напрямки та норми світу, яким ми його бачимо сьогодні.

Що таке моделі дифузії?

Згідно з дослідженням видання «Знешумлення дифузійних імовірнісних моделей”, моделі дифузії визначаються як:

«Дифузійна модель або ймовірнісна дифузійна модель — це параметризований ланцюг Маркова, навчений за допомогою варіаційного висновку для створення вибірок, що відповідають даним через кінцевий час»

Простіше кажучи, дифузійні моделі можуть генерувати дані, подібні до тих, на яких вони навчаються. Якщо модель тренується на зображеннях кішок, вона може генерувати схожі реалістичні зображення кішок.

Тепер давайте спробуємо розібрати технічне визначення, згадане вище. Моделі розповсюдження черпають натхнення з принципу роботи та математичної основи імовірнісної моделі, яка може аналізувати та передбачати поведінку системи, яка змінюється з часом, наприклад прогнозувати прибутковість фондового ринку чи поширення пандемії.

У визначенні зазначено, що це параметризовані ланцюги Маркова, навчені за допомогою варіаційного висновку. Ланцюги Маркова — це математичні моделі, які визначають систему, яка з часом перемикається між різними станами. Наявний стан системи може лише визначити ймовірність переходу в конкретний стан. Іншими словами, поточний стан системи містить можливі стани, за якими система може стежити або яких може отримати в будь-який момент часу.

Навчання моделі за допомогою варіаційного висновку включає складні обчислення розподілу ймовірностей. Він спрямований на пошук точних параметрів ланцюга Маркова, які відповідають спостережуваним (відомим або фактичним) даним через певний час. Цей процес мінімізує значення функції втрат моделі, яка є різницею між прогнозованим (невідомим) і спостережуваним (відомим) станом.

Після навчання модель може генерувати зразки, що відповідають спостережуваним даним. Ці зразки представляють можливі траєкторії або стан, яким система може слідувати або отримати з часом, і кожна траєкторія має різну ймовірність виникнення. Таким чином, модель може передбачити майбутню поведінку системи, генеруючи діапазон вибірок і знаходячи їх відповідні ймовірності (ймовірність того, що ці події відбудуться).

Як інтерпретувати моделі дифузії в ШІ?

Дифузійні моделі — це глибокі генеративні моделі, які працюють шляхом додавання шуму (гауссового шуму) до доступних навчальних даних (також відомого як процес прямої дифузії), а потім реверсування процесу (відомого як зменшення шуму або процес зворотної дифузії) для відновлення даних. Модель поступово вчиться знімати шум. Цей навчений процес усунення шумів генерує нові високоякісні зображення з випадкових зерен (випадкових зображень із шумом), як показано на ілюстрації нижче.

Процес зворотної дифузії: зображення з шумами зменшується, щоб відновити оригінальне зображення (або створити його варіації) за допомогою навченої моделі дифузії.

Процес зворотної дифузії: зображення з шумами зменшується, щоб відновити оригінальне зображення (або створити його варіації) за допомогою навченої моделі дифузії. Джерело: Знешумлення дифузійних імовірнісних моделей

3 Категорії моделі дифузії

Існує три фундаментальні математичні основи які лежать в основі науки, що лежить в основі моделей дифузії. Усі три працюють за однаковими принципами додавання шуму, а потім його видалення для створення нових зразків. Давайте обговоримо їх нижче.

Дифузійна модель додає та видаляє шум із зображення.

Дифузійна модель додає та видаляє шум із зображення. Джерело: Дифузійні моделі в Vision: Огляд

1. Імовірнісні моделі дифузії знешумлення (DDPM)

Як пояснювалося вище, DDPM — це генеративні моделі, які в основному використовуються для видалення шуму з візуальних або звукових даних. Вони показали вражаючі результати в різних завданнях із усунення шумів у зображенні та аудіо. Наприклад, кіноіндустрія використовує сучасні інструменти обробки зображень і відео для покращення якості виробництва.

2. Генеративні моделі на основі балів (SGM) з обумовленим шумом

SGM можуть генерувати нові зразки з даного розподілу. Вони працюють, вивчаючи функцію оцінки, яка може оцінити логарифм щільності цільового розподілу. Оцінка щільності журналу робить припущення для доступних точок даних, що вони є частиною невідомого набору даних (тестового набору). Потім ця функція оцінки може генерувати нові точки даних із розподілу.

Так, наприклад, глибокі підробки сумно відомі виробництвом фейкових відео та аудіо відомих особистостей. Але їх в основному приписують Генеративні змагальні мережі (GAN). Однак SGM мають показали подібні можливості – часом перевершують – у створенні високоякісних облич знаменитостей. Крім того, SGM можуть допомогти розширити набори даних охорони здоров’я, які не є легкодоступними у великих кількостях через суворі правила та галузеві стандарти.

3. Стохастичні диференціальні рівняння (SDE)

СДУ описують зміни у випадкових процесах щодо часу. Вони широко використовуються у фізиці та на фінансових ринках із випадковими факторами, які суттєво впливають на ринкові результати.

Наприклад, ціни на товари дуже динамічні і на них впливає цілий ряд випадкових факторів. SDE обчислюють похідні фінансові інструменти, такі як ф’ючерсні контракти (наприклад, контракти на сиру нафту). Вони можуть моделювати коливання та точно розраховувати вигідні ціни, щоб створити відчуття безпеки.

Основні застосування моделей дифузії в ШІ

Давайте розглянемо деякі широко адаптовані практики та використання моделей дифузії в ШІ.

Генерація відео високої якості

Створення відео високого класу за допомогою глибоке навчання є складним, оскільки вимагає високої безперервності відеокадрів. Саме тут стають у пригоді дифузійні моделі, оскільки вони можуть генерувати підмножину відеокадрів для заповнення між відсутніми кадрами, що призводить до високоякісного та плавного відео без затримок.

Дослідники розробили Гнучка модель дифузії та залишкова дифузія відео техніки для цієї мети. Ці моделі також можуть створювати реалістичні відео, плавно додаючи створені штучним інтелектом кадри між фактичними кадрами.

Ці моделі можуть просто збільшити FPS (кадри в секунду) відео з низькою частотою кадрів, додавши фіктивні кадри після вивчення шаблонів із доступних кадрів. Практично без втрати кадрів ці фреймворки можуть додатково допомогти моделям на основі глибокого навчання створювати з нуля відео на основі штучного інтелекту, які виглядають як природні знімки з високоякісних камер.

Широкий асортимент чудових Генератори відео AI доступний у 2023 році, щоб зробити створення та редагування відеоконтенту швидким і простим.

Генерація тексту в зображення

Моделі з перетворенням тексту в зображення використовують підказки для створення високоякісних зображень. Наприклад, введення «червоне яблуко на тарілці» та створення фотореалістичного зображення яблука на тарілці. Змішана дифузія та unCLIP є двома яскравими прикладами таких моделей, які можуть генерувати дуже відповідні та точні зображення на основі введення користувача.

Крім того, GLIDE від OpenAI — ще одне широко відоме рішення, випущене в 2021 році, яке створює фотореалістичні зображення за допомогою введення користувача. Пізніше OpenAI випустив DALL.E-2, свою найдосконалішу модель генерації зображень.

Подібним чином Google також розробив модель генерації зображень, відому як Зображення, який використовує велику мовну модель для розвитку глибокого текстового розуміння вхідного тексту, а потім генерує фотореалістичні зображення.

Ми згадували інші популярні інструменти для створення зображень, такі як Midjourney і Stable Diffusion (DreamStudio) вище. Подивіться на зображення, створене за допомогою стабільної дифузії нижче.

Колаж із людських облич, створений за допомогою Stable Diffusion 1.5

Зображення, створене за допомогою Stable Diffusion 1.5 із використанням такої підказки: «колажі, гіперреалістичні, багато варіацій, портрет дуже старого Том Йорка, варіації обличчя, співак-пісняр, (бічний) профіль, різний вік, макрооб’єктив, граничний простір, автор Лі Бермехо, Альфонс Муча та Грег Рутковскі, сива борода, гладке обличчя, вилиці”

Дифузійні моделі в ШІ – чого очікувати в майбутньому?

Дифузійні моделі виявили багатообіцяючий потенціал як надійний підхід до створення високоякісних зразків зі складних наборів даних зображень і відео. Покращуючи здатність людини використовувати та маніпулювати даними, дифузійні моделі можуть потенційно революціонізувати світ, яким ми його бачимо сьогодні. Ми можемо очікувати, що ще більше застосувань дифузійних моделей стане невід’ємною частиною нашого повсякденного життя.

Зважаючи на це, дифузійні моделі — не єдина генеративна техніка ШІ. Дослідники також використовують Generative Adversarial Networks (GANs), Variational Автокодери, а також глибокі генеративні моделі на основі потоку для створення вмісту ШІ. Розуміння фундаментальних характеристик, які відрізняють дифузійні моделі від інших генеративних моделей, може допомогти створити більш ефективні рішення в найближчі дні.

Щоб дізнатися більше про технології на основі штучного інтелекту, відвідайте сайт Unite.ai. Ознайомтеся з нашими підібраними ресурсами про генеративні інструменти ШІ нижче.