- Термінологія (від A до D)
- Контроль можливостей ШІ
- AI Ops
- Альбументації
- Продуктивність активів
- Автокодер
- Зворотне поширення
- Теорема Байєса
- Великий даних
- Чат-бот: посібник для початківців
- Обчислювальне мислення
- Комп'ютерне бачення
- Матриця плутанини
- Конволюційні нейронні мережі
- Кібербезпека
- Data Fabric
- Розповідь даних
- наука даних
- Склад даних
- Дерево рішень
- Deepfakes
- Глибоке навчання
- Навчання глибокому підкріпленню
- devops
- DevSecOps
- Дифузійні моделі
- Digital Twin
- Зменшення розмірності
- Термінологія (E до K)
- Edge AI
- Емоція ШІ
- Навчання в ансамблі
- Етичний хакерство
- ETL
- Пояснюваний ШІ
- Федеративне навчання
- FinOps
- Генеративний ШІ
- Генеральна змагальна мережа
- Генеративне проти дискримінаційного
- Підвищення градієнта
- Градієнтний спуск
- Невелике навчання
- Класифікація зображень
- ІТ-операції (ITOPs)
- Автоматизація інцидентів
- Інженерія впливу
- Кластеризація K-середніх
- K-найближчі сусіди
- Термінологія (L до Q)
- Термінологія (R to Z)
- Навчання зміцненню
- Відповідальний ШІ
- RLHF
- Роботизована автоматизація процесів
- Структурований проти неструктурованого
- Аналіз почуттів
- Контрольований проти безконтрольного
- Підтримка векторних машин
- Синтетичні дані
- Синтетичні носії
- Класифікація тексту
- TinyML
- Трансферне навчання
- Трансформатор нейронних мереж
- тест Тьюринга
- Пошук векторної подібності
Штучний Інтелект
Дифузійні моделі в ШІ – усе, що вам потрібно знати
опублікований
1 рік томуon
Зміст
В екосистемі штучного інтелекту дифузійні моделі визначають напрямок і темп технологічного прогресу. Вони революціонізують наш підхід до комплексу генеративний ШІ завдання. Ці моделі базуються на математиці принципів Гауса, дисперсії, диференціальних рівнянь і генеративних послідовностей. (Ми пояснимо технічний жаргон нижче)
Сучасні продукти та рішення, орієнтовані на ШІ, розроблені Nvidia, Google, Adobe і OpenAI, поставили дифузійні моделі в центр уваги. DALL.E 2, Стабільна дифузія та Серед подорожі є яскравими прикладами дифузійних моделей, які останнім часом ходять в Інтернеті. Користувачі надають прості текстові підказки як вхідні дані, і ці моделі можуть перетворювати їх у реалістичні зображення, як-от показано нижче.
Давайте дослідимо основні принципи роботи дифузійних моделей і те, як вони змінюють напрямки та норми світу, яким ми його бачимо сьогодні.
Що таке моделі дифузії?
Згідно з дослідженням видання «Знешумлення дифузійних імовірнісних моделей”, моделі дифузії визначаються як:
«Дифузійна модель або ймовірнісна дифузійна модель — це параметризований ланцюг Маркова, навчений за допомогою варіаційного висновку для створення вибірок, що відповідають даним через кінцевий час»
Простіше кажучи, дифузійні моделі можуть генерувати дані, подібні до тих, на яких вони навчаються. Якщо модель тренується на зображеннях кішок, вона може генерувати схожі реалістичні зображення кішок.
Тепер давайте спробуємо розібрати технічне визначення, згадане вище. Моделі розповсюдження черпають натхнення з принципу роботи та математичної основи імовірнісної моделі, яка може аналізувати та передбачати поведінку системи, яка змінюється з часом, наприклад прогнозувати прибутковість фондового ринку чи поширення пандемії.
У визначенні зазначено, що це параметризовані ланцюги Маркова, навчені за допомогою варіаційного висновку. Ланцюги Маркова — це математичні моделі, які визначають систему, яка з часом перемикається між різними станами. Наявний стан системи може лише визначити ймовірність переходу в конкретний стан. Іншими словами, поточний стан системи містить можливі стани, за якими система може стежити або яких може отримати в будь-який момент часу.
Навчання моделі за допомогою варіаційного висновку включає складні обчислення розподілу ймовірностей. Він спрямований на пошук точних параметрів ланцюга Маркова, які відповідають спостережуваним (відомим або фактичним) даним через певний час. Цей процес мінімізує значення функції втрат моделі, яка є різницею між прогнозованим (невідомим) і спостережуваним (відомим) станом.
Після навчання модель може генерувати зразки, що відповідають спостережуваним даним. Ці зразки представляють можливі траєкторії або стан, яким система може слідувати або отримати з часом, і кожна траєкторія має різну ймовірність виникнення. Таким чином, модель може передбачити майбутню поведінку системи, генеруючи діапазон вибірок і знаходячи їх відповідні ймовірності (ймовірність того, що ці події відбудуться).
Як інтерпретувати моделі дифузії в ШІ?
Дифузійні моделі — це глибокі генеративні моделі, які працюють шляхом додавання шуму (гауссового шуму) до доступних навчальних даних (також відомого як процес прямої дифузії), а потім реверсування процесу (відомого як зменшення шуму або процес зворотної дифузії) для відновлення даних. Модель поступово вчиться знімати шум. Цей навчений процес усунення шумів генерує нові високоякісні зображення з випадкових зерен (випадкових зображень із шумом), як показано на ілюстрації нижче.
3 Категорії моделі дифузії
Існує три фундаментальні математичні основи які лежать в основі науки, що лежить в основі моделей дифузії. Усі три працюють за однаковими принципами додавання шуму, а потім його видалення для створення нових зразків. Давайте обговоримо їх нижче.
1. Імовірнісні моделі дифузії знешумлення (DDPM)
Як пояснювалося вище, DDPM — це генеративні моделі, які в основному використовуються для видалення шуму з візуальних або звукових даних. Вони показали вражаючі результати в різних завданнях із усунення шумів у зображенні та аудіо. Наприклад, кіноіндустрія використовує сучасні інструменти обробки зображень і відео для покращення якості виробництва.
2. Генеративні моделі на основі балів (SGM) з обумовленим шумом
SGM можуть генерувати нові зразки з даного розподілу. Вони працюють, вивчаючи функцію оцінки, яка може оцінити логарифм щільності цільового розподілу. Оцінка щільності журналу робить припущення для доступних точок даних, що вони є частиною невідомого набору даних (тестового набору). Потім ця функція оцінки може генерувати нові точки даних із розподілу.
Так, наприклад, глибокі підробки сумно відомі виробництвом фейкових відео та аудіо відомих особистостей. Але їх в основному приписують Генеративні змагальні мережі (GAN). Однак SGM мають показали подібні можливості – часом перевершують – у створенні високоякісних облич знаменитостей. Крім того, SGM можуть допомогти розширити набори даних охорони здоров’я, які не є легкодоступними у великих кількостях через суворі правила та галузеві стандарти.
3. Стохастичні диференціальні рівняння (SDE)
СДУ описують зміни у випадкових процесах щодо часу. Вони широко використовуються у фізиці та на фінансових ринках із випадковими факторами, які суттєво впливають на ринкові результати.
Наприклад, ціни на товари дуже динамічні і на них впливає цілий ряд випадкових факторів. SDE обчислюють похідні фінансові інструменти, такі як ф’ючерсні контракти (наприклад, контракти на сиру нафту). Вони можуть моделювати коливання та точно розраховувати вигідні ціни, щоб створити відчуття безпеки.
Основні застосування моделей дифузії в ШІ
Давайте розглянемо деякі широко адаптовані практики та використання моделей дифузії в ШІ.
Генерація відео високої якості
Створення відео високого класу за допомогою глибоке навчання є складним, оскільки вимагає високої безперервності відеокадрів. Саме тут стають у пригоді дифузійні моделі, оскільки вони можуть генерувати підмножину відеокадрів для заповнення між відсутніми кадрами, що призводить до високоякісного та плавного відео без затримок.
Дослідники розробили Гнучка модель дифузії та залишкова дифузія відео техніки для цієї мети. Ці моделі також можуть створювати реалістичні відео, плавно додаючи створені штучним інтелектом кадри між фактичними кадрами.
Ці моделі можуть просто збільшити FPS (кадри в секунду) відео з низькою частотою кадрів, додавши фіктивні кадри після вивчення шаблонів із доступних кадрів. Практично без втрати кадрів ці фреймворки можуть додатково допомогти моделям на основі глибокого навчання створювати з нуля відео на основі штучного інтелекту, які виглядають як природні знімки з високоякісних камер.
Широкий асортимент чудових Генератори відео AI доступний у 2023 році, щоб зробити створення та редагування відеоконтенту швидким і простим.
Генерація тексту в зображення
Моделі з перетворенням тексту в зображення використовують підказки для створення високоякісних зображень. Наприклад, введення «червоне яблуко на тарілці» та створення фотореалістичного зображення яблука на тарілці. Змішана дифузія та unCLIP є двома яскравими прикладами таких моделей, які можуть генерувати дуже відповідні та точні зображення на основі введення користувача.
Крім того, GLIDE від OpenAI — ще одне широко відоме рішення, випущене в 2021 році, яке створює фотореалістичні зображення за допомогою введення користувача. Пізніше OpenAI випустив DALL.E-2, свою найдосконалішу модель генерації зображень.
Подібним чином Google також розробив модель генерації зображень, відому як Зображення, який використовує велику мовну модель для розвитку глибокого текстового розуміння вхідного тексту, а потім генерує фотореалістичні зображення.
Ми згадували інші популярні інструменти для створення зображень, такі як Midjourney і Stable Diffusion (DreamStudio) вище. Подивіться на зображення, створене за допомогою стабільної дифузії нижче.
Дифузійні моделі в ШІ – чого очікувати в майбутньому?
Дифузійні моделі виявили багатообіцяючий потенціал як надійний підхід до створення високоякісних зразків зі складних наборів даних зображень і відео. Покращуючи здатність людини використовувати та маніпулювати даними, дифузійні моделі можуть потенційно революціонізувати світ, яким ми його бачимо сьогодні. Ми можемо очікувати, що ще більше застосувань дифузійних моделей стане невід’ємною частиною нашого повсякденного життя.
Зважаючи на це, дифузійні моделі — не єдина генеративна техніка ШІ. Дослідники також використовують Generative Adversarial Networks (GANs), Variational Автокодери, а також глибокі генеративні моделі на основі потоку для створення вмісту ШІ. Розуміння фундаментальних характеристик, які відрізняють дифузійні моделі від інших генеративних моделей, може допомогти створити більш ефективні рішення в найближчі дні.
Щоб дізнатися більше про технології на основі штучного інтелекту, відвідайте сайт Unite.ai. Ознайомтеся з нашими підібраними ресурсами про генеративні інструменти ШІ нижче.
- 10 найкращих інструментів для покращення та масштабування зображень AI
- 10 найкращих генераторів мистецтва штучного інтелекту
- 8 найкращих музичних генераторів AI
- 9 найкращих інструментів і програм для покращення відео
- 8 «найкращих» відеогенераторів штучного інтелекту
- 10 найкращих генераторів голосу зі штучним інтелектом
- 9 «Найкращих» інструментів і програм для написання AI
Хазіка є Data Scientist із великим досвідом написання технічного контенту для компаній AI та SaaS.
Вам може сподобатися
Внутрішній діалог ШІ: як саморефлексія покращує роботу чат-ботів і віртуальних помічників
Mini-Gemini: Вивчення потенціалу мультимодальних мовних моделей бачення
Instant-Style: збереження стилю під час генерації тексту в зображення
LoReFT: Точне налаштування подання для мовних моделей
За межами пошукових систем: зростання агентів веб-перегляду на базі LLM
POKELLMON: агент з людським рівнем для битв покемонів з LLM