ИИ 101
Диффузионные модели в ИИ – Все, что вам нужно знать

В экосистеме ИИ диффузионные модели задают направление и темп технологического прогресса. Они революционизируют подход к сложным задачам генеративного ИИ. Эти модели основаны на математических принципах гауссовского распределения, дисперсии, дифференциальных уравнений и генеративных последовательностей. (Мы объясним технические термины ниже)
Современные продукты и решения, разработанные компаниями Nvidia, Google, Adobe и OpenAI, поставили диффузионные модели в центр внимания. DALL.E 2, Stable Diffusion и Midjourney – это яркие примеры диффузионных моделей, которые в последнее время вызывают широкий интерес в интернете. Пользователи предоставляют простой текстовый запрос в качестве входных данных, и эти модели могут преобразовать их в реалистичные изображения, такие как показано ниже.

Изображение, сгенерированное с помощью Midjourney v5 с помощью входного запроса: яркие калифорнийские маковые цветы. Источник: Midjourney
Давайте рассмотрим основные принципы работы диффузионных моделей и то, как они меняют направления и нормы мира, который мы видим сегодня.
Что такое диффузионные модели?
Согласно исследовательской статье “Диффузионные вероятностные модели“, диффузионные модели определяются как:
«Диффузионная модель или вероятностная диффузионная модель – это параметризованная марковская цепь, обученная с помощью вариационного вывода для получения образцов, соответствующих данным после конечного времени»
Проще говоря, диффузионные модели могут генерировать данные, подобные тем, на которых они были обучены. Если модель обучена на изображениях кошек, она может генерировать реалистичные изображения кошек.
Теперь давайте попробуем разобрать техническое определение, упомянутое выше. Диффузионные модели черпают вдохновение из принципа работы и математической основы вероятностной модели, которая может анализировать и прогнозировать поведение системы, меняющейся во времени, например, прогнозирование доходности фондового рынка или распространения пандемии.
Определение гласит, что они являются параметризованными марковскими цепями, обученными с помощью вариационного вывода. Марковские цепи – это математические модели, которые определяют систему, которая переключает между различными состояниями во времени. Существующее состояние системы может определить только вероятность перехода в определенное состояние. Другими словами, текущее состояние системы содержит возможные состояния, которые система может принять или приобрести в любой момент времени.
Обучение модели с помощью вариационного вывода включает сложные расчеты вероятностных распределений. Его цель – найти точные параметры марковской цепи, соответствующие наблюдаемым (известным или фактическим) данным после определенного времени. Этот процесс минимизирует значение функции потерь модели, которая представляет собой разницу между прогнозируемым (неизвестным) и наблюдаемым (известным) состоянием.
После обучения модель может генерировать образцы, соответствующие наблюдаемым данным. Эти образцы представляют возможные траектории или состояния, которые система могла бы принять или приобрести во времени, и каждая траектория имеет разную вероятность возникновения. Следовательно, модель может прогнозировать будущее поведение системы, генерируя набор образцов и определяя их вероятности (вероятность этих событий).
Как интерпретировать диффузионные модели в ИИ?
Диффузионные модели – это глубокие генеративные модели, которые работают путем добавления шума (гауссовского шума) к доступным данным (также известному как прямой процесс диффузии) и затем обратного процесса (известного как денойзинг или обратный процесс диффузии) для восстановления данных. Модель постепенно учится удалять шум. Этот обученный процесс денойзинга генерирует новые высококачественные изображения из случайных семян (случайных зашумленных изображений), как показано на иллюстрации ниже.

Обратный процесс диффузии: зашумленное изображение очищается для восстановления исходного изображения (или генерации его вариаций) с помощью обученной диффузионной модели. Источник: Диффузионные вероятностные модели
3 категории диффузионных моделей
Существуют три фундаментальных математических основы, которые лежат в основе науки о диффузионных моделях. Все три основаны на принципах добавления шума и его удаления для генерации новых образцов. Давайте рассмотрим их ниже.

Диффузионная модель добавляет и удаляет шум из изображения. Источник: Диффузионные модели в компьютерном зрении: обзор
1. Деноизинг-диффузионные вероятностные модели (DDPM)
Как упоминалось выше, DDPM – это генеративные модели, в основном используемые для удаления шума из визуальных или аудиоданных. Они показали впечатляющие результаты на различных задачах удаления шума из изображений и аудио. Например, кинематографическая промышленность использует современные инструменты обработки изображений и видео для улучшения качества производства.
2. Модели генерации на основе оценки шума (SGM)
SGM могут генерировать новые образцы из заданного распределения. Они работают путем обучения оценочной функции оценки, которая может оценить логарифмическую плотность целевого распределения. Оценка логарифмической плотности делает предположения для доступных данных, что они являются частью неизвестного набора данных (тестового набора). Эта функция оценки может затем генерировать новые данные из распределения.
Например, глубокие фейки известны тем, что производят фальшивые видео и аудио знаменитостей. Но они в основном связаны с генеративными противостоящими сетями (GAN). Однако SGM показали аналогичные возможности – иногда превосходя – в генерации высококачественных изображений знаменитостей. Кроме того, SGM могут помочь расширить наборы данных здравоохранения, которые не легко доступны в больших количествах из-за строгих правил и отраслевых стандартов.
3. Стохастические дифференциальные уравнения (SDE)
SDE описывают изменения случайных процессов во времени. Они широко используются в физике и финансовых рынках, включающих случайные факторы, которые существенно влияют на результаты рынка.
Например, цены на товары очень динамичны и подвержены влиянию ряда случайных факторов. SDE рассчитывают финансовые деривативы, такие как фьючерсные контракты (например, контракты на нефть). Они могут моделировать колебания и точно рассчитать благоприятные цены, чтобы дать представление о безопасности.
Основные применения диффузионных моделей в ИИ
Давайте рассмотрим некоторые широко распространенные практики и применения диффузионных моделей в ИИ.
Генерация высококачественных видео
Создание высококачественных видео с помощью глубокого обучения является сложной задачей, поскольку для этого требуется высокая непрерывность кадров видео. Именно здесь диффузионные модели могут помочь, поскольку они могут генерировать подмножество кадров видео для заполнения пропущенных кадров, в результате чего получаются высококачественные и плавные видео без задержек.
Исследователи разработали гибкую диффузионную модель и остаточную диффузию видео для этой цели. Эти модели также могут производить реалистичные видео, бесшовно добавляя кадры, сгенерированные ИИ, между фактическими кадрами.
Эти модели могут просто расширить частоту кадров (FPS) видео с низкой частотой кадров, добавляя фальшивые кадры после обучения на доступных кадрах. С почти полным отсутствием потери кадров эти рамки также могут помочь моделям глубокого обучения генерировать видео на основе ИИ изначально, которые выглядят как натуральные съемки с высококачественных камер.
Широкий спектр замечательных генераторов видео ИИ доступен в 2023 году, чтобы сделать производство и редактирование видеоконтента быстрым и простым.
Генерация изображений из текста
Модели генерации изображений из текста используют входные запросы для генерации высококачественных изображений. Например, введение “красное яблоко на тарелке” и получение фотореалистичного изображения яблока на тарелке. Смешанная диффузия и unCLIP – это два заметных примера таких моделей, которые могут генерировать высокорелевантные и точные изображения на основе пользовательского ввода.
Кроме того, GLIDE от OpenAI – это еще один широко известный решение, выпущенный в 2021 году, которое производит фотореалистичные изображения с помощью пользовательского ввода. Позже OpenAI выпустила DALL.E-2, свою наиболее продвинутую модель генерации изображений на данный момент.
Аналогично, Google разработала модель генерации изображений, известную как Imagen, которая использует большую языковую модель для разработки глубокого текстового понимания входного текста и затем генерирует фотореалистичные изображения.
Мы упоминали другие популярные инструменты генерации изображений, такие как Midjourney и Stable Diffusion (DreamStudio). Посмотрите на изображение, сгенерированное с помощью Stable Diffusion ниже.

Изображение, созданное с помощью Stable Diffusion 1.5 с помощью следующего запроса: «коллажи, гиперреалистичные, много вариаций портрета очень старого Тома Йорка, вариации лица, певец и автор песен, (профиль) профиль, различные возрасты, макрообъектив, лиминальное пространство, Ли Бермехо, Альфонс Муха и Грег Рутковский, седобородый, гладкое лицо, скулы»
Диффузионные модели в ИИ – Что ожидать в будущем?
Диффузионные модели показали перспективный потенциал как прочный подход к генерации высококачественных образцов из сложных наборов изображений и видео. Улучшая способность человека использовать и манипулировать данными, диффузионные модели могут потенциально революционизировать мир, который мы видим сегодня. Мы можем ожидать увидеть еще больше применений диффузионных моделей, которые становятся неотъемлемой частью нашей повседневной жизни.
Сказав это, диффузионные модели – не единственный генеративный метод ИИ. Исследователи также используют генеративные противостоящие сети (GAN), вариационные автокодировщики и потоковые глубокие генеративные модели для генерации контента ИИ. Понимание фундаментальных характеристик, которые отличают диффузионные модели от других генеративных моделей, может помочь создать более эффективные решения в ближайшие дни.
Чтобы узнать больше об ИИ-основанных технологиях, посетите Unite.ai. Посмотрите наши отобранные ресурсы о генеративном ИИ ниже.












