Connect with us

ИИ 101

Модели диффузии в ИИ – Все, что вам нужно знать

mm
A collage of human faces created using AI image generator

В экосистеме ИИ модели диффузии задают направление и темп технологического прогресса. Они революционизируют подход к сложным задачам генеративного ИИ. Эти модели основаны на математике гауссовских принципов, дисперсии, дифференциальных уравнений и генеративных последовательностей. (Мы объясним технические термины ниже)

Современные продукты и решения, разработанные компаниями Nvidia, Google, Adobe и OpenAI, поставили модели диффузии в центр внимания. DALL.E 2, Stable Diffusion и Midjourney – это заметные примеры моделей диффузии, которые в последнее время делают круги на интернете. Пользователи предоставляют простой текстовый запрос в качестве входных данных, и эти модели могут преобразовать их в реалистичные изображения, такие как показано ниже.

Изображение, сгенерированное с помощью Midjourney v5 с использованием входного запроса: яркие калифорнийские маковые цветы.

Изображение, сгенерированное с помощью Midjourney v5 с использованием входного запроса: яркие калифорнийские маковые цветы. Источник: Midjourney

Давайте исследуем основные принципы работы моделей диффузии и то, как они меняют направления и нормы мира, который мы видим сегодня.

Что такое модели диффузии?

Согласно исследовательской публикации “Модели вероятностной диффузии с шумоподавлением“, модели диффузии определяются как:

“Модель диффузии или вероятностная модель диффузии – это параметризованная марковская цепь, обучаемая с помощью вариационного вывода для получения образцов, совпадающих с данными после конечного времени”

Просто говоря, модели диффузии могут генерировать данные, подобные тем, на которых они обучены. Если модель обучается на изображениях кошек, она может генерировать реалистичные изображения кошек.

Теперь давайте попробуем разобрать техническое определение, упомянутое выше. Модели диффузии черпают вдохновение из принципа работы и математической основы вероятностной модели, которая может анализировать и прогнозировать поведение системы, меняющейся во времени, такой как прогнозирование возврата акций или распространения пандемии.

Определение гласит, что они являются параметризованными марковскими цепями, обучаемыми с помощью вариационного вывода. Марковские цепи – это математические модели, определяющие систему, которая переключает между различными состояниями во времени. Существующее состояние системы может определить только вероятность перехода к определенному состоянию. Другими словами, текущее состояние системы содержит возможные состояния, которые система может принять или получить в любой момент времени.

Обучение модели с помощью вариационного вывода включает сложные расчеты для вероятностных распределений. Его цель – найти точные параметры марковской цепи, которые соответствуют наблюдаемым (известным или фактическим) данным после определенного времени. Этот процесс минимизирует значение функции потерь модели, которая представляет собой разницу между прогнозируемым (неизвестным) и наблюдаемым (известным) состоянием.

После обучения модель может генерировать образцы, совпадающие с наблюдаемыми данными. Эти образцы представляют возможные траектории или состояния, которые система может принять или получить во времени, и каждая траектория имеет разную вероятность возникновения. Следовательно, модель может прогнозировать будущее поведение системы, генерируя набор образцов и находя их вероятности (вероятность этих событий).

Как интерпретировать модели диффузии в ИИ?

Модели диффузии – это глубокие генеративные модели, которые работают путем добавления шума (гауссовского шума) к доступным обучающим данным (также известным как прямой процесс диффузии) и затем обратного процесса (известного как шумоподавление или обратный процесс диффузии) для восстановления данных. Модель постепенно учится удалять шум. Этот обученный процесс шумоподавления генерирует новые высококачественные изображения из случайных семян (случайных шумных изображений), как показано на иллюстрации ниже.

Обратный процесс диффузии: шумное изображение очищается для восстановления исходного изображения (или генерации его вариаций) с помощью обученной модели диффузии.

Обратный процесс диффузии: шумное изображение очищается для восстановления исходного изображения (или генерации его вариаций) с помощью обученной модели диффузии. Источник: Модели вероятностной диффузии с шумоподавлением

3 категории моделей диффузии

Существуют три фундаментальных математических框ки, которые лежат в основе науки о моделях диффузии. Все три работают на одних и тех же принципах добавления шума и затем удаления его для генерации новых образцов. Давайте обсудим их ниже.

Модель диффузии добавляет и удаляет шум из изображения.

Модель диффузии добавляет и удаляет шум из изображения. Источник: Модели диффузии в области зрения: обзор

1. Модели вероятностной диффузии с шумоподавлением (DDPMs)

Как объяснялось выше, DDPMs – это генеративные модели, в основном используемые для удаления шума из визуальных или аудиоданных. Они показали впечатляющие результаты на различных задачах удаления шума из изображений и аудио. Например, кинематографическая промышленность использует современные инструменты обработки изображений и видео для улучшения качества производства.

2. Модели генерации на основе оценки шума (SGMs)

SGMs могут генерировать новые образцы из заданного распределения. Они работают путем обучения оценочной функции счета, которая может оценить логарифмическую плотность целевого распределения. Оценка логарифмической плотности делает предположения о доступных данных, что они являются частью неизвестной выборки (тестовой выборки). Эта функция счета может затем генерировать новые данные из распределения.

Например, глубокие фейки известны тем, что производят фальшивые видео и аудио знаменитостей. Но они в основном приписываются сетям генеративных противостояний (GANs). Однако SGMs показали аналогичные возможности – иногда превосходя – в генерации высококачественных изображений знаменитостей. Кроме того, SGMs могут помочь расширить наборы данных здравоохранения, которые не легко доступны в больших количествах из-за строгих правил и отраслевых стандартов.

3. Стохастические дифференциальные уравнения (SDEs)

SDEs описывают изменения случайных процессов во времени. Они широко используются в физике и финансовых рынках, включающих случайные факторы, которые существенно влияют на результаты рынка.

Например, цены на товары очень динамичны и зависят от ряда случайных факторов. SDEs рассчитывают финансовые деривативы, такие как фьючерсные контракты (например, контракты на нефть). Они могут моделировать колебания и рассчитывать благоприятные цены точно, чтобы дать чувство безопасности.

Основные применения моделей диффузии в ИИ

Давайте посмотрим на некоторые широко распространенные применения моделей диффузии в ИИ.

Генерация высококачественных видео

Создание высококачественных видео с помощью глубокого обучения является сложной задачей, поскольку оно требует высокой непрерывности кадров видео. Именно здесь модели диффузии приходят на помощь, поскольку они могут генерировать подмножество кадров видео для заполнения пропущенных кадров, в результате чего получаются высококачественные и плавные видео без задержки.

Исследователи разработали гибкую модель диффузии и остаточную диффузию видео для этой цели. Эти модели также могут производить реалистичные видео, бесшовно добавляя сгенерированные ИИ-кадры между фактическими кадрами.

Эти модели могут просто расширить частоту кадров (кадров в секунду) видео с низкой частотой кадров, добавляя фальшивые кадры после обучения на доступных кадрах. С почти полным отсутствием потери кадров эти框ки могут дальнейшим образом помочь моделям, основанным на глубоком обучении, генерировать видео на основе ИИ изначально, которые выглядят как естественные снимки с высококачественных камер.

Широкий спектр замечательных генераторов видео ИИ доступен в 2023 году, чтобы сделать производство и редактирование видеоконтента быстрым и простым.

Генерация изображений по тексту

Модели генерации изображений по тексту используют входные запросы для генерации высококачественных изображений. Например, введение “красное яблоко на тарелке” и получение фотореалистичного изображения яблока на тарелке. Смешанная диффузия и unCLIP – это два заметных примера таких моделей, которые могут генерировать высокореlevantные и точные изображения на основе ввода пользователя.

Кроме того, GLIDE от OpenAI – это еще один широко известный решений, выпущенный в 2021 году, который производит фотореалистичные изображения с помощью ввода пользователя. Позже OpenAI выпустил DALL.E-2, свою самую совершенную модель генерации изображений.

Аналогично, Google разработал модель генерации изображений, известную как Imagen, которая использует большую языковую модель для разработки глубокого текстового понимания ввода и затем генерирует фотореалистичные изображения.

Мы упоминали другие популярные инструменты генерации изображений, такие как Midjourney и Stable Diffusion (DreamStudio). Посмотрите на изображение, сгенерированное с помощью Stable Diffusion ниже.

Коллаж человеческих лиц, созданный с помощью Stable Diffusion 1.5

Изображение, созданное с помощью Stable Diffusion 1.5 с использованием следующего запроса: “коллажи, гиперреалистичные, много вариаций портрета очень старого Тома Йорка, вариации лица, певец и композитор, (боковой) профиль, различные возрасты, макрообъектив, лиминальное пространство, Ли Бермехо, Альфонс Муха и Грег Рутковски, седобородый, гладкое лицо, скулы”

Модели диффузии в ИИ – Что ожидать в будущем?

Модели диффузии показали перспективный потенциал как прочный подход к генерации высококачественных образцов из сложных наборов изображений и видео. Улучшая человеческую способность использовать и манипулировать данными, модели диффузии могут потенциально революционизировать мир, который мы видим сегодня. Мы можем ожидать увидеть еще больше применений моделей диффузии, становящихся неотъемлемой частью нашей повседневной жизни.

Сказав это, модели диффузии – не единственная техника генеративного ИИ. Исследователи также используют сети генеративных противостояний (GANs), вариационные автокодировщики и потоковые глубокие генеративные модели для генерации контента ИИ. Понимание фундаментальных характеристик, которые отличают модели диффузии от других генеративных моделей, может помочь создать более эффективные решения в ближайшие дни.

Чтобы узнать больше об ИИ-технологиях, посетите Unite.ai. Проверьте наши отобранные ресурсы о генеративных инструментах ИИ ниже.

Haziqa является Data Scientist с обширным опытом написания технического контента для компаний AI и SaaS.