Artificial Intelligence

Диффузионные модели в ИИ — все, что вам нужно знать

опубликованный

1 год назад

31 марта 2023

Коллаж из человеческих лиц, созданный с помощью генератора изображений AI

В экосистеме ИИ модели распространения задают направление и темпы технологического прогресса. Они революционизируют наш подход к сложным генеративный ИИ задания. Эти модели основаны на математических принципах Гаусса, дисперсии, дифференциальных уравнениях и порождающих последовательностях. (мы объясним технический жаргон ниже)

Современные продукты и решения, ориентированные на ИИ, разработанные Nvidia, Google, Adobe и OpenAI, поставили модели распространения в центр внимания. ДАЛЛ.Э 2, Стабильная диффузиякачества Середина пути являются яркими примерами моделей распространения, которые в последнее время широко распространены в Интернете. Пользователи предоставляют простое текстовое приглашение в качестве входных данных, и эти модели могут преобразовывать их в реалистичные изображения, такие как показанное ниже.

Изображение, созданное с помощью Midjourney v5 с использованием подсказки ввода: яркие калифорнийские маки. Источник: Середина пути

Давайте рассмотрим фундаментальные принципы работы моделей распространения и то, как они меняют направления и нормы мира, каким мы его видим сегодня.

Что такое диффузионные модели?

По данным исследовательского издания «Шумоподавление вероятностных моделей диффузии», модели диффузии определяются как:

«Модель диффузии или вероятностная модель диффузии — это параметризованная цепь Маркова, обученная с использованием вариационного вывода для создания выборок, соответствующих данным через конечное время».

Проще говоря, диффузионные модели могут генерировать данные, аналогичные тем, на которых они обучаются. Если модель обучается на изображениях кошек, она может генерировать похожие реалистичные изображения кошек.

Теперь давайте попробуем разобрать упомянутое выше техническое определение. Модели распространения черпают вдохновение из принципа работы и математической основы вероятностной модели, которая может анализировать и предсказывать поведение системы, которое меняется со временем, например прогнозировать доходность фондового рынка или распространение пандемии.

В определении говорится, что они представляют собой параметризованные цепи Маркова, обученные с помощью вариационного вывода. Цепи Маркова — это математические модели, которые определяют систему, которая переключается между различными состояниями с течением времени. Существующее состояние системы может определять только вероятность перехода в конкретное состояние. Другими словами, текущее состояние системы содержит возможные состояния, которым система может следовать или приобретать в любой момент времени.

Обучение модели с использованием вариационного вывода включает в себя сложные вычисления для вероятностных распределений. Он направлен на поиск точных параметров цепи Маркова, которые соответствуют наблюдаемым (известным или фактическим) данным через определенное время. Этот процесс минимизирует значение функции потерь модели, которая представляет собой разницу между прогнозируемым (неизвестным) и наблюдаемым (известным) состоянием.

После обучения модель может генерировать выборки, соответствующие наблюдаемым данным. Эти выборки представляют возможные траектории или состояние, которое система может следовать или приобретать с течением времени, и каждая траектория имеет разную вероятность возникновения. Следовательно, модель может предсказывать будущее поведение системы, генерируя ряд выборок и находя их соответствующие вероятности (вероятность того, что эти события произойдут).

Как интерпретировать диффузионные модели в ИИ?

Диффузионные модели — это глубокие генеративные модели, которые работают путем добавления шума (гауссова шума) к доступным обучающим данным (также известного как процесс прямой диффузии), а затем обращают процесс (известный как шумоподавление или процесс обратной диффузии) для восстановления данных. Модель постепенно учится убирать шум. Этот обученный процесс шумоподавления генерирует новые высококачественные изображения из случайных начальных значений (изображения со случайным шумом), как показано на рисунке ниже.

Процесс обратной диффузии: зашумленное изображение очищается для восстановления исходного изображения (или создания его вариаций) с помощью обученной модели диффузии. Источник: Шумоподавление вероятностных моделей диффузии

3 категории моделей распространения

Существуют три фундаментальные математические основы которые лежат в основе научных моделей диффузии. Все три работают по одним и тем же принципам: добавляют шум, а затем удаляют его для создания новых сэмплов. Давайте обсудим их ниже.

Модель диффузии добавляет и удаляет шум из изображения. Источник: Модели распространения в видении: обзор

1. Вероятностные модели шумоподавления (DDPM)

Как объяснялось выше, DDPM — это генеративные модели, которые в основном используются для удаления шума из визуальных или аудиоданных. Они показали впечатляющие результаты в различных задачах шумоподавления изображения и звука. Например, в киноиндустрии используются современные средства обработки изображений и видео для повышения качества продукции.

2. Шумообусловленные генеративные модели на основе оценок (SGM)

SGM могут генерировать новые выборки из заданного распределения. Они работают, изучая функцию оценочной оценки, которая может оценить логарифмическую плотность целевого распределения. Оценка плотности журнала делает предположения для доступных точек данных, что это часть неизвестного набора данных (тестового набора). Затем эта функция оценки может генерировать новые точки данных из распределения.

Например, глубокие подделки печально известны производством поддельных видео и аудио известных личностей. Но в основном они связаны с Генеративные состязательные сети (GAN). Тем не менее, SGM имеют показали схожие возможности — в разы превосходят – в создании высококачественных лиц знаменитостей. Кроме того, SGM могут помочь расширить наборы медицинских данных, которые недоступны в больших количествах из-за строгих правил и отраслевых стандартов.

3. Стохастические дифференциальные уравнения (СДУ)

СДУ описывают изменения случайных процессов во времени. Они широко используются в физике и на финансовых рынках с участием случайных факторов, которые существенно влияют на результаты рынка.

Например, цены на товары очень динамичны и зависят от ряда случайных факторов. SDE рассчитывают производные финансовые инструменты, такие как фьючерсные контракты (например, контракты на сырую нефть). Они могут моделировать колебания и точно рассчитывать благоприятные цены, чтобы чувствовать себя в безопасности.

Основные применения диффузионных моделей в ИИ

Давайте рассмотрим некоторые широко распространенные практики и способы использования моделей распространения в ИИ.

Генерация высококачественного видео

Создание высококачественных видеороликов с использованием глубокое обучение является сложной задачей, поскольку требует высокой непрерывности видеокадров. Именно здесь пригодятся диффузионные модели, поскольку они могут генерировать подмножество видеокадров, чтобы заполнить пропущенные кадры, что приводит к высококачественному и плавному видео без задержки.

Исследователи разработали Гибкая модель распространения и остаточное распространение видео методы, служащие этой цели. Эти модели также могут создавать реалистичные видео, плавно добавляя кадры, созданные ИИ, между фактическими кадрами.

Эти модели могут просто увеличивать FPS (количество кадров в секунду) видео с низким FPS, добавляя фиктивные кадры после изучения шаблонов из доступных кадров. Почти без потери кадров эти фреймворки могут дополнительно помочь моделям на основе глубокого обучения создавать с нуля видео на основе ИИ, которые выглядят как естественные кадры с высококачественных камер.

Широкий спектр замечательных Генераторы ИИ-видео будет доступен в 2023 году, чтобы сделать создание и редактирование видеоконтента быстрым и простым.

Генерация текста в изображение

Модели преобразования текста в изображение используют подсказки ввода для создания высококачественных изображений. Например, ввод «красное яблоко на тарелке» и создание фотореалистичного изображения яблока на тарелке. Смешанная диффузия и ОТКЛИП являются двумя яркими примерами таких моделей, которые могут генерировать очень релевантные и точные изображения на основе пользовательского ввода.

Таким образом, GLIDE от OpenAI — еще одно широко известное решение, выпущенное в 2021 году и создающее фотореалистичные изображения с использованием пользовательского ввода. Позже OpenAI выпустила DALL.E-2, свою самую продвинутую модель генерации изображений.

Точно так же Google также разработал модель генерации изображений, известную как Изображение, который использует большую языковую модель для глубокого понимания введенного текста, а затем создает фотореалистичные изображения.

Мы упомянули другие популярные инструменты для создания изображений, такие как Midjourney и Stable Diffusion (DreamStudio) выше. Взгляните на изображение, созданное с помощью Stable Diffusion ниже.

Коллаж из человеческих лиц, созданный с помощью Stable Diffusion 1.5.

Изображение, созданное с помощью Stable Diffusion 1.5 с использованием следующей подсказки: «коллажи, гиперреалистичные, множество вариаций портрета очень старого Тома Йорка, вариации лица, певец и автор песен, (боковой) профиль, разный возраст, макрообъектив, лиминальное пространство, Ли Бермеджо, Альфонс Муха и Грег Рутковски, седая борода, гладкое лицо, скулы»

Диффузионные модели в ИИ — чего ожидать в будущем?

Диффузионные модели показали многообещающий потенциал в качестве надежного подхода к созданию высококачественных выборок из сложных наборов изображений и видеоданных. Улучшая способность человека использовать данные и манипулировать ими, диффузионные модели потенциально могут революционизировать мир, каким мы его видим сегодня. Мы можем ожидать, что еще больше приложений диффузионных моделей станут неотъемлемой частью нашей повседневной жизни.

При этом диффузионные модели — не единственная техника генеративного ИИ. Исследователи также используют генеративно-состязательные сети (GAN), вариационные автоассоциатор, а также модели глубокой генерации на основе потоков для создания контента ИИ. Понимание фундаментальных характеристик, которые отличают диффузионные модели от других генеративных моделей, может помочь найти более эффективные решения в ближайшие дни.

Чтобы узнать больше о технологиях на основе ИИ, посетите Unite.ai. Ознакомьтесь с нашими тщательно отобранными ресурсами по генеративным инструментам искусственного интеллекта ниже.