Свяжитесь с нами:

Модель диффузии eDiffi от NVIDIA позволяет «рисовать словами» и многое другое

Искусственный интеллект

Модель диффузии eDiffi от NVIDIA позволяет «рисовать словами» и многое другое

mm

Попытка создать точную композицию с помощью моделей генеративного изображения со скрытой диффузией, таких как Стабильная диффузия может быть как пасущиеся кошки; те же самые способности к воображению и интерпретации, которые позволяют системе создавать экстраординарные детали и вызывать экстраординарные образы из относительно простых текстовых подсказок, также сложно выключить когда вам нужен контроль над созданием изображения на уровне Photoshop.

Теперь новый подход исследований NVIDIA под названием ансамблевая диффузия для изображений (eDiffi) использует сочетание нескольких методов встраивания и интерпретации (а не один и тот же метод на всем протяжении конвейера), чтобы обеспечить гораздо более высокий уровень контроля над генерируемым контентом. В приведенном ниже примере мы видим, как пользователь рисует элементы, где каждый цвет представляет собой одно слово из текстовой подсказки:

«Рисование словами» — одна из двух новых возможностей диффузионной модели NVIDIA eDiffi. Каждый нарисованный цвет представляет собой слово из подсказки (см., как они появляются слева во время генерации), и применяемый цвет области будет состоять только из этого элемента. Смотрите в конце статьи встроенное официальное видео с большим количеством примеров и лучшим разрешением. Источник: https://www.youtube.com/watch?v=k6cOx9YjHJc

«Рисование словами» — одна из двух новых возможностей модели диффузии NVIDIA eDiffi. Каждый нанесённый цвет представляет собой слово из подсказки (они отображаются слева во время генерации), и применяемый цвет области будет состоять только из этого элемента. Смотрите исходное (официальное) видео для получения дополнительных примеров и лучшего разрешения по адресу https://www.youtube.com/watch?v=k6cOx9YjHJc

По сути, это «живопись с масками», которая меняет местами iпарадигма живописи в Stable Diffusion, который основан на исправлении сломанных или неудовлетворительных изображений или расширении изображений, которые, в первую очередь, также могли иметь желаемый размер.

Здесь вместо этого поля нарисованной мазни представляют собой допустимые приблизительные границы только одного уникального элемента из одной концепции, что позволяет пользователю с самого начала установить окончательный размер холста, а затем дискретно добавлять элементы.

Примеры из новой статьи. Источник: https://arxiv.org/pdf/2211.01324.pdf

Примеры из новой статьи. Источник: https://arxiv.org/pdf/2211.01324.pdf

Разнообразные методы, используемые в eDiffi, также означают, что система гораздо лучше справляется с включением каждого элемента в длинные и подробные подсказки, в то время как Stable Diffusion и DALL-E 2 от OpenAI, как правило, отдают приоритет определенным частям подсказки в зависимости либо от того, насколько рано целевые слова появляются в подсказке, либо от других факторов, таких как потенциальная сложность в разделении различных элементов, необходимых для полной, но всеобъемлющей (по отношению к тексту-подсказке) композиции:

Из документа: eDiffi способен более тщательно повторять подсказку, пока не будет отрисовано максимально возможное количество элементов. Хотя улучшенные результаты для eDiffi (крайний правый столбец) выбраны лучше всех, так же как и сравнительные изображения из Stable Diffusion и DALL-E 2.

Из документа: eDiffi способен более тщательно повторять подсказку, пока не будет отрисовано максимально возможное количество элементов. Хотя улучшенные результаты для eDiffi (крайний правый столбец) выбраны лучше всех, так же как и сравнительные изображения из Stable Diffusion и DALL-E 2.

Кроме того, использование специального T5 кодировщик текста в текст означает, что eDiffi способен отображать понятный текст на английском языке, либо абстрактно запрошенный из подсказки (т.е. изображение содержит некоторый текст [x]) или явно запрашивается (т.е. на футболке написано «Nvidia Rocks»):

Специальная обработка текста в текст в eDiffi означает, что текст может быть воспроизведен дословно в изображениях, а не только через слой интерпретации текста в изображение, что искажает вывод.

Специальная обработка текста в текст в eDiffi означает, что текст может быть воспроизведен дословно в изображениях, а не только через слой интерпретации текста в изображение, что искажает вывод.

Еще одним преимуществом новой платформы является возможность предоставления одного изображения в качестве подсказки по стилю, вместо необходимости обучения модели DreamBooth или текстового встраивания на нескольких примерах жанра или стиль.

Перенос стиля можно применить из эталонного изображения в подсказку преобразования текста в изображение или даже в подсказку преобразования изображения в изображение.

Перенос стиля можно применить из эталонного изображения в подсказку преобразования текста в изображение или даже в подсказку преобразования изображения в изображение.

Радиус корня Новый документ называется eDiffi: модели диффузии текста в изображение с ансамблем экспертных шумоподавителей и

Текстовый кодировщик T5

Использование T от GoogleExt-to-Text Transfer Transformer (T5) является ключевым элементом улучшенных результатов, продемонстрированных в eDiffi. В среднем конвейер латентной диффузии основан на связи между обученными изображениями и подписями, которые сопровождали их, когда они были извлечены из Интернета (или позже откорректированы вручную, хотя это дорогостоящее и, следовательно, редкое вмешательство).

Из статьи за июль 2020 года для T5 — текстовые преобразования, которые могут помочь в рабочем процессе создания изображений в eDiffi (и, возможно, в других моделях скрытой диффузии). Источник: https://arxiv.org/pdf/1910.10683.pdf

Из статьи за июль 2020 года для T5 — текстовые преобразования, которые могут помочь в рабочем процессе создания изображений в eDiffi (и, возможно, в других моделях скрытой диффузии). Источник: https://arxiv.org/pdf/1910.10683.pdf

Перефразируя исходный текст и запуская модуль T5, можно получить более точные ассоциации и представления, чем те, которые были изначально обучены в модели, почти как постфактум ручная маркировка, с большей конкретностью и применимостью к положениям запрошенной текстовой подсказки.

Авторы поясняют:

«В большинстве существующих работ по моделям диффузии модель шумоподавления используется для всех уровней шума, а временная динамика представлена ​​с использованием простого временного вложения, которое подается в модель шумоподавления через сеть MLP. Мы утверждаем, что сложная временная динамика диффузии шумоподавления не может быть изучена из данных эффективно с использованием общей модели с ограниченной емкостью.

«Вместо этого мы предлагаем масштабировать производительность модели шумоподавления, введя ансамбль экспертов-шумоподавителей; каждый эксперт-шумоподавитель представляет собой специализированную модель шумоподавления для определённого диапазона [уровней] шума. Таким образом, мы можем увеличить производительность модели, не замедляя сэмплирование, поскольку вычислительная сложность оценки [обрабатываемого элемента] на каждом уровне шума остаётся одинаковой».

Концептуальный рабочий процесс для eDiffi.

Концептуальный рабочий процесс для eDiffi.

Существующая CLIP Модули кодирования, включенные в DALL-E 2 и Stable Diffusion, также способны находить альтернативные интерпретации изображений для текста, связанного с вводом пользователем. Однако они обучаются на той же информации, что и исходная модель, и не используются в качестве отдельного уровня интерпретации, как T5 в eDiffi.

Авторы заявляют, что eDiffi — это первый случай, когда кодировщик T5 и CLIP были объединены в один конвейер:

«Поскольку эти два кодировщика обучаются с разными целями, их встраивания способствуют формированию разных изображений с одним и тем же входным текстом. В то время как встраивание текста CLIP помогает определить общий вид сгенерированных изображений, выходные данные, как правило, пропускают мелкие детали текста.

«Напротив, изображения, созданные только с использованием вложений текста T5, лучше отражают отдельные объекты, описанные в тексте, но их общий вид менее точен. Совместное использование этих двух подходов даёт наилучшие результаты генерации изображений в нашей модели».

Прерывание и усиление процесса диффузии

В документе отмечается, что типичная модель скрытой диффузии начнет путь от чистого шума к изображению, полагаясь исключительно на текст на ранних этапах генерации.

Когда шум превращается в какой-то грубый макет, представляющий описание в текстовой подсказке, аспект процесса, управляемый текстом, по существу исчезает, а остальная часть процесса смещается в сторону увеличения визуальных функций.

Это означает, что любой элемент, который не был разрешен на зарождающемся этапе интерпретации шума с помощью текста, будет трудно внедрить в изображение позже, потому что два процесса (текст-макет и макет-изображение) относительно мало перекрываются. , и базовая компоновка довольно запутана к тому времени, когда она достигает процесса увеличения изображения.

Из статьи: карты внимания различных частей конвейера по мере созревания процесса шум>изображение. Мы можем видеть резкое снижение влияния CLIP изображения в нижнем ряду, в то время как T5 продолжает влиять на изображение гораздо дальше в процессе рендеринга.

Из статьи: карты внимания различных частей конвейера по мере созревания процесса шум>изображение. Мы можем видеть резкое снижение влияния CLIP изображения в нижнем ряду, в то время как T5 продолжает влиять на изображение гораздо дальше в процессе рендеринга.

Профессиональный потенциал

Примеры на странице проекта и в видеоцентре YouTube по PR-дружественной генерации мемо-татичных милых изображений. Как обычно, исследования NVIDIA преуменьшают потенциал своих последних инноваций для улучшения фотореалистичных рабочих процессов или визуальных эффектов, а также их потенциал для улучшения дипфейковых изображений и видео.

В примерах пользователь-новичок или любитель набрасывает грубые контуры размещения определенного элемента, тогда как в более систематическом рабочем процессе VFX можно было бы использовать eDiffi для интерпретации нескольких кадров видеоэлемента с использованием преобразования текста в изображение, при этом контуры очень точны и основаны, например, на фигурах, где фон был удален с помощью зеленого экрана или алгоритмических методов.

Runway ML уже обеспечивает ротоскопирование на основе ИИ. В этом примере «зеленый экран» вокруг объекта представляет собой альфа-слой, в то время как извлечение было выполнено с помощью машинного обучения, а не алгоритмического удаления реального фона зеленого экрана. Источник: https://twitter.com/runwayml/status/1330978385028374529

Runway ML уже поддерживает ротоскопирование на базе ИИ. В этом примере «зелёный экран» вокруг объекта представляет собой альфа-слой, а извлечение было выполнено с помощью машинного обучения, а не алгоритмического удаления реального зелёного фона. Источник: https://twitter.com/runwayml/status/1330978385028374529

Использование обученного будка мечты символов и конвейера преобразования изображений в изображения с помощью eDiffi, потенциально возможно начать выявлять одну из проблем любое Модель скрытой диффузии: временная стабильность. В этом случае как границы наложенного изображения, так и его содержимое будут «предварительно плавать» на пользовательском холсте, а временная непрерывность визуализированного контента (т.е. превращение реального практикующего тайцзи в робота) будет обеспечиваться использованием заблокированной модели DreamBooth, «запомнившей» свои тренировочные данные — это плохо для интерпретируемости, но хорошо для воспроизводимости, точности и непрерывности.

Метод, данные и тесты

В статье говорится, что модель eDiffi была обучена на «коллекции общедоступных и частных наборов данных», подвергнутых тщательной фильтрации с помощью предварительно обученной модели CLIP, чтобы исключить изображения, которые могут снизить общую эстетическую оценку выходных данных. Итоговый отфильтрованный набор изображений содержит «около миллиарда» пар «текст-изображение». Размер обученных изображений описывается как «с наименьшей стороной более 64 пикселей».

Для этого процесса было обучено несколько моделей, причем базовые модели и модели с супер-разрешением обучались на АдамВ оптимизатор со скоростью обучения 0.0001, снижением веса 0.01 и внушительным размером пакета 2048.

Базовая модель обучалась на 256 графических процессорах NVIDIA A100, а две модели с супер-разрешением — на 128 графических процессорах NVIDIA. A100 GPU для каждой модели.

Система была основана на собственной разработке NVIDIA Воображаемый Библиотека PyTorch. Кокос и наборы данных Visual Genome использовались для оценки, хотя и не были включены в окончательные модели, с МС-КОКО конкретный вариант, используемый для тестирования. Протестированные конкурирующие системы были GLIDE, Сделать сцену, ДАЛЛ-Э 2, Стабильная диффузияи две системы синтеза изображений Google, Изображение и Части.

В соответствии с аналогичным предшествующий работает, нулевой выстрел ФИД-30К использовалась в качестве оценочной метрики. В соответствии с FID-30K из проверочного набора COCO случайным образом извлекаются 30,000 XNUMX подписей (т. е. не изображения или текст, используемые при обучении), которые затем использовались в качестве текстовых подсказок для синтеза изображений.

Начальное расстояние Фреше (FID) между сгенерированными и наземными изображениями затем рассчитывали, в дополнение к записи оценки CLIP для сгенерированных изображений.

Результаты тестов FID с нулевым выстрелом в сравнении с современными подходами в наборе данных проверки COCO 2014, с более низкими результатами лучше.

Результаты тестов FID с нулевым выстрелом в сравнении с современными подходами в наборе данных проверки COCO 2014, с более низкими результатами лучше.

В результате eDiffi удалось получить самую низкую (лучшую) оценку по FID с нулевым выстрелом даже в сравнении с системами с гораздо большим количеством параметров, например, с 20 миллиардами параметров Parti, по сравнению с 9.1 миллиардами параметров в самой высокой системе. специфицированная модель eDiffi, подготовленная для испытаний.

Заключение

eDiffi от NVIDIA представляет собой долгожданную альтернативу простому добавлению все больших объемов данных и усложнению существующих систем. Вместо этого используется более интеллектуальный и многоуровневый подход к некоторым из самых сложных препятствий, связанных с запутанностью и невозможностью редактирования в системах генерации изображений на основе скрытой диффузии.

В сабреддитах Stable Diffusion и Discord уже обсуждается либо прямое включение любого кода, который может быть доступен для eDiffi, либо повторная постановка принципов, лежащих в его основе, в отдельной реализации. Новый конвейер, однако, настолько радикально отличается, что он представляет собой целый номер версии изменений для SD, отбрасывая некоторую обратную совместимость, но предлагая возможность значительно улучшенных уровней контроля над окончательными синтезированными изображениями, не жертвуя захватывающим творческие способности скрытой диффузии.

 

Впервые опубликовано 3 ноября 2022 г.