Artificial Intelligence

Модель диффузии eDiffi от NVIDIA позволяет «рисовать словами» и многое другое

обновленный on 9 декабря 2022

Попытка создать точную композицию с помощью моделей генеративного изображения со скрытой диффузией, таких как Стабильная диффузия может быть как пасущиеся кошки; те же самые способности к воображению и интерпретации, которые позволяют системе создавать экстраординарные детали и вызывать экстраординарные образы из относительно простых текстовых подсказок, также сложно выключить когда вам нужен контроль над созданием изображения на уровне Photoshop.

Теперь новый подход исследований NVIDIA под названием ансамблевая диффузия для изображений (eDiffi) использует сочетание нескольких методов встраивания и интерпретации (а не один и тот же метод на всем протяжении конвейера), чтобы обеспечить гораздо более высокий уровень контроля над генерируемым контентом. В приведенном ниже примере мы видим, как пользователь рисует элементы, где каждый цвет представляет собой одно слово из текстовой подсказки:

«Рисование словами» — одна из двух новых возможностей диффузионной модели NVIDIA eDiffi. Каждый нарисованный цвет представляет собой слово из подсказки (см., как они появляются слева во время генерации), и применяемый цвет области будет состоять только из этого элемента. См. исходное (официальное) видео для получения дополнительных примеров и лучшего разрешения на https://www.youtube.com/watch?v=k6cOx9YjHJc

По сути, это «рисование масками», переворачивающее iпарадигма живописи в Stable Diffusion, который основан на исправлении сломанных или неудовлетворительных изображений или расширении изображений, которые, в первую очередь, также могли иметь желаемый размер.

Здесь вместо этого поля нарисованной мазни представляют собой допустимые приблизительные границы только одного уникального элемента из одной концепции, что позволяет пользователю с самого начала установить окончательный размер холста, а затем дискретно добавлять элементы.

Примеры из новой статьи. Источник: https://arxiv.org/pdf/2211.01324.pdf

Разнообразные методы, используемые в eDiffi, также означают, что система гораздо лучше справляется с включением каждого элемента в длинные и подробные подсказки, в то время как Stable Diffusion и OpenAI DALL-E 2, как правило, отдают приоритет определенным частям подсказки в зависимости от того, насколько рано целевые слова появляются в подсказке или на других факторах, таких как потенциальная сложность в распутывании различных элементов, необходимых для полной, но всеобъемлющей (по отношению к тексту-подсказке) композиции:

Из документа: eDiffi способен более тщательно повторять подсказку, пока не будет отрисовано максимально возможное количество элементов. Хотя улучшенные результаты для eDiffi (крайний правый столбец) выбраны лучше всех, так же как и сравнительные изображения из Stable Diffusion и DALL-E 2.

Кроме того, использование специального T5 кодировщик текста в текст означает, что eDiffi способен отображать понятный текст на английском языке, либо абстрактно запрошенный из подсказки (т.е. изображение содержит некоторый текст [x]) или явно запрашивается (т.е. на футболке написано "Nvidia Rocks"):

Специальная обработка текста в текст в eDiffi означает, что текст может быть воспроизведен дословно в изображениях, а не только через слой интерпретации текста в изображение, что искажает вывод.

Еще одним преимуществом новой структуры является то, что можно также предоставить одно изображение в качестве подсказки стиля, вместо того, чтобы обучать модель DreamBooth или текстовое встраивание на нескольких примерах жанра или стиль.

Перенос стиля можно применить из эталонного изображения в подсказку преобразования текста в изображение или даже в подсказку преобразования изображения в изображение.

Ассоциация Новый документ называется eDiffi: модели диффузии текста в изображение с ансамблем экспертных шумоподавителейи

Текстовый кодировщик T5

Использование Google TExt-to-Text Transfer Transformer (T5) является ключевым элементом улучшенных результатов, продемонстрированных в eDiffi. В среднем конвейер латентной диффузии основан на связи между обученными изображениями и подписями, которые сопровождали их, когда они были извлечены из Интернета (или позже откорректированы вручную, хотя это дорогостоящее и, следовательно, редкое вмешательство).

Из статьи за июль 2020 года для T5 — текстовые преобразования, которые могут помочь в рабочем процессе создания изображений в eDiffi (и, возможно, в других моделях скрытой диффузии). Источник: https://arxiv.org/pdf/1910.10683.pdf

Перефразируя исходный текст и запуская модуль T5, можно получить более точные ассоциации и представления, чем те, которые были изначально обучены в модели, почти как постфактум ручная маркировка, с большей конкретностью и применимостью к положениям запрошенной текстовой подсказки.

Авторы поясняют:

«В большинстве существующих работ по моделям диффузии модель шумоподавления используется для всех уровней шума, а временная динамика представлена с использованием простого временного вложения, которое подается в модель шумоподавления через сеть MLP. Мы утверждаем, что сложная временная динамика диффузии шумоподавления не может быть изучена из данных эффективно с использованием общей модели с ограниченной емкостью.

«Вместо этого мы предлагаем расширить возможности модели шумоподавления, введя ансамбль опытных шумоподавителей; каждый экспертный шумоподавитель представляет собой модель шумоподавления, специализированную для определенного диапазона [уровней] шума. Таким образом, мы можем увеличить пропускную способность модели, не замедляя выборку, поскольку вычислительная сложность оценки [обрабатываемого элемента] при каждом уровне шума остается неизменной».

Концептуальный рабочий процесс для eDiffi.

Существующий CLIP Модули кодирования, включенные в DALL-E 2 и Stable Diffusion, также способны находить альтернативные интерпретации изображений для текста, связанного с вводом пользователем. Однако они обучаются на той же информации, что и исходная модель, и не используются в качестве отдельного уровня интерпретации, как T5 в eDiffi.

Авторы заявляют, что eDiffi — это первый случай, когда кодировщик T5 и CLIP были объединены в один конвейер:

«Поскольку эти два кодировщика обучаются с разными целями, их встраивания способствуют формированию разных изображений с одним и тем же входным текстом. В то время как встраивание текста CLIP помогает определить общий вид сгенерированных изображений, выходные данные, как правило, пропускают мелкие детали текста.

«Напротив, изображения, созданные только с помощью встраивания текста T5, лучше отражают отдельные объекты, описанные в тексте, но их общий вид менее точен. Их совместное использование дает наилучшие результаты генерации изображений в нашей модели».

Прерывание и усиление процесса диффузии

В документе отмечается, что типичная модель скрытой диффузии начнет путь от чистого шума к изображению, полагаясь исключительно на текст на ранних этапах генерации.

Когда шум превращается в какой-то грубый макет, представляющий описание в текстовой подсказке, аспект процесса, управляемый текстом, по существу исчезает, а остальная часть процесса смещается в сторону увеличения визуальных функций.

Это означает, что любой элемент, который не был разрешен на зарождающемся этапе интерпретации шума с помощью текста, будет трудно внедрить в изображение позже, потому что два процесса (текст-макет и макет-изображение) относительно мало перекрываются. , и базовая компоновка довольно запутана к тому времени, когда она достигает процесса увеличения изображения.

Из статьи: карты внимания различных частей конвейера по мере созревания процесса шум>изображение. Мы можем видеть резкое снижение влияния CLIP изображения в нижнем ряду, в то время как T5 продолжает влиять на изображение гораздо дальше в процессе рендеринга.

Профессиональный потенциал

Примеры на странице проекта и в видеоцентре YouTube по PR-дружественной генерации мемо-татичных милых изображений. Как обычно, исследования NVIDIA преуменьшают потенциал своих последних инноваций для улучшения фотореалистичных рабочих процессов или визуальных эффектов, а также их потенциал для улучшения дипфейковых изображений и видео.

В примерах пользователь-новичок или любитель набрасывает грубые контуры размещения определенного элемента, тогда как в более систематическом рабочем процессе VFX можно было бы использовать eDiffi для интерпретации нескольких кадров видеоэлемента с использованием преобразования текста в изображение, при этом контуры очень точны и основаны, например, на фигурах, где фон был удален с помощью зеленого экрана или алгоритмических методов.

Runway ML уже обеспечивает ротоскопирование на основе ИИ. В этом примере «зеленый экран» вокруг объекта представляет собой альфа-слой, в то время как извлечение было выполнено с помощью машинного обучения, а не алгоритмического удаления реального фона зеленого экрана. Источник: https://twitter.com/runwayml/status/1330978385028374529

Runway ML уже обеспечивает ротоскопирование на основе искусственного интеллекта. В этом примере «зеленый экран» вокруг объекта представляет собой альфа-слой, а извлечение было выполнено с помощью машинного обучения, а не алгоритмического удаления фона реального зеленого экрана. Источник: https://twitter.com/runwayml/status/1330978385028374529

Использование обученного будка мечты символа и конвейера изображения в изображение с eDiffi, потенциально возможно начать прибивать одну из ошибок любой модель скрытой диффузии: временная стабильность. В таком случае как поля наложенного изображения, так и содержимое изображения будут «предварительно плавать» на пользовательском холсте с временной непрерывностью визуализируемого содержимого (т. е. превращение реального практикующего тайцзи в робота). ), обеспечиваемый использованием заблокированной модели DreamBooth, которая «запомнила» свои обучающие данные — плохо с точки зрения интерпретируемости, но отлично с точки зрения воспроизводимости, точности и преемственности.

Метод, данные и тесты

В документе говорится, что модель eDiffi была обучена на «коллекции общедоступных и частных наборов данных», тщательно отфильтрованных предварительно обученной моделью CLIP, чтобы удалить изображения, которые могут снизить общую эстетическую оценку вывода. Окончательный отфильтрованный набор изображений содержит «около одного миллиарда» пар текст-изображение. Размер обученных изображений описывается как «самая короткая сторона больше 64 пикселей».

Для этого процесса было обучено несколько моделей, причем базовые модели и модели с супер-разрешением обучались на АдамВ оптимизатор со скоростью обучения 0.0001, снижением веса 0.01 и внушительным размером пакета 2048.

Базовая модель обучалась на 256 графических процессорах NVIDIA A100, а две модели с супер-разрешением — на 128 графических процессорах NVIDIA. A100 GPU для каждой модели.

Система была основана на собственной Воображаемый Библиотека PyTorch. Кокос и наборы данных Visual Genome использовались для оценки, хотя и не были включены в окончательные модели, с МС-КОКО конкретный вариант, используемый для тестирования. Протестированные конкурирующие системы были GLIDE, Сделать сцену, ДАЛЛ-Э 2, Стабильная диффузияи две системы синтеза изображений Google, Изображение и Части.

В соответствии с аналогичным предшествующий работает, нулевой выстрел ФИД-30К использовалась в качестве оценочной метрики. В соответствии с FID-30K из проверочного набора COCO случайным образом извлекаются 30,000 XNUMX подписей (т. е. не изображения или текст, используемые при обучении), которые затем использовались в качестве текстовых подсказок для синтеза изображений.

Начальное расстояние Фреше (FID) между сгенерированными и наземными изображениями затем рассчитывали, в дополнение к записи оценки CLIP для сгенерированных изображений.

Результаты тестов FID с нулевым выстрелом в сравнении с современными подходами в наборе данных проверки COCO 2014, с более низкими результатами лучше.

В результате eDiffi удалось получить самую низкую (лучшую) оценку по FID с нулевым выстрелом даже в сравнении с системами с гораздо большим количеством параметров, например, с 20 миллиардами параметров Parti, по сравнению с 9.1 миллиардами параметров в самой высокой системе. специфицированная модель eDiffi, подготовленная для испытаний.

Заключение

eDiffi от NVIDIA представляет собой желанную альтернативу простому добавлению все больших и больших объемов данных и сложности в существующие системы, вместо этого используя более интеллектуальный и многоуровневый подход к некоторым из самых сложных препятствий, связанных с запутанностью и нередактируемостью в системах генерации изображений со скрытой диффузией.

В сабреддитах Stable Diffusion и Discord уже обсуждается либо прямое включение любого кода, который может быть доступен для eDiffi, либо повторная постановка принципов, лежащих в его основе, в отдельной реализации. Новый конвейер, однако, настолько радикально отличается, что он представляет собой целый номер версии изменений для SD, отбрасывая некоторую обратную совместимость, но предлагая возможность значительно улучшенных уровней контроля над окончательными синтезированными изображениями, не жертвуя захватывающим творческие способности скрытой диффузии.

Впервые опубликовано 3 ноября 2022 г.

Какой язык лучше всего подходит для машинного обучения? (май 2024 г.)

Не пропустите

Synthesis AI выпускает новые продукты для человеко-ориентированных моделей компьютерного зрения

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai

Unite.ИИ

Модель диффузии eDiffi от NVIDIA позволяет «рисовать словами» и многое другое

Artificial Intelligence