Artificial Intelligence
Модель диффузии eDiffi от NVIDIA позволяет «рисовать словами» и многое другое
Попытка создать точную композицию с помощью моделей генеративного изображения со скрытой диффузией, таких как Стабильная диффузия может быть как пасущиеся кошки; те же самые способности к воображению и интерпретации, которые позволяют системе создавать экстраординарные детали и вызывать экстраординарные образы из относительно простых текстовых подсказок, также сложно выключить когда вам нужен контроль над созданием изображения на уровне Photoshop.
Теперь новый подход исследований NVIDIA под названием ансамблевая диффузия для изображений (eDiffi) использует сочетание нескольких методов встраивания и интерпретации (а не один и тот же метод на всем протяжении конвейера), чтобы обеспечить гораздо более высокий уровень контроля над генерируемым контентом. В приведенном ниже примере мы видим, как пользователь рисует элементы, где каждый цвет представляет собой одно слово из текстовой подсказки:
По сути, это «рисование масками», переворачивающее iпарадигма живописи в Stable Diffusion, который основан на исправлении сломанных или неудовлетворительных изображений или расширении изображений, которые, в первую очередь, также могли иметь желаемый размер.
Здесь вместо этого поля нарисованной мазни представляют собой допустимые приблизительные границы только одного уникального элемента из одной концепции, что позволяет пользователю с самого начала установить окончательный размер холста, а затем дискретно добавлять элементы.
Разнообразные методы, используемые в eDiffi, также означают, что система гораздо лучше справляется с включением каждого элемента в длинные и подробные подсказки, в то время как Stable Diffusion и OpenAI DALL-E 2, как правило, отдают приоритет определенным частям подсказки в зависимости от того, насколько рано целевые слова появляются в подсказке или на других факторах, таких как потенциальная сложность в распутывании различных элементов, необходимых для полной, но всеобъемлющей (по отношению к тексту-подсказке) композиции:
Кроме того, использование специального T5 кодировщик текста в текст означает, что eDiffi способен отображать понятный текст на английском языке, либо абстрактно запрошенный из подсказки (т.е. изображение содержит некоторый текст [x]) или явно запрашивается (т.е. на футболке написано "Nvidia Rocks"):
Еще одним преимуществом новой структуры является то, что можно также предоставить одно изображение в качестве подсказки стиля, вместо того, чтобы обучать модель DreamBooth или текстовое встраивание на нескольких примерах жанра или стиль.
Ассоциация Новый документ называется eDiffi: модели диффузии текста в изображение с ансамблем экспертных шумоподавителейи
Текстовый кодировщик T5
Использование Google TExt-to-Text Transfer Transformer (T5) является ключевым элементом улучшенных результатов, продемонстрированных в eDiffi. В среднем конвейер латентной диффузии основан на связи между обученными изображениями и подписями, которые сопровождали их, когда они были извлечены из Интернета (или позже откорректированы вручную, хотя это дорогостоящее и, следовательно, редкое вмешательство).
Перефразируя исходный текст и запуская модуль T5, можно получить более точные ассоциации и представления, чем те, которые были изначально обучены в модели, почти как постфактум ручная маркировка, с большей конкретностью и применимостью к положениям запрошенной текстовой подсказки.
Авторы поясняют:
«В большинстве существующих работ по моделям диффузии модель шумоподавления используется для всех уровней шума, а временная динамика представлена с использованием простого временного вложения, которое подается в модель шумоподавления через сеть MLP. Мы утверждаем, что сложная временная динамика диффузии шумоподавления не может быть изучена из данных эффективно с использованием общей модели с ограниченной емкостью.
«Вместо этого мы предлагаем расширить возможности модели шумоподавления, введя ансамбль опытных шумоподавителей; каждый экспертный шумоподавитель представляет собой модель шумоподавления, специализированную для определенного диапазона [уровней] шума. Таким образом, мы можем увеличить пропускную способность модели, не замедляя выборку, поскольку вычислительная сложность оценки [обрабатываемого элемента] при каждом уровне шума остается неизменной».
Существующий CLIP Модули кодирования, включенные в DALL-E 2 и Stable Diffusion, также способны находить альтернативные интерпретации изображений для текста, связанного с вводом пользователем. Однако они обучаются на той же информации, что и исходная модель, и не используются в качестве отдельного уровня интерпретации, как T5 в eDiffi.
Авторы заявляют, что eDiffi — это первый случай, когда кодировщик T5 и CLIP были объединены в один конвейер:
«Поскольку эти два кодировщика обучаются с разными целями, их встраивания способствуют формированию разных изображений с одним и тем же входным текстом. В то время как встраивание текста CLIP помогает определить общий вид сгенерированных изображений, выходные данные, как правило, пропускают мелкие детали текста.
«Напротив, изображения, созданные только с помощью встраивания текста T5, лучше отражают отдельные объекты, описанные в тексте, но их общий вид менее точен. Их совместное использование дает наилучшие результаты генерации изображений в нашей модели».
Прерывание и усиление процесса диффузии
В документе отмечается, что типичная модель скрытой диффузии начнет путь от чистого шума к изображению, полагаясь исключительно на текст на ранних этапах генерации.
Когда шум превращается в какой-то грубый макет, представляющий описание в текстовой подсказке, аспект процесса, управляемый текстом, по существу исчезает, а остальная часть процесса смещается в сторону увеличения визуальных функций.
Это означает, что любой элемент, который не был разрешен на зарождающемся этапе интерпретации шума с помощью текста, будет трудно внедрить в изображение позже, потому что два процесса (текст-макет и макет-изображение) относительно мало перекрываются. , и базовая компоновка довольно запутана к тому времени, когда она достигает процесса увеличения изображения.
Профессиональный потенциал
Примеры на странице проекта и в видеоцентре YouTube по PR-дружественной генерации мемо-татичных милых изображений. Как обычно, исследования NVIDIA преуменьшают потенциал своих последних инноваций для улучшения фотореалистичных рабочих процессов или визуальных эффектов, а также их потенциал для улучшения дипфейковых изображений и видео.
В примерах пользователь-новичок или любитель набрасывает грубые контуры размещения определенного элемента, тогда как в более систематическом рабочем процессе VFX можно было бы использовать eDiffi для интерпретации нескольких кадров видеоэлемента с использованием преобразования текста в изображение, при этом контуры очень точны и основаны, например, на фигурах, где фон был удален с помощью зеленого экрана или алгоритмических методов.
Использование обученного будка мечты символа и конвейера изображения в изображение с eDiffi, потенциально возможно начать прибивать одну из ошибок любой модель скрытой диффузии: временная стабильность. В таком случае как поля наложенного изображения, так и содержимое изображения будут «предварительно плавать» на пользовательском холсте с временной непрерывностью визуализируемого содержимого (т. е. превращение реального практикующего тайцзи в робота). ), обеспечиваемый использованием заблокированной модели DreamBooth, которая «запомнила» свои обучающие данные — плохо с точки зрения интерпретируемости, но отлично с точки зрения воспроизводимости, точности и преемственности.
Метод, данные и тесты
В документе говорится, что модель eDiffi была обучена на «коллекции общедоступных и частных наборов данных», тщательно отфильтрованных предварительно обученной моделью CLIP, чтобы удалить изображения, которые могут снизить общую эстетическую оценку вывода. Окончательный отфильтрованный набор изображений содержит «около одного миллиарда» пар текст-изображение. Размер обученных изображений описывается как «самая короткая сторона больше 64 пикселей».
Для этого процесса было обучено несколько моделей, причем базовые модели и модели с супер-разрешением обучались на АдамВ оптимизатор со скоростью обучения 0.0001, снижением веса 0.01 и внушительным размером пакета 2048.
Базовая модель обучалась на 256 графических процессорах NVIDIA A100, а две модели с супер-разрешением — на 128 графических процессорах NVIDIA. A100 GPU для каждой модели.
Система была основана на собственной Воображаемый Библиотека PyTorch. Кокос и наборы данных Visual Genome использовались для оценки, хотя и не были включены в окончательные модели, с МС-КОКО конкретный вариант, используемый для тестирования. Протестированные конкурирующие системы были GLIDE, Сделать сцену, ДАЛЛ-Э 2, Стабильная диффузияи две системы синтеза изображений Google, Изображение и Части.
В соответствии с аналогичным предшествующий работает, нулевой выстрел ФИД-30К использовалась в качестве оценочной метрики. В соответствии с FID-30K из проверочного набора COCO случайным образом извлекаются 30,000 XNUMX подписей (т. е. не изображения или текст, используемые при обучении), которые затем использовались в качестве текстовых подсказок для синтеза изображений.
Начальное расстояние Фреше (FID) между сгенерированными и наземными изображениями затем рассчитывали, в дополнение к записи оценки CLIP для сгенерированных изображений.
В результате eDiffi удалось получить самую низкую (лучшую) оценку по FID с нулевым выстрелом даже в сравнении с системами с гораздо большим количеством параметров, например, с 20 миллиардами параметров Parti, по сравнению с 9.1 миллиардами параметров в самой высокой системе. специфицированная модель eDiffi, подготовленная для испытаний.
Заключение
eDiffi от NVIDIA представляет собой желанную альтернативу простому добавлению все больших и больших объемов данных и сложности в существующие системы, вместо этого используя более интеллектуальный и многоуровневый подход к некоторым из самых сложных препятствий, связанных с запутанностью и нередактируемостью в системах генерации изображений со скрытой диффузией.
В сабреддитах Stable Diffusion и Discord уже обсуждается либо прямое включение любого кода, который может быть доступен для eDiffi, либо повторная постановка принципов, лежащих в его основе, в отдельной реализации. Новый конвейер, однако, настолько радикально отличается, что он представляет собой целый номер версии изменений для SD, отбрасывая некоторую обратную совместимость, но предлагая возможность значительно улучшенных уровней контроля над окончательными синтезированными изображениями, не жертвуя захватывающим творческие способности скрытой диффузии.
Впервые опубликовано 3 ноября 2022 г.