Artificial Intelligence

Концептуальные слайдеры: точное управление в диффузионных моделях с адаптерами LoRA

обновленный on 2 января 2024

Благодаря своим возможностям преобразование текста в изображение диффузионные модели приобрели огромную популярность в художественном сообществе. Однако современные модели, в том числе современные фреймворки, часто не могут сохранить контроль над визуальными концепциями и атрибутами сгенерированных изображений, что приводит к неудовлетворительным результатам. Большинство моделей полагаются исключительно на текстовые подсказки, что создает проблемы при точном модулировании непрерывных атрибутов, таких как интенсивность погоды, резкость теней, выражение лица или возраст человека. Это затрудняет конечным пользователям настройку изображений в соответствии со своими конкретными потребностями. Более того, хотя эти генеративные структуры создают высококачественные и реалистичные изображения, они склонны к искажениям, таким как искаженные лица или отсутствие пальцев.

Чтобы преодолеть эти ограничения, разработчики предложили использовать интерпретируемые концептуальные слайдеры. Эти ползунки обещают конечным пользователям больший контроль над визуальными атрибутами, улучшая создание и редактирование изображений в моделях распространения. Слайдеры понятий в диффузионных моделях работают путем определения направления параметра, соответствующего отдельной концепции, при этом сводя к минимуму взаимодействие с другими атрибутами. Платформа создает эти слайдеры, используя образцы изображений или набор подсказок, тем самым определяя направления как для текстовых, так и для визуальных концепций.

В конечном счете, использование концептуальных слайдеров для преобразования текста в изображение диффузионные модели может привести к генерации изображений с минимальной степенью помех и улучшенному контролю над конечным результатом, а также к увеличению воспринимаемого реализма без изменения содержания изображений и, таким образом, к созданию реалистичных изображений. В этой статье мы более подробно обсудим концепцию использования концептуальных ползунков в структурах преобразования текста в изображения и проанализируем, как их использование может привести к созданию изображений превосходного качества, создаваемых ИИ.

Введение в концептуальные слайдеры

Как упоминалось ранее, современные системы распространения текста в изображения часто с трудом контролируют визуальные концепции и атрибуты в сгенерированных изображениях, что приводит к неудовлетворительным результатам. Более того, во многих из этих моделей сложно модулировать непрерывные атрибуты, что еще больше способствует получению неудовлетворительных результатов. Концептуальные слайдеры могут помочь смягчить эти проблемы, предоставив создателям контента и конечным пользователям расширенный контроль над процессом создания изображений и решая проблемы, с которыми сталкиваются текущие платформы.

Большинство современных моделей распространения текста в изображение полагаются на прямую модификацию текстовых подсказок для управления атрибутами изображения. Хотя этот подход позволяет создавать изображения, он не является оптимальным, поскольку изменение подсказки может радикально изменить структуру изображения. Другой подход, используемый этими структурами, включает в себя апостериорные методы, которые инвертируют процесс распространения и изменяют перекрестное внимание для редактирования визуальных концепций. Однако методы Post-hoc имеют ограничения: они поддерживают лишь ограниченное количество одновременных изменений и требуют отдельных проходов взаимодействия для каждой новой концепции. Кроме того, они могут привести к концептуальной запутанности, если их не тщательно спроектировать.

Напротив, концептуальные слайдеры предлагают более эффективное решение для создания изображений. Эти легкие и простые в использовании адаптеры можно применять к предварительно обученным моделям, повышая контроль и точность желаемых концепций за один проход интерференции с минимальным запутыванием. Слайдеры концепций также позволяют редактировать визуальные концепции, не охваченные текстовыми описаниями, что отличает их от методов редактирования на основе текстовых подсказок. Хотя методы настройки на основе изображений могут эффективно добавлять токены для концепций на основе изображений, их сложно реализовать для редактирования изображений. Концептуальные слайдеры, с другой стороны, позволяют конечным пользователям предоставлять небольшое количество парных изображений, определяющих желаемую концепцию. Затем ползунки обобщают эту концепцию и автоматически применяют ее к другим изображениям, стремясь повысить реалистичность и исправить искажения, например, при изображении рук.

Концептуальные слайдеры стремятся извлечь уроки и решить проблемы, общие для четырех концепций генеративного искусственного интеллекта и диффузии: редактирования изображений, методов на основе рекомендаций, редактирования моделей и семантических направлений.

Редактирование изображений

Текущие платформы искусственного интеллекта либо фокусируются на использовании условного ввода для управления структурой изображения, либо манипулируют перекрестным вниманием исходного изображения с его целевой подсказкой, чтобы обеспечить редактирование одного изображения в структурах распространения текста в изображения. В результате эти подходы могут быть реализованы только на отдельных изображениях, а также требуют оптимизации скрытого базиса для каждого изображения в результате развития геометрической структуры с течением времени в подсказках.

Методы, основанные на руководствах

Использование методов, основанных на руководствах без классификаторов, показало их способность повысить качество генерируемых изображений и улучшить выравнивание текста и изображения. Включая руководящие термины во время взаимодействия, метод улучшает ограниченную композиционность, унаследованную диффузными структурами, и их можно использовать для руководства через небезопасные концепции в диффузных структурах.

Редактирование модели

Использование концептуальных ползунков также можно рассматривать как метод редактирования модели, в котором используется адаптер низкого ранга для вывода одного семантического атрибута, который оставляет место для непрерывного управления, согласующегося с атрибутом. Затем используются методы тонкой настройки, позволяющие персонализировать структуру и добавлять новые концепции. Кроме того, метод Custom Diffusion предлагает способ точной настройки слоев перекрестного внимания для включения новых визуальных концепций в предварительно обученные модели диффузии. И наоборот, метод Textual Diffusion предлагает оптимизировать вектор внедрения, чтобы активировать возможности модели и ввести текстовые концепции в структуру.

Семантическое направление в GAN

Манипулирование семантическими атрибутами является одним из ключевых атрибутов генеративно-состязательных сетей, в которых скрытые пространственные траектории выровнены самоконтролируемым образом. В диффузных структурах эти траектории скрытого пространства существуют в средних слоях архитектуры U-Net, а основное направление скрытых пространств в диффузных структурах отражает глобальную семантику. Концептуальные слайдеры напрямую обучают подпространства низкого ранга, соответствующие специальным атрибутам, и получают точные и локализованные направления редактирования, используя пары текста или изображений для оптимизации глобальных направлений.

Концептуальные слайдеры: архитектура и работа

Диффузионные модели и адаптеры LoRA или низкого ранга

Модели диффузии, по сути, являются подклассом генеративных структур искусственного интеллекта, которые работают по принципу синтеза данных путем обращения вспять процесса диффузии. Процесс прямой диффузии первоначально добавляет к данным шум, тем самым происходит переход от организованного состояния к состоянию полного гауссовского шума. Основная цель моделей диффузии — обратить вспять процесс диффузии путем постепенного шумоподавления изображения и выборки случайного гауссовского шума для создания изображения. В реальных приложениях основной целью фреймворков Diffusion является прогнозирование истинного шума, когда полный гауссов шум подается в качестве входных данных с дополнительными входными данными, такими как условие и временной шаг.

Метод LoRA или адаптеров низкого ранга разлагает обновления веса во время тонкой настройки, чтобы обеспечить эффективную адаптацию больших предварительно обученных платформ для последующих задач. Метод LoRA разлагает обновления весов для предварительно обученного слоя модели как по входным, так и по выходным измерениям и ограничивает обновление низкоразмерным подпространством.

Концептуальные слайдеры

Основная цель концептуальных слайдеров — служить подходом к точной настройке адаптеров LoRA в диффузной структуре, чтобы обеспечить большую степень контроля над изображениями, ориентированными на концепции, и то же самое показано на следующем изображении.

При использовании целевых концепций концептуальные слайдеры изучают направления параметров низкого ранга, чтобы либо увеличить, либо уменьшить выражение определенных атрибутов. Для модели и ее целевой концепции основная цель Concept Slider — получить улучшенную модель, которая изменяет вероятность улучшения и подавления атрибутов изображения при условии, что она обусловлена целевой концепцией, чтобы увеличить вероятность улучшения атрибутов и уменьшить вероятность. подавления атрибутов. Используя репараметризацию и формулу Твиди, структура вводит изменяющийся во времени шумовой процесс и выражает каждый балл как прогноз шумоподавления. Кроме того, цель распутывания настраивает модули в концептуальных слайдерах, сохраняя при этом предварительно обученные веса постоянными, а коэффициент масштабирования, введенный во время формулировки LoRA, изменяется во время взаимодействия. Коэффициент масштабирования также облегчает настройку сильных сторон редактирования и делает изменения более сильными без переобучения структуры, как показано на следующем изображении.

Методы редактирования, использовавшиеся ранее в платформах, способствовали более серьезному редактированию за счет переобучения платформы с расширенными рекомендациями. Однако масштабирование коэффициента масштабирования во время помех дает те же результаты редактирования без увеличения стоимости и времени переобучения.

Изучение визуальных концепций

Слайдеры концепций разработаны таким образом, чтобы управлять визуальными концепциями, которые текстовые подсказки не могут четко определить, и эти ползунки используют небольшие наборы данных, которые либо объединяются в пары до, либо после, для обучения этим концепциям. Контраст между парами изображений позволяет ползункам изучить визуальные концепции. Кроме того, процесс обучения концептуальных слайдеров оптимизирует компонент LoRA, реализованный как в прямом, так и в обратном направлении. В результате компонент LoRA выравнивается по направлению, вызывающему визуальные эффекты в обоих направлениях.

Концептуальные слайдеры: результаты реализации

Чтобы проанализировать прирост производительности, разработчики оценили использование концептуальных ползунков в первую очередь на Стабильная диффузия XL, фреймворк высокого разрешения с разрешением 1024 пикселя, с дополнительными экспериментами, проведенными на фреймворке Stable Diffusion v1.4, при этом модели обучаются по 500 эпох каждая.

Слайдеры с текстовыми концепциями

Чтобы оценить производительность текстовых ползунков концепций, они проверяются на наборе из 30 текстовых концепций, и метод сравнивается с двумя базовыми показателями, которые используют стандартную текстовую подсказку для фиксированного количества временных шагов, а затем начинается композиция добавление подсказок для управления изображением. Как видно на следующем рисунке, использование концептуальных ползунков приводит к постоянно более высокому баллу CLIP и постоянному снижению балла LPIPS по сравнению с исходной структурой без концептуальных ползунков.

Как видно на рисунке выше, использование концептуальных ползунков облегчает точное редактирование атрибутов, необходимых в процессе создания изображения, сохраняя при этом общую структуру изображения.

Слайдеры с визуальными концепциями

В моделях диффузии текста в изображение, в которых используются только текстовые подсказки, часто бывает трудно поддерживать более высокую степень контроля над визуальными атрибутами, такими как волосы на лице или форма глаз. Чтобы обеспечить лучший контроль над детальными атрибутами, концептуальные слайдеры используют дополнительные текстовые инструкции в сочетании с наборами данных изображений. Как видно на рисунке ниже, Concept Sliders создает отдельные ползунки для «размера глаз» и «формы бровей», которые фиксируют желаемые преобразования с использованием пар изображений.

Результаты можно дополнительно уточнить, предоставив специальные тексты, чтобы направление фокусировалось на этой области лица, и создать ползунки с пошаговым контролем над целевым атрибутом.

Составление слайдеров

Одним из основных преимуществ использования концептуальных слайдеров является возможность их компоновки, которая позволяет пользователям объединять несколько ползунков для увеличения степени контроля, а не сосредотачиваться на одной концепции одновременно, что может быть связано с направлениями ползунков низкого ранга, используемыми в концептуальных слайдерах. . Кроме того, поскольку концептуальные слайдеры представляют собой легкие адаптеры LoRA, ими легко делиться, а также их можно легко накладывать друг на друга. диффузионные модели. Пользователи также могут одновременно настраивать несколько ручек для управления сложными поколениями, загружая интересные наборы ползунков.

На следующем изображении показаны возможности композиции ползунков концепций. Несколько ползунков последовательно компонуются в каждой строке слева направо, что позволяет перемещаться по многомерным пространствам концепций с повышенной степенью контроля над концепциями.

Улучшение качества изображения

Хотя современные структуры распространения текста в изображения и крупномасштабные генеративные модели, такие как Стабильная диффузия XL модели способны генерировать реалистичные и высококачественные изображения, они часто страдают от искажений изображения, таких как размытие или обертывание объектов, даже несмотря на то, что параметры этих современных фреймворков оснащены скрытой способностью генерировать высококачественный результат с меньшим количеством поколений. Использование концептуальных ползунков может привести к созданию изображений с меньшими искажениями за счет раскрытия истинных возможностей этих моделей путем определения направлений параметров низкого ранга.

Исправление рук

Создание изображений с реалистично выглядящими руками всегда было препятствием для диффузионных фреймворков, а использование концептуальных слайдеров напрямую контролирует тенденцию к искажению рук. На следующем изображении показан эффект использования концептуальных ползунков «исправить руки», которые позволяют платформе генерировать изображения с более реалистично выглядящими руками.

Ремонт слайдеров

Использование концептуальных слайдеров может не только привести к созданию более реалистично выглядящих рук, но также показало свой потенциал в улучшении общего реализма изображений, генерируемых платформой. Concept Sliders также определяет одно направление параметра низкого ранга, которое позволяет избежать распространенных проблем с искажениями в изображениях, и результаты показаны на следующем изображении.

Заключение

В этой статье мы говорили о концептуальных слайдерах — простой, но масштабируемой новой парадигме, которая обеспечивает интерпретируемый контроль над генерируемыми результатами в диффузионных моделях. Использование слайдеров концепций направлено на решение проблем, с которыми сталкиваются текущие структуры распространения текста в изображения, которым трудно поддерживать необходимый контроль над визуальными концепциями и атрибутами, включенными в сгенерированное изображение, что часто приводит к неудовлетворительному результату. Кроме того, большинству моделей диффузии текста в изображение сложно модулировать непрерывные атрибуты изображения, что в конечном итоге часто приводит к неудовлетворительным результатам. Использование концептуальных слайдеров может позволить структурам распространения текста в изображения смягчить эти проблемы, а также предоставить создателям контента и конечным пользователям повышенную степень контроля над процессом создания изображений, а также решить проблемы, с которыми сталкиваются текущие платформы.

Почему модель искусственного интеллекта Orca-2 от Microsoft знаменует собой значительный шаг в развитии устойчивого искусственного интеллекта?

Не пропустите

Ride the Hype: События AI в районе залива

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.

Unite.ИИ

Концептуальные слайдеры: точное управление в диффузионных моделях с адаптерами LoRA

Artificial Intelligence

Концептуальные слайдеры: точное управление в диффузионных моделях с адаптерами LoRA

Оглавление