Искусственный интеллект

Руководство по редактированию изображений на основе инструкций с помощью многомодальных крупномасштабных языковых моделей

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Инструменты визуального дизайна и модели языка зрения имеют широкое применение в мультимедийной индустрии. Несмотря на значительный прогресс в последние годы, для работы с этими инструментами все еще необходим глубокое понимание. Для повышения доступности и контроля мультимедийная индустрия все чаще采用ит текстовое руководство или инструкции для редактирования изображений. Эти методы используют естественные языковые команды вместо традиционных региональных масок или сложных описаний, что позволяет выполнять более гибкое и контролируемое манипулирование изображениями. Однако методы, основанные на инструкциях, часто предоставляют краткие указания, которые могут быть сложными для существующих моделей, чтобы полностью понять и выполнить. Кроме того, диффузионные модели, известные своей способностью создавать реалистичные изображения, находятся в высоком спросе в секторе редактирования изображений.

Более того, Многомодальные крупномасштабные языковые модели (MLLM) показали впечатляющие результаты в задачах, связанных с генерацией визуально-осведомленных ответов и межмодальной пониманием. MLLM-руководство по редактированию изображений (MGIE) – это исследование, вдохновленное MLLM, которое оценивает их возможности и анализирует, как они облегчают редактирование с помощью текста или руководящих инструкций. Этот подход включает обучение для предоставления явного руководства и получения выразительных инструкций. Модель редактирования MGIE понимает визуальную информацию и выполняет редактирование через обучение от конца до конца. В этой статье мы глубоко рассмотрим MGIE, оценивая его влияние на глобальную оптимизацию изображений, модификации в стиле Photoshop и локальное редактирование. Мы также обсудим значение MGIE в задачах редактирования изображений на основе инструкций, которые полагаются на выразительные инструкции. Давайте начнем наше исследование.

MLLM-руководство по редактированию изображений или MGIE: Введение

Многомодальные крупномасштабные языковые модели и диффузионные модели – это два наиболее широко используемых框架ов ИИ и МЛ в настоящее время, благодаря их замечательным генеративным возможностям. С одной стороны, у вас есть диффузионные модели, которые лучше всего известны своей способностью создавать высокореалистичные и визуально привлекательные изображения, а с другой стороны, у вас есть многомодальные крупномасштабные языковые модели, известные своей исключительной мощностью в генерации широкого разнообразия контента, включая текст, язык, речь и изображения/видео.

Диффузионные модели меняют латентные межмодальные карты для выполнения визуальной манипуляции, отражающей изменение входной цели подписи, и они также могут использовать руководящую маску для редактирования определенной области изображения. Но основная причина, по которой диффузионные модели широко используются для мультимедийных приложений, заключается в том, что вместо того, чтобы полагаться на сложные описания или региональные маски, диффузионные модели используют методы редактирования на основе инструкций, которые позволяют пользователям выражать, как редактировать изображение,直接 используя текстовые инструкции или команды. Далее, крупномасштабные языковые модели не нуждаются во введении, поскольку они продемонстрировали значительный прогресс в широком спектре различных языковых задач, включая суммаризацию текста, машинный перевод, генерацию текста и ответы на вопросы. LLM обычно обучаются на большом и разнообразном количестве обучающих данных, что наделяет их визуальной креативностью и знаниями, позволяя им выполнять несколько задач языка и зрения. Основываясь на LLM, MLLM или многомодальные крупномасштабные языковые модели могут использовать изображения в качестве естественных входных данных и предоставлять соответствующие визуально-осведомленные ответы.

Учитывая это, хотя диффузионные модели и MLLM-рамки широко используются для задач редактирования изображений, существуют некоторые проблемы с руководством, связанные с текстовыми инструкциями, что препятствует общей производительности, что приводит к разработке MGIE или MLLM-руководства по редактированию изображений, ИИ-рамки, состоящей из диффузионной модели и MLLM-модели, как показано на следующем изображении.

В рамке MGIE диффузионная модель обучается от конца до конца для выполнения редактирования изображений с латентным воображением предполагаемой цели, а MLLM-рамка учится предсказывать точные выразительные инструкции. Вместе диффузионная модель и MLLM-рамка используют внутреннее визуальное производное, что позволяет ей решать неоднозначные человеческие команды, что приводит к реалистичному редактированию изображений, как показано на следующем изображении.

Рамка MGIE черпает вдохновение из двух существующих подходов: Редактирование изображений на основе инструкций и Модели языка зрения.

Редактирование изображений на основе инструкций может значительно улучшить доступность и контролируемость визуальной манипуляции, следуя человеческим командам. Существуют два основных рамки, используемых для редактирования изображений на основе инструкций: GAN-рамки и диффузионные модели. GAN или Генеративно-состязательные сети способны изменять изображения, но они либо ограничены конкретными доменами, либо производят нереалистичные результаты. С другой стороны, диффузионные модели с крупномасштабным обучением могут контролировать межмодальные карты внимания для глобальных карт, чтобы достичь редактирования и преобразования изображений. Редактирование на основе инструкций работает, получая прямые команды в качестве входных данных, часто не ограниченные региональными масками и сложными описаниями. Однако существует вероятность того, что предоставленные инструкции являются либо неоднозначными, либо не достаточно точными для выполнения инструкций для задач редактирования.

Модели языка зрения известны своей текстовой генеративной и обобщающей способностью в различных задачах и часто имеют прочное текстовое понимание, и они также могут производить исполняемые программы или псевдокод. Эта способность крупномасштабных языковых моделей позволяет MLLM воспринимать изображения и предоставлять адекватные ответы, используя визуальную выравнивание функций с настройкой инструкций, и recent модели принимают MLLM для генерации изображений, связанных с чатом или входным текстом. Однако то, что отличает MGIE от MLLM или VLLM, заключается в том, что, хотя последние могут производить изображения, отличные от входных данных с нуля, MGIE использует возможности MLLM для улучшения возможностей редактирования изображений с полученными инструкциями.

MGIE: Архитектура и методология

Традиционно крупномасштабные языковые модели использовались для генеративных задач обработки естественного языка. Но с тех пор, как MLLM стали мейнстримом, LLM были наделены способностью предоставлять разумные ответы, воспринимая изображения в качестве входных данных. Конвенционально многомодальная крупномасштабная языковая модель инициализируется из предварительно обученной LLM и содержит визуальный кодировщик и адаптер для извлечения визуальных функций и проекции визуальных функций в языковую модальность соответственно. Благодаря этому MLLM-рамка способна воспринимать визуальные входные данные, хотя выходные данные все еще ограничены текстом.

Предлагаемая рамка MGIE направлена на решение этой проблемы и облегчение MLLM для редактирования входного изображения в выходное изображение на основе данной текстовой инструкции. Для этого рамка MGIE включает MLLM и обучается для получения кратких и явных выразительных текстовых инструкций. Кроме того, рамка MGIE добавляет специальные токены изображений в своей архитектуре для моста между модальностью зрения и языка и принимает голову редактирования для преобразования модальностей. Эти модальности служат латентным визуальным воображением из многомодальной крупномасштабной языковой модели и руководят диффузионной моделью для выполнения задач редактирования. Рамка MGIE затем способна выполнять задачи визуального восприятия для разумного редактирования изображений.

Краткая выразительная инструкция

Традиционно многомодальные крупномасштабные языковые модели могут предложить визуально-относящиеся ответы с их межмодальной перцепцией благодаря настройке инструкций и выравниванию функций. Для редактирования изображений рамка MGIE использует текстовую подсказку в качестве основного языкового входного данных с изображением и получает подробное объяснение для команды редактирования. Однако эти объяснения могут часто быть слишком длинными или включать повторяющиеся описания, что приводит к неправильно интерпретированным намерениям, что заставляет MGIE применять предварительно обученный суммаризатор, чтобы получить краткие повествования, что позволяет MLLM генерировать суммаризированные выходные данные. Рамка рассматривает краткое, но явное руководство в качестве выразительной инструкции и применяет перекрестную энтропию для обучения многомодальной крупномасштабной языковой модели, используя обучение с учителем.

Использование выразительной инструкции дает более конкретную идею по сравнению с текстовой инструкцией, поскольку оно мостит разрыв для разумного редактирования изображений, повышая эффективность рамки. Кроме того, рамка MGIE во время периода вывода получает краткие выразительные инструкции вместо того, чтобы производить длинные повествования и полагаться на внешнюю суммаризацию. Благодаря этому рамка MGIE способна получить представление о визуальном воображении намерений редактирования, но все еще ограничена модальностью языка. Чтобы преодолеть это препятствие, модель MGIE добавляет определенное количество визуальных токенов после выразительной инструкции с обучаемыми вложениями слов, что позволяет MLLM генерировать их, используя свою голову языковой модели.

Редактирование изображений с латентным воображением

На следующем шаге рамка MGIE принимает голову редактирования для преобразования инструкции изображения в фактическое визуальное руководство. Голова редактирования – это модель последовательности в последовательность, которая помогает в сопоставлении последовательных визуальных токенов из MLLM к осмысленным латентным семантически в качестве своего редактирования руководства. Чтобы быть более конкретным, преобразование над вложениями слов может быть интерпретировано как общее представление в визуальной модальности и использует компонент визуального воображения, осведомленного об экземпляре, для намерений редактирования. Кроме того, чтобы руководить редактированием изображений с визуальным воображением, рамка MGIE внедряет латентную диффузионную модель в своей архитектуре, которая включает вариационный автоэнкодер и решает задачу денойзинга диффузии в латентном пространстве. Основная цель латентной диффузионной модели – генерировать латентную цель, сохраняя латентный вход и следуя руководству редактирования. Процесс диффузии добавляет шум к латентной цели через регулярные интервалы времени, и уровень шума увеличивается с каждым шагом времени.

Обучение MGIE

Следующая фигура суммирует алгоритм процесса обучения предложенной рамки MGIE.

Как можно наблюдать, MLLM учится получать краткие выразительные инструкции, используя инструкцию потери. Используя латентное воображение из входных инструкций изображения, рамка преобразует модальность головы редактирования и руководит латентной диффузионной моделью для синтеза результирующего изображения и применяет потерю редактирования для обучения диффузии. Наконец, рамка замораживает большинство весов, что приводит к параметро-эффективному обучению от конца до конца.

MGIE: Результаты и оценка

Рамка MGIE использует набор данных IPr2Pr в качестве своего основного предварительного обучения, и он содержит более 1 миллиона данных, отфильтрованных CLIP, с инструкциями, извлеченными из модели GPT-3, и моделью Prompt-to-Prompt для синтеза изображений. Кроме того, рамка MGIE рассматривает рамку InsPix2Pix, построенную на основе текстового кодировщика CLIP с диффузионной моделью, в качестве базовой модели для задач редактирования изображений на основе инструкций. Кроме того, модель MGIE также принимает во внимание модель редактирования изображений, управляемую LLM, принятую для выразительных инструкций из входных данных только инструкций, но без визуального восприятия.

Количественный анализ

Следующая фигура суммирует результаты редактирования в нулевой установке с моделями, обученными только на наборе данных IPr2Pr. Для данных GIER и EVR, включающих модификации в стиле Photoshop, выразительные инструкции могут раскрыть конкретные цели вместо неоднозначных команд, что позволяет результатам редактирования лучше соответствовать намерениям редактирования.

Хотя и LGIE, и MGIE обучаются на тех же данных, что и модель InsPix2Pix, они могут предложить подробные объяснения, обучаясь с помощью крупномасштабной языковой модели, но все же LGIE ограничена одной модальностью. Кроме того, рамка MGIE может предложить значительный прирост производительности, поскольку она имеет доступ к изображениям и может использовать эти изображения для получения явных инструкций.

Чтобы оценить производительность в задачах редактирования изображений на основе инструкций для конкретных целей, разработчики дообучают несколько моделей на каждом наборе данных, как суммировано в следующей таблице.

Как можно наблюдать, после адаптации задач редактирования в стиле Photoshop для EVR и GIER модели демонстрируют прирост производительности. Однако стоит отметить, что, поскольку дообучение делает выразительные инструкции более доменно-специфичными, рамка MGIE становится свидетелем значительного прироста производительности, поскольку она также учится доменно-специфичному руководству, что позволяет диффузионной модели демонстрировать конкретно отредактированные сцены из дообученной крупномасштабной языковой модели, что выигрывает как от локальной модификации, так и от локальной оптимизации. Кроме того, поскольку визуально-осведомленное руководство более соответствует предполагаемым целям редактирования, рамка MGIE последовательно обеспечивает лучшие результаты по сравнению с LGIE.

Следующая фигура демонстрирует оценку CLIP-S через входные или фактические изображения цели и выразительные инструкции. Более высокий балл CLIP указывает на соответствие инструкций с редактированием источника, и как можно наблюдать, MGIE имеет более высокий балл CLIP по сравнению с моделью LGIE как на входных, так и на выходных изображениях.

Качественные результаты

Следующее изображение идеально суммирует качественный анализ рамки MGIE.

Как мы знаем, рамка LGIE ограничена одной модальностью, из-за чего она имеет единственное языковое представление и склонна получать неправильные или нерелевантные объяснения для редактирования изображения. Однако рамка MGIE является многомодальной, и с доступом к изображениям она выполняет задачи редактирования и обеспечивает явное визуальное воображение, соответствующее цели очень хорошо.

Окончательные мысли

В этой статье мы говорили о MGIE или MLLM-руководстве по редактированию изображений, MLLM-инспирированном исследовании, которое направлено на оценку многомодальных крупномасштабных языковых моделей и анализ того, как они облегчают редактирование с помощью текста или руководящих инструкций, изучая, как они учатся предоставлять явное руководство, получая выразительные инструкции одновременно. Модель редактирования MGIE захватывает визуальную информацию и выполняет редактирование или манипуляцию, используя обучение от конца до конца. Вместо неоднозначных и кратких указаний рамка MGIE производит явные визуально-осведомленные инструкции, что приводит к разумному редактированию изображений.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.