인공지능

가이드 지침 기반 이미지 편집을 위한 다중 모드 대형 언어 모델

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

시각적 디자인 도구와 비전 언어 모델은 멀티미디어 산업에서 널리 사용되고 있습니다. 최근 몇 년간의 상당한 발전에도 불구하고, 이러한 도구의 작동을 위한扎实한 이해가 여전히 필요합니다. 접근성과 제어를 향상시키기 위해 멀티미디어 산업은 점점 더 텍스트 기반 또는 지침 기반 이미지 편집 기술을 채택하고 있습니다. 이러한 기술은 전통적인 지역 마스크 또는 자세한 설명 대신 자연어 명령을 사용하여 더 유연하고 제어된 이미지 조작을 허용합니다. 그러나 지침 기반 방법은 종종 완전히 캡처하고 실행하기 어려울 수 있는 간단한 지침을 제공합니다. 또한 현실적인 이미지를 생성하는 능력으로 알려진 확산 모델은 이미지 편집 부문에서 높은 수요를 보이고 있습니다.

또한, 다중 모드 대형 언어 모델(MLLMs)은 시각적 인식 응답 생성 및 교차 모드 이해와 관련된 작업에서 인상적인 성능을 보여주었습니다. MLLM 가이드 이미지 편집(MGIE)은 MLLM에 의해 영감을 받은 연구로, 이러한 모델의 능력과 텍스트 또는 가이드 지침을 사용하여 편집을 어떻게 지원하는지 분석합니다. 이 접근법에는 명시적인 지침을 제공하고 표현적인 지침을 파생하는 것을 포함합니다. MGIE 편집 모델은 시각적 정보를 이해하고 종단 간 훈련을 통해 편집을 수행합니다. 이 기사에서 우리는 MGIE의 영향에 대해 깊이 있게 обс論할 것입니다. 글로벌 이미지 최적화, 포토샵 스타일 수정 및 로컬 편집에 대한 MGIE의 중요성을 논의할 것입니다. 지침 기반 이미지 편집 작업에서 표현적인 지침을 사용하는 MGIE의 중요성을 논의할 것입니다. 탐색을 시작하겠습니다.

MGIE: 소개

다중 모드 대형 언어 모델과 확산 모델은 현재 가장 널리 사용되는 AI 및 ML 프레임워크 중 두 가지입니다. 한편으로는 확산 모델이 있으며, 이는 매우 현실적이고 시각적으로 매력적인 이미지를 생성하는 것으로 알려져 있습니다. 다른 한편으로는 다중 모드 대형 언어 모델이 있으며, 이는 텍스트, 언어, 음성 및 이미지/비디오를 포함한 다양한 콘텐츠를 생성하는 능력으로 유명합니다.

확산 모델은 입력 목표 캡션의 변경을 반영하는 시각적 조작을 수행하기 위해 잠재적인 교차 모드 맵을 교환하고, 또한 특정 영역을 편집하기 위해 가이드 마스크를 사용할 수 있습니다. 그러나 확산 모델이 멀티미디어 애플리케이션에 널리 사용되는 주요 이유는 자세한 설명 또는 지역 마스크에 의존하는 대신 텍스트 지침 또는 명령을 사용하여 사용자가 이미지를 직접 편집하는 방법을 표현할 수 있기 때문입니다. 계속해서, 대형 언어 모델은 소개가 필요하지 않습니다. 왜냐하면它们는 텍스트 요약, 기계 번역, 텍스트 생성 및 질문에 답변하는 것을 포함한 다양한 언어 작업에서 상당한 발전을 보여주었 때문입니다. LLM은 일반적으로 대규모 및 다양한 훈련 데이터에 대해 훈련되며, 시각적 창의력과 지식을 부여하여 여러 비전 언어 작업을 수행할 수 있습니다. LLM을 기반으로 하는 MLLM 또는 다중 모드 대형 언어 모델은 이미지에 대한 자연스러운 입력으로 사용할 수 있으며 시각적으로 인식된 응답을 제공할 수 있습니다.

그러나 확산 모델과 MLLM 프레임워크가 이미지 편집 작업에 널리 사용됨에도 불구하고, 텍스트 기반 지침과 관련된 일부 지침 문제가 전체 성능을 방해하여 MGIE 또는 MLLM 가이드 이미지 편집의 개발로 이어집니다. MGIE는 확산 모델과 MLLM 모델로 구성된 AI 기반 프레임워크입니다.

MGIE 아키텍처 내에서 확산 모델은 종단 간 훈련을 통해 목표의 잠재적인 상상력을 사용하여 이미지 편집을 수행하도록 훈련됩니다. MLLM 프레임워크는 정교한 표현적인 지침을 예측하도록 학습합니다. 확산 모델과 MLLM 프레임워크는 내재된 시각적 유도에 대한 이점을 활용하여 모호한 인간 명령을 처리하고 이미지의 현실적인 편집을 달성합니다.

MGIE 프레임워크는 기존의 두 가지 접근 방식에서 영감을 받았습니다: 지침 기반 이미지 편집 및 비전 대형 언어 모델.

지침 기반 이미지 편집은 인간의 명령을 따르도록 함으로써 시각적 조작의 접근성과 제어성을 크게 향상시킬 수 있습니다. 지침 기반 이미지 편집을 위한 두 가지 주요 프레임워크가 있습니다. GAN 프레임워크와 확산 모델입니다. GAN 또는 생성적 적대적 네트워크는 이미지를 변경할 수 있지만 특정 도메인에 제한되거나 비현실적인 결과를 생성할 수 있습니다. 다른 한편으로, 확산 모델은 대규모 훈련을 통해 전역 맵에 대한 교차 모드 주의를 제어하여 이미지 편집 및 변환을 달성할 수 있습니다. 지침 기반 편집은 지역 마스크 및 자세한 설명에 제한되지 않는 직접 명령을 입력으로 받습니다. 그러나 제공된 지침이 모호하거나 편집 작업을 따르기에 충분히 정확하지 않을 수 있는 확률이 있습니다.

비전 대형 언어 모델은 텍스트 생성 및 일반화 능력으로 유명하며, 다양한 작업에서 강력한 텍스트적 이해를 가지고 있으며, 실행 가능한 프로그램 또는 의사 코드를 생성할 수 있습니다. 대형 언어 모델의 이러한 능력으로 인해 MLLM은 이미지에 대한 시각적 특징을 인식하고 시각적 특징 정렬 및 지침 조정을 통해 적절한 응답을 제공할 수 있습니다. 최근 모델은 MLLM을 채택하여 입력 텍스트 또는 채팅과 관련된 이미지를 생성했습니다. 그러나 MGIE와 MLLM 또는 VLLM을 구분하는 사실은 bahwa MGIE는 이미지 편집 능력을 향상시키기 위해 MLLM의 능력을 활용하여 파생된 지침을 사용한다는 것입니다.

MGIE: 아키텍처 및 방법론

전통적으로 대형 언어 모델은 자연어 처리 생성 작업에 사용되었습니다. 그러나 MLLM이 주류가 되면서, LLM은 이미지 입력을 인식하고 시각적으로 인식된 응답을 제공할 수 있는 능력을 갖추게 되었습니다. 일반적으로, 다중 모드 대형 언어 모델은 사전 훈련된 LLM에서 초기화되며, 시각적 인코더와 어댑터를 포함하여 시각적 특징을 추출하고 시각적 특징을 언어 모달리티로 투영합니다. 따라서 MLLM 프레임워크는 시각적 입력을 인식할 수 있지만 출력은 여전히 텍스트로 제한됩니다.

제안된 MGIE 프레임워크는 이 문제를 해결하고, MLLM을 훈련하여 입력 이미지 및 텍스트 지침을 기반으로 출력 이미지를 편집하도록 합니다. 이를 달성하기 위해, MGIE 프레임워크는 MLLM을 포함하며, 정교한 표현적인 텍스트 지침을 파생하도록 훈련합니다. 또한, MGIE 프레임워크는 시각적 모달리티와 언어 모달리티 간의 간격을 연결하기 위해 특별한 이미지 토큰을 추가하며, 모달리티 변환을 위한 편집 헤드를 채택합니다. 이러한 모달리티는 다중 모드 대형 언어 모델의 잠재적인 시각적 상상력을 제공하며, 확산 모델을 편집 작업을 수행하도록 지시합니다. MGIE 프레임워크는 시각적 인식 작업을 통해 합리적인 이미지 편집을 수행할 수 있습니다.

정교한 표현 지침

전통적으로, 다중 모드 대형 언어 모델은 지침 조정 및 특징 정렬을 통해 시각적으로 관련된 응답을 제공할 수 있습니다. 이미지 편집을 위해, MGIE 프레임워크는 이미지와 함께 주요 언어 입력으로 텍스트 프롬프트를 사용하며, 편집 명령에 대한 자세한 설명을 파생합니다. 그러나 이러한 설명은 너무 길거나 반복적인 설명을 포함할 수 있으며, 의도를 잘못 해석하여 MGIE가 요약기를 적용하여 간결한 설명을 얻도록 합니다. 프레임워크는 이러한 지침을 정교한 지침으로 간주하며, 교차 엔트로피 손실을 사용하여 다중 모드 대형 언어 모델을 교사 강화로 훈련합니다.

정교한 지침을 사용하면 텍스트 지침과 비교하여 더 구체적인 아이디어를 제공하며, 프레임워크의 효율성을 더욱 향상시킵니다. 또한, MGIE 프레임워크는 추론 기간 동안 외부 요약을 사용하지 않고 정교한 지침을 파생합니다. 따라서 MGIE 프레임워크는 편집 의도에 대한 시각적 상상을 이해할 수 있지만 여전히 언어 모달리티로 제한됩니다. 이 장애물을 극복하기 위해, MGIE 모델은 정교한 지침 뒤에 학습 가능한 단어 임베딩을 사용하여 특정 수의 시각적 토큰을 추가하여 MLLM이 언어 모델 헤드를 사용하여 생성할 수 있습니다.

잠재적 상상력과 이미지 편집

다음 단계에서, MGIE 프레임워크는 편집 헤드를 사용하여 이미지 지침을 실제 시각적 지침으로 변환합니다. 편집 헤드는 시퀀스에서 시퀀스로 모델링하는 것으로, MLLM에서 시각적 토큰을 의미있는 잠재적 인 시맨틱으로 매핑하여 편집 지침을 제공합니다. 더 구체적으로, 단어 임베딩에 대한 변환은 시각적 모달리티에서 일반적인 표현으로 해석될 수 있으며, 편집 의도에 대한 인스턴스 인식 시각적 상상력 구성 요소를 사용합니다. 또한, 시각적 상상력을 사용하여 이미지 편집을 지시하기 위해, MGIE 프레임워크는 잠재적 확산 모델을 포함하며, 이는 변분 오토인코더와 잠재적 공간에서 노이즈 제거 확산을 다룹니다. 잠재적 확산 모델의 주요 목표는 편집 지침을 따르면서 잠재적 입력을 유지하는 잠재적 목표를 생성하는 것입니다. 확산 과정은 시간 간격에 걸쳐 잠재적 목표에 노이즈를 추가하며, 시간 간격이 증가함에 따라 노이즈 수준도 증가합니다.

MGIE 학습

다음 그림은 제안된 MGIE 프레임워크의 학습 알고리즘을 요약합니다.

그것이 관찰될 수 있듯이, MLLM은 지침 손실을 사용하여 정교한 표현 지침을 파생합니다. 입력 이미지 지침에서 잠재적 상상력을 사용하여, 프레임워크는 편집 헤드의 모달리티를 변환하며, 확산 모델을 편집 작업을 수행하도록 지시합니다. 마지막으로, 프레임워크는 대부분의 가중치를 동결하여 매개변수 효율적인 종단 간 훈련을 수행합니다.

MGIE: 결과 및 평가

MGIE 프레임워크는 IPr2Pr 데이터셋을 주요 사전 훈련 데이터로 사용하며, 이는 CLIP-필터링된 데이터 100만 개 이상을 포함하며, GPT-3 모델 및 Prompt-to-Prompt 모델에서 추출한 지침을 포함합니다. 또한, MGIE 프레임워크는 CLIP 텍스트 인코더와 확산 모델을 사용하는 InsPix2Pix 프레임워크를 지침 기반 이미지 편집 작업의 기준선으로 처리합니다. MGIE 모델은 또한 지침 전용 입력에서 표현 지침을 위한 LLM-가이드 이미지 편집 모델을 고려합니다.

양적 분석

다음 그림은 IPr2Pr 데이터셋으로만 훈련된 모델의 제로샷 설정에서 편집 결과를 요약합니다. GIER 및 EVR 데이터와 관련된 포토샵 스타일 수정의 경우, 표현 지침은 모호한 명령ではなく 구체적인 목표를 나타낼 수 있으며, 편집 결과가 편집 의도와 더 잘 일치하도록 합니다.

InsPix2Pix 모델과 마찬가지로 LGIE 및 MGIE는 동일한 데이터로 훈련되었습니다. 그러나 LGIE는 단일 모달리티로 제한되며, MGIE는 이미지에 대한 접근을 허용하여 명시적인 지침을 파생할 수 있습니다. MGIE 프레임워크는 상당한 성능 향상을 제공할 수 있습니다.

특정 목적을 위한 지침 기반 이미지 편집 작업의 성능을 평가하기 위해, 개발자는 각 데이터셋에서 여러 모델을 미세 조정합니다. 다음과 같이 요약된 표입니다.

그것이 관찰될 수 있듯이, EVR 및 GIER의 포토샵 스타일 편집 작업을 위한 모델을 미세 조정한 후, 모델은 성능이 향상된 것을 보여줍니다. 그러나 미세 조정이 표현 지침을 더 도메인 특정으로 만듦에 따라, MGIE 프레임워크는 대규모 언어 모델의 도메인 관련 지침을 학습하여 확산 모델이 미세 조정된 대형 언어 모델의 이점을 받으며, 로컬 수정 및 로컬 최적화를 모두 혜택을 받습니다. 또한, 시각적으로 인식된 지침이 편집 의도와 더 잘 일치하므로, MGIE 프레임워크는 일관되게 LGIE 모델보다 우수한 결과를 제공합니다.

다음 그림은 입력 또는 실제 목표 이미지와 표현 지침 간의 CLIP-S 점수를 보여줍니다. 더 높은 CLIP 점수는 편집 소스와 지침의 관련성을 나타내며, MGIE는 입력 및 출력 이미지 모두에서 LGIE 모델보다 더 높은 CLIP 점수를 보입니다.

질적 결과

다음 이미지는 MGIE 프레임워크의 질적 분석을 완벽하게 요약합니다.

그것이 알려져 있듯이, LGIE 프레임워크는 단일 모달리티로 제한되며, 언어 기반의 단일 통찰력을 가지고 있으며, 이미지 편집을 위해 잘못된 또는 관련이 없는 설명을 파생할 수 있습니다. 그러나 MGIE 프레임워크는 다중 모달이며, 이미지에 대한 접근을 허용하여 편집 작업을 완료하고, 실제로 잘 일치하는 편집 의도와 일치하는 명시적인 시각적 상상을 제공합니다.

최종 생각

이 기사에서, 우리는 MGIE 또는 MLLM 가이드 이미지 편집에 대해 논의했습니다. MGIE는 MLLM에 의해 영감을 받은 연구로, 다중 모드 대형 언어 모델의 능력과 텍스트 또는 가이드 지침을 사용하여 편집을 지원하는 방법을 분석합니다. MGIE 편집 모델은 시각적 정보를 이해하고 종단 간 훈련을 통해 편집을 수행합니다. MGIE의 영향에 대해 깊이 있게 обс論하고, 글로벌 이미지 최적화, 포토샵 스타일 수정 및 로컬 편집에 대한 MGIE의 중요성을 논의했습니다. 지침 기반 이미지 편집 작업에서 표현 지침을 사용하는 MGIE의 중요성을 논의했습니다. 탐색을 시작했습니다.