Anderson의 관점

AI 이미지 편집의 정확성 향상

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Adobe의 Firefly 잠재 확산 모델(LDM)은 현재 사용 가능한 최고의 모델 중 하나로 여겨지지만, Photoshop 사용자들은 이미지를 쉽게 편집할 수 없다는 것을 알게 될 것입니다. 대신 사용자의 선택 영역을 텍스트 프롬프트에 기반한 이미지로 완전히 대체합니다(ただし, Firefly는 생성된 섹션을 이미지의 컨텍스트에 통합하는 데 능숙합니다).

현재 베타 버전에서는 Photoshop가至少 참조 이미지를 부분 이미지 프롬프트로 포함할 수 있으며, 이는 Adobe의 플래그십 제품을 Stable Diffusion 사용자가 2년 이상 즐겨온 기능과 일치시킵니다. 이러한 기능은 제3자 프레임워크인 Controlnet 덕분에 가능합니다.

현재 Adobe Photoshop 베타 버전은 선택 영역 내에서 새 콘텐츠를 생성할 때 참조 이미지를 사용할 수 있습니다. 그러나 현재는 성공과 실패가 반복되는 과정입니다.

이것은 이미지 합성 연구에서 열린 문제를 보여줍니다. 즉, 확산 모델이 기존 이미지를 편집할 때 사용자가 지정한 선택 영역을 완전히 재구성하는 것을 구현하지 않고 편집하는 것이 어렵습니다.

이 확산 기반 inpaint는 사용자의 프롬프트를 따르지만 원본 주제를 고려하지 않고 완전히 재창조합니다(ただし, 새로운 생성을 환경과 혼합합니다). 출처: https://arxiv.org/pdf/2502.20376

이 문제는 LDM이 반복적인 노이즈 제거를 통해 이미지를 생성하기 때문입니다. 여기서 각 단계는 사용자가 제공한 텍스트 프롬프트에 조건화됩니다. 텍스트 프롬프트 내용이 임베딩 토큰으로 변환되고, Stable Diffusion이나 Flux와 같은 대규모 모델에는 수백만 개의 프롬프트와 관련된 임베딩이 포함되어 있으므로, 이 프로세스는 계산된 조건부 분포를 목표로 하며, 각 단계는 이 ‘조건부 분포 목표’를 향한 단계입니다.

따라서 텍스트에서 이미지로의 시나리오에서는 사용자가 최선을 기대할 수밖에 없습니다. 왜냐하면 생성 결과가 정확히 어떤 것일지 알 수不存在하기 때문입니다.

대신, 많은 사람들이 이미지를 편집하기 위해 LDM의 강력한 생성 능력을 사용하려고 시도했습니다. 그러나 이것은 신뢰도와 유연성 사이의 균형을 잡는 것을 의미합니다.

이미지를 모델의 잠재 공간으로 투영하는 방법으로 DDIM 반전과 같은 방법이 있습니다. 여기서 목표는 원본을 가능한 한 정확하게 복구하면서도 의미 있는 편집을 허용하는 것입니다. 그러나 문제는 이미지의 원본 구조에 càng 더 밀접하게 재구성할수록, 주요 수정을 어렵게 만든다는 것입니다.

最近 몇 년 동안 제안된 다른 확산 기반 이미지 편집 프레임워크와 마찬가지로, Renoise 아키텍처는 이미지의外観을 실제로 변경하는 데 어려움을 겪습니다. 고양이의 목에 보.tie가 나타나는 것만으로도 충분하지 않습니다.

반면에, 프로세스가 편집 가능성을 우선한다면, 모델은 원본에서 느슨해지며, 변경을 도입하기가 더 쉬워지지만, 전체 일관성과 원본 이미지의 일관성이 저하됩니다.

미션 성공! 그러나 대부분의 AI 기반 이미지 편집 프레임워크에서는 변형이 아닌 조정입니다.

이 문제는 Adobe의 상당한 자원이 해결하려고 노력하고 있지만, 쉽게 해결될 수 없는 도전이라고 간주할 수 있습니다.

타이트 반전

따라서 이번 주에 발표된 새로운 논문의 예제는 주목할 만합니다. 이 연구는 현재 상태에 대한 유용한 개선과 함께, 모델의 잠재 공간에 투영된 이미지에 세련된 편집을 적용할 수 있음을 보여주기 때문입니다. 편집은 원본 콘텐츠를 압도하지 않고, 무시할 수 없는 것이 아닙니다.

기존의 반전 방법에 Tight Inversion을 적용하면, 원본 선택 영역이 훨씬 더 세부적으로 고려되고, 변환은 원본 물질을 덮어쓰지 않고 그에 따라 조정됩니다.

LDM 취미愛好者와 실무자는 이러한 종류의 결과를 인식할 수 있습니다. 왜냐하면 이러한 결과는 외부 시스템인 Controlnet과 IP-Adapter를 사용하여 복잡한 워크플로우에서 생성할 수 있기 때문입니다.

사실 새로운 방법은 Tight Inversion으로 불리며, IP-Adapter와 함께 전용 얼굴 기반 모델을 사용하여 인간 묘사를 위한 것입니다.

원본 2023 IP-Adapter 논문에서, 원본 물질에 대한 적절한 편집 예시. 출처: https://arxiv.org/pdf/2308.06721

Tight Inversion의 중요한 성과는 복잡한 기술을 단일 드롭인 플러그인 모달리티로 절차화하여 기존 시스템, 특히 가장 인기 있는 LDM 배포판에 적용할 수 있다는 것입니다.

자연스럽게, 이것은 Tight Inversion(TI)이, IP Adapter를 사용하여 시각 정보를 모델에 공급하여, 원본 이미지를 더 정확하게 재구성하고, 원본 이미지를 조건 토큰으로 변환하여, 반전 파이프라인에 투영한다는 것을 의미합니다.

이러한 매개변수는 편집 가능합니다. 원본 이미지의 영향을 증가시키면 재구성이 거의 완벽해지며, 감소시키면 더 창의적인 변경이 가능해집니다. 이것은 Tight Inversion을 미묘한 수정, 예를 들어 셔츠 색상을 변경하는 것과 같은 것에 유용하게 만들뿐만 아니라, 더 중요한 편집, 예를 들어 객체를 교체하는 것에도 유용하게 만듭니다. 다른 반전 방법의 일반적인 부작용, 즉 세부 사항의 손실 또는 배경 콘텐츠의 예상치 못한 왜곡 없이입니다.

저자들은 다음과 같이 말합니다:

‘우리는 Tight Inversion이 이전의 반전 방법(e.g., Edit Friendly DDPM, ReNoise)과 쉽게 통합될 수 있으며, 이러한 방법의 성능을 재구성과 편집 가능성 측면에서 일관되게 향상시킬 수 있다고 주장합니다.’

방법

초기에는 대규모 언어 모델(LLM)을 사용하여 이미지 생성을 위한 다양한 텍스트 프롬프트를 생성합니다. 그런 다음 앞서 언급한 DDIM 반전이 각 이미지에 적용됩니다. 세 가지 텍스트 조건이 있습니다. 이미지 생성을 위한 텍스트 프롬프트, 동일한 텍스트의 짧은 버전, 및 null(빈) 프롬프트.

이 프로세스에서 반환된 노이즈는 다시 동일한 조건으로 이미지 생성을 위해 사용되며, 분류기 자유 가이드(CFG) 없이 생성됩니다.

다양한 메트릭에서 DDIM 반전 점수와 텍스트 프롬프트 설정의 변화.

위 그래프에서 볼 수 있듯이, 텍스트 길이가 증가함에 따라 점수가 다양한 메트릭에서 향상됩니다. 여기서 사용된 메트릭은 피크 신호 대 노이즈 비율(PSNR), L2 거리, 구조적 유사성 지수(SSIM), 및 학습된 지각적 이미지 패치 유사성(LPIPS)입니다.

이미지-의식적

효과적으로 Tight Inversion은 호스트 확산 모델이 실제 이미지를 편집하는 방식을 변경하여, 반전 프로세스를 이미지 자체에 조건화함으로써, 텍스트 프롬프트에만 의존하지 않습니다.

일반적으로, 이미지를 확산 모델의 노이즈 공간으로 반전시키는 데에는 시작 노이즈를 추정하는 것이 필요합니다. 이 노이즈는 재구성될 때 입력을 재구성합니다. 표준 방법은 이 프로세스를 안내하기 위해 텍스트 프롬프트를 사용합니다. 그러나 불완전한 프롬프트는 오류를 유발하여 세부 사항을 잃거나 구조를 변경할 수 있습니다.

Tight Inversion은 대신 IP Adapter를 사용하여 시각 정보를 모델에 공급하여, 이미지의 재구성을 더 정확하게 수행하고, 원본 이미지를 조건 토큰으로 변환하여, 반전 파이프라인에 투영합니다.

저자들은 다음과 같이 말합니다:

데이터 및 테스트

연구자들은 TI의 실제 이미지 재구성 및 편집 능력을 평가했습니다. 모든 실험은 Stable Diffusion XL과 DDIM 스케줄러를 사용하여 수행되었으며, 원본 Stable Diffusion 논문에 설명된 대로 수행되었습니다. 모든 테스트는 50개의 노이즈 제거 단계와 기본 가이드 스케일 7.5를 사용했습니다.

이미지 조건화에는 IP-Adapter-plus sdxl vit-h가 사용되었습니다. 몇 단계 테스트에서는 SDXL-Turbo와 오일러 스케줄러를 사용했으며, 또한 FLUX.1-dev와 함께 실험을 수행했으며, 후자의 경우 PuLID-Flux로 모델을 조건화했으며, RF-Inversion을 28단계에서 사용했습니다.

PulID는 인간 얼굴을 특징으로 하는 도메인에서만 사용되었습니다. 왜냐하면 이것이 PulID가 훈련된 도메인이기 때문입니다. 우리가 인간 얼굴을 생성하는 데 관심이 많다는 것을 고려할 때, Stable Diffusion과 같은 기초 모델의 더 넓은 가중치를 사용하는 것만으로는 이 특정 작업에 대한 우리의 요구 사항을 충족하기에 충분하지 않을 수 있습니다.

재구성 테스트는 질적 및 양적 평가를 위해 수행되었습니다. 아래 이미지는 DDIM 반전의 질적 예시입니다.

DDIM 반전의 질적 결과. 각 행은 매우 자세한 이미지를 재구성 버전과 함께 보여주며, 각 단계는 반전 및 노이즈 제거 중에 점점 더 정확한 조건을 사용합니다. 조건이 더 정확해질수록 재구성 품질이 향상됩니다. 오른쪽 열은 최고의 결과를 보여주며, 원본 이미지를 조건으로 사용하여 최고의 충실도를 달성합니다. CFG는 어느 단계에서도 사용되지 않았습니다. 더 나은 해상도와 세부 정보를 위해 원본 문서를 참조하십시오.

논문은 다음과 같이 말합니다:

‘이 예제는 반전 프로세스를 이미지에 조건화하면 세부 사항이 많은 영역에서 재구성이 크게 향상됨을 강조합니다. ‘

‘특히, [이미지 아래의] 세 번째 예제에서 우리의 방법은 우승자의 등에 있는 문신을 성공적으로 재구성합니다. 또한, 권투 선수의 다리 자세가 더 정확하게 보존되고, 다리에는 문신이 나타납니다.’

DDIM 반전의 추가 질적 결과. 설명 조건은 DDIM 반전을 개선하며, 이미지 조건화는 특히 복잡한 이미지에서 텍스트를 초과합니다.

저자들은 또한 Tight Inversion을 기존 시스템의 드롭인 모듈로 테스트했으며, 수정된 버전을 기준 성능과 비교했습니다.

테스트된 세 가지 시스템은 앞서 언급한 DDIM 반전과 RF-Inversion이었습니다. 또한 ReNoise를 테스트했으며, 이 시스템은 논문 저자와 공저자입니다. DDIM 결과가 100% 재구성을 얻는 데 어려움이 없기 때문에, 연구자들은 편집 가능성에만 집중했습니다.

좌, SDXL과 함께 Tight Inversion의 질적 재구성 결과. 우, Flux와 함께 재구성. 원본 문서의 레이아웃으로 인해 여기서 결과를 재현하기가 어렵습니다. 원본 PDF를 참조하여 실제 차이를 알 수 있습니다.

여기서 저자들은 다음과 같이 말합니다:

‘이 예제는 기존 방법과 통합된 Tight Inversion이 재구성을 일관되게 향상시킵니다. 예를 들어, 우리의 방법은 왼쪽 예제에서 난간을 정확하게 재구성하며, 오른쪽 예제에서 파란 셔츠를 입은 남자를 재구성합니다 [논문의 그림 5].’

저자들은 또한 시스템을 양적으로 테스트했습니다. 이전 연구와 일관되게, 검증 세트를 사용했으며, MS-COCO를 사용했습니다. 결과는 다음과 같습니다.

Tight Inversion을 사용하여 시스템의 성능 메트릭 비교.

다음으로, 저자들은 시스템의 사진 편집 능력을 테스트했습니다. 이를 위해 baseline 버전의 이전 접근 방식 prompt2prompt, Edit Friendly DDPM, LED-ITS++, 및 RF-Inversion과 비교했습니다.

아래는 논문의 일부 질적 결과입니다(SDXL 및 Flux). 원본 문서를 참조하여 더 많은 예시와 더 나은 해상도를 확인하십시오.

스프롤링 질적 결과의 일부. 원본 PDF를 참조하여 더 나은 해상도와 의미 있는 명확성을 얻으십시오.

저자들은 Tight Inversion이 기존의 반전 기술보다 재구성과 편집 가능성 사이의 더 나은 균형을 제공한다고 주장합니다. 표준 방법은 이미지의 세부 사항을 유지하는 데 어려움을 겪을 수 있으며, 편집이 적용되면 오류나 구조적 불일치가 발생할 수 있습니다. 반면에, Tight Inversion은 모델의 출력을 원본 이미지에 더密接하게錬接하여 이러한 문제를 완화합니다.

마지막으로, 저자들은 MagicBrush 벤치마크를 사용하여 양적 결과를 얻었습니다. 여기서 DDIM 반전과 LEDITS++를 사용했으며, CLIP Sim을 측정했습니다.

Tight Inversion과 MagicBrush 벤치마크의 양적 비교.

저자들은 다음과 같이 결론합니다:

‘이 그래프에서 이미지 보존과 편집 대상과의 트레이드오프가 명확히 관찰됩니다. Tight Inversion은 이 트레이드오프에 대한 더 나은 제어를 제공하며, 입력 이미지를 보존하면서 편집과 일치합니다. ‘

‘CLIP 유사성이 0.3 이상인 이미지는 편집과 일치한다는 것을 주목하십시오.’

결론

Tight Inversion은 LDM 기반 이미지 합성의 가장 어려운 도전 중 하나를 해결하는 획기적인 성과는 아닙니다. 그러나 이 방법은 여러 번거로운 보조 접근 방식을 통합하여 AI 기반 이미지 편집의 상태를 향상시킵니다.

편집 가능성과 충실도 사이의 긴장은 완전히 사라지지 않지만, 결과에 따르면 현저히 감소합니다. 이 작업에서 해결하려고 하는 중심 도전이 궁극적으로 불가능할 수 있다는 것을 고려할 때(즉, 미래 시스템에서 LDM 기반 아키텍처를 넘어서는 것), Tight Inversion은 상태를 향상시키는 환영할 만한 점진적인 개선입니다.

처음 게시된 날: 2025년 2월 28일