Anderson의 관점
AI 이미지 환각 현상을 과장함으로써 줄이기

ChatGPT 스타일의 비전 모델은 종종 이미지에 속하지 않는 요소를 ‘환각’으로 생성합니다. 새로운 방법은 캡션을 기반으로 모델 자신의 환각을 과장된 버전으로 보여주고 다시 시도하도록 요청함으로써 이러한 오류를 줄입니다. 이 접근 방식은 재훈련이나 추가 데이터가 필요하지 않으며, 다양한 모델과 모델 유형에 적용할 수 있습니다.
중국에서 발표된 새로운 논문은 AI 생성 이미지와 비디오에서 사용자의 요청과 입력을 기준으로 분명히 이미지에 있어서는 안 되는 요소인 환각 현상이라는 성가시게 지속되는 문제에 대한 흥미로운 관점을 제시합니다.
본질적으로, 이 시스템은 이미지를 가져와 모델이 평소처럼 설명하게 합니다. 그런 다음 텍스트-이미지 모델을 사용하여 해당 캡션을 새로운 이미지로 변환합니다. 이 두 번째 이미지에 있는 추가 객체나 세부 사항은 모델의 초기 환각을 직접적으로 나타냅니다. 그런 다음 원본 이미지와 생성된 이미지를 비교함으로써 시스템은 모델이 다음에 시도할 때 그런 오류에서 부드럽게 벗어나도록 유도합니다.

새로운 방법이 이미지 캡션에서 환각을 식별하고 줄이는 방법을 보여주는 그림. 일반 모델은 원본 이미지에 존재하지 않는 새들을 설명하여, 이를 추가한 재구성 이미지를 만들어냅니다. 이러한 오류는 빨간색으로 표시되어 있습니다. 대조적으로, 제안된 방법은 이러한 발명된 세부 사항을 피하면서도 캡션을 구체적이고 유창하게 유지합니다. 출처: https://arxiv.org/pdf/2509.21997
이 방법은 모델에 실제 이미지를 보여주고 설명하게 하는 것으로 시작하며, 그 설명에는 실제로 존재하지 않는 객체나 세부 사항이 포함될 수 있습니다. 이러한 환각된 캡션은 오류를 더 쉽게 발견할 수 있도록 합성 이미지를 생성하는 데 사용됩니다. 실제 이미지와 생성된 이미지를 비교함으로써 시스템은 모델 내부의 어떤 패턴이 꾸며낸 내용을 생성하는 경향이 있는지 학습합니다.
이러한 오류 패턴이 식별되면 저장되어 나중에 사용될 수 있습니다. 모델에 새로운 이미지가 주어지면 시스템은 캡션 생성 중 내부 신호를 조정하여, 환각을 유발하는 것으로 알려진 패턴에서 멀어지도록 미세 조정합니다. 이는 단일 패스로 작동하며 추가 데이터, 재훈련 또는 테스트 시 새로운 이미지 생성이 필요하지 않습니다.
뒤엉킨 연결망
위 논문의 예시에서 볼 수 있듯이, 첫 번째 이미지에 새가 포함되어 있지 않음에도 불구하고 ‘새’를 입력 이미지에 장식하는 데는 엔탱글먼트(entanglement)가 책임이 있을 가능성이 높습니다.
엔탱글먼트는 모델이 특정 개념들을 단지 두 개(또는 그 이상)의 개념이 모델이 훈련된 원본 데이터 분포에서 자주 함께 나타나는 경향이 있기 때문에 서로 연관시키려고 고집할 때 발생합니다. 이 경우 모델은 비행기+새의 많은 사진을 보았을 수 있으며, 이는 해당 특정 사진에는 적용되지 않지만 파생된 캡션에 침입하는 연관성을 유발합니다.
엔탱글먼트는 훈련을 더 일찍 중단함으로써 완화될 수 있지만(일반적으로 모델을 최대한 유연하고 적응 가능하게 만듦), 이는 또한 모든 훈련된 개념의 세부 사항과 해상도를 감소시켜 모델 훈련자에게 영원한 딜레마를 남깁니다: 매우 유연하고 분리된(disentangled) 모델을 만들 것인가, 아니면 더 강력하게 생성적이지만 동시에 ‘연관된’ 환각을 생성할 가능성이 더 높은 모델을 만들 것인가?
생성 모델을 위한 원본 데이터 큐레이션에서 캡션의 질과 세부 사항에 대한 주의가 일반적인 물류가 허용하는 것보다 더 좋았다면, 모든 소스 이미지에 대한 캡션은 각 그림의 모든 객체를 상세히 설명했을 것이며, 훈련된 모델은 이를 잠재 공간(latent space)에서 개별적이고 분리된 항목으로 할당할 수 있었을 것입니다.
현실적으로는, SEO 캡션 작성의 자기 서비스적 관행과, 진정으로 강력한 생성 모델을 훈련시키기 위한 최상의 원천으로서 임시적인(ad hoc) 초대규모 웹 스크래핑이 여전히 남아 있다는 사실은 이미지 캡션이 이 기준에 크게 미치지 못하는 경향이 있음을 의미합니다.

약한 캡션이 LAION 이미지가 Stable Diffusion과 같은 모델 훈련에 유용성을 제한하는 방법을 보여주는 그림. 많은 텍스트 레이블은 얕고, 모호하거나, 정확한 설명보다는 SEO 최적화되어 있어, 모델이 얼굴 특징과 같은 세분화된 시각적 개념을 학습하기 어렵게 만듭니다. (원본 출처는 https://rom1504.github.io/, 현재 폐쇄됨).
따라서, 근본적인 해결책이 실용적이지 않을 가능성이 높기 때문에, 우회와 타협을 통한 LLM/VLM 환각 감소는 이제 문헌에서 강력한 하위 흐름이 되었습니다.
이번 주에 공개된 새로운 중국 기술은 다양한 조건에서 다양한 아키텍처에 걸쳐 테스트되었으며, ‘환각 오염’을 줄이는 유용한 방법을 나타낼 수 있다고 저자들은 밝혔습니다.
그들은 다음과 같이 말합니다.
‘다양한 벤치마크에 걸친 광범위한 실험은 우리의 방법이 객체, 속성, 관계 수준에서 환각을 크게 줄이면서도 재현율과 캡션 [풍부함]을 크게 보존한다는 것을 보여줍니다.’
새 논문은 Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors라는 제목이며, 중국과학기술대학과 난징대학의 세 명의 연구자로부터 나왔습니다.
방법
저자들은 아래에 표시된 이미지 캡션에서 환각을 노출하고 억제하도록 설계된 종단 간(end-to-end) 파이프라인을 고안했습니다.

전체 파이프라인의 그림. 비전-언어 모델은 먼저 입력 이미지에서 캡션을 생성하며, 여기에는 환각된 내용이 포함될 수 있습니다. 이 캡션은 텍스트-이미지 모델을 통해 재구성된 이미지를 생성하는 데 사용되어 모든 환각을 더 쉽게 발견할 수 있게 합니다. 원본 이미지와 재구성된 이미지의 임베딩이 추출되어 디코더 내부 조정을 안내하는 데 사용되며, 모델이 캡션 품질을 유지하면서 환각된 세부 사항을 억제하도록 돕습니다.
실제 입력 이미지에서 시작하여, 비전-언어 모델은 발명된 객체나 관계를 포함할 수 있는 설명적 캡션을 생성합니다. 이 캡션은 텍스트-이미지 생성기에 입력되어 캡션이 설명하는 내용을 정확히 보여주는 재구성 이미지를 생성합니다. 이 재구성 이미지를 원본과 비교하면 꾸며낸 내용이 명백하고 측정 가능해져 텍스트의 미묘한 오류를 시스템이 대상으로 삼아 줄일 수 있는 가시적인 차이로 바뀝니다.
세부 사항을 ‘발명’하는 것을 모델이 피하도록 유도하기 위해, 시스템은 동일한 이미지의 두 버전(원본과 캡션을 기반으로 한 재구성 이미지)을 비교합니다. 각 이미지는 그 내용을 포착하는 간결한 임베딩(embedding)으로 변환됩니다.
원본 이미지는 신뢰할 수 있는 참조 역할을 하는 반면, 재구성 이미지는 환각이 어디에 스며들었는지 강조합니다. 내부 표현을 조정하여 원본에 더 가깝게, 재구성 이미지에서 더 멀어지게 함으로써 모델은 자동으로 스스로를 수정하는 법을 배웁니다. 이 과정은 수동으로 조정된 규칙이나 외부 데이터에 의존하지 않기 때문에 완전히 자기 지도 학습(self-supervised) 상태로 유지됩니다.
논문에서는 다음과 같이 말합니다.
‘MLLM의 환각은 언어적으로 잘 구성되어 있고 종종 텍스트 수준에서 충실한 설명과 구별하기 어렵기 때문에 본질적으로 감지하기 어렵습니다. 불일치는 언어적 타당성이 아니라 시각적 증거와의 부조합에 있으며, 모델 자체는 일반적으로 이에 둔감합니다.
‘이를 해결하기 위해, 우리는 암시적 불일치를 명시적이고 관찰 가능한 신호로 변환하기 위해 생성적 재구성을 활용하는 환각 노출 메커니즘을 도입합니다.’
입력 이미지와 그 캡션이 주어지면, 시스템은 FLUX.1-dev 텍스트-이미지 모델을 사용하여 캡션만으로 이미지를 재생성합니다. 이 재생성된 이미지는 캡션의 의미를 과장하는 경향이 있어 잘못된 세부 사항을 더욱 명확하게 만듭니다. 이렇게 증폭된 오류는 모델이 자신의 실수를 인식하고 수정하는 데 도움이 되는 유용한 신호 역할을 합니다.
자신들의 접근 방식을 테스트하기 위해, 저자들은 캡션에 환각을 주입하고 텍스트-이미지 모델을 사용하여 재구성 이미지를 생성했습니다. 이러한 이미지는 LLaVA에 의해 다시 캡션 처리되었으며, 원본 캡션과 환각된 캡션 간의 의미적 유사성이 평가되었습니다.

환각 증폭 메커니즘이 미묘한 오류를 가시적으로 만드는 방법을 보여주는 그림. 각 점은 하나의 이미지-캡션 쌍에 대해 원본 이미지와 재구성된 이미지의 캡션 간 유사성을 보여줍니다. 주황색 선은 원본 캡션과 환각된 캡션 사이에서 직접 측정된 유사성을 나타내며, 이는 높게 유지되어 작은 실수를 가립니다. 파란색 선은 재구성 후의 유사성을 나타내며, 이는 급격히 떨어져 이 과정이 숨겨진 환각을 감지하고 수정할 수 있는 명확한 의미적 표지로 바꾼다는 것을 보여줍니다.
재구성 후 유사도가 급격히 떨어지며, 이 과정이 미묘한 오류를 더 잘 감지할 수 있게 만든다는 것을 보여줍니다.
데이터 및 테스트
새로운 방법의 효과성을 검증하기 위해 세 가지 적절한 벤치마크가 사용되었습니다: Caption Hallucination Assessment with Image Relevance (CHAIR); MLLM Evaluation 벤치마크 (MME);












