Anderson의 관점

AI가 과거 시대에 아이폰을描写하는 것을 중단하는 방법

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

AI 이미지 생성기는 과거를 어떻게 묘사합니까? 새로운 연구에 따르면, 18세기에 스마트폰을 떨어뜨리고, 1930년대의 장면에 랩톱을 삽입하고, 19세기 집에 진공 청소를 배치하여, 이러한 모델이 역사에 대해 어떻게 상상하는지 그리고 آیا 그들이 역사적 정확성을 달성할 수 있는지에 대한 질문을 제기합니다.

2024년 초, Google의 Gemini 멀티모달 AI 모델의 이미지 생성 기능은 부적절한 상황에서 인종적 평등을 강요한 것으로 비판을 받았습니다. 예를 들어, WWII 독일군을 부적절한 출신으로 생성했습니다:

Demographically improbable German military personnel, as envisaged by Google’s Gemini multimodal model in 2024. Source: Gemini AI/Google via The Guardian

이것은 역사적 맥락을 고려하지 않고 AI 모델의 편향을 수정하려는 시도가 실패한 예입니다. 이 문제는 곧 해결되었습니다. 그러나 확산 기반 모델은 여전히 현대와 역사적인 측면 및 유물의 버전을 생성하는 경향이 있습니다.

이것은 부분적으로 연관성으로 인해 발생합니다. 여기서 훈련 데이터에서 자주 함께 나타나는 특성은 모델의 출력에서 융합됩니다. 예를 들어, الحديث 객체와 같은 현대 객체가 데이터셋에서 대화 또는 듣기 동작과 함께 자주 발생하면 모델은 이러한 동작을 현대 장치와 연관시킬 수 있습니다. 이러한 연관성이 모델의 내부 표현에 내장되면 활동을 그들의 현대적 맥락에서 분리하기가 어려워져 역사적으로 부정확한 결과가 발생합니다.

스위스에서 수행된 새로운 연구는 잠재 확산 모델에서 역사적 생성의 얽힘 현상을 조사하고, AI 프레임워크가 역사적 인물들을 역사적인 방식으로 묘사하는 것을 선호한다는 것을 관찰합니다:

From the new paper, diverse representations via LDM of the prompt’ ‘A photorealistic image of a person laughing with a friend in [the historical period]’, with each period indicated in each output. As we can see, the medium of the era has become associated with the content. Source: https://arxiv.org/pdf/2505.17064

… (중략)

결론

확산 모델을 훈련하는 동안, 새로운 개념은 잠재 공간 내의 미리 정의된 슬롯에 정리되지 않습니다. 대신, 관련된 아이디어와 함께 클러스터를 형성하며, 빈도와 일반적인 맥락에 의해 형성됩니다. 결과는 느슨하게 조직된 구조로, 개념은 깔끔하거나 경험적인 분리보다는 빈도와 일반적인 맥락에 의해 존재합니다.

이로 인해 대규모 일반-purpose 데이터셋 내에서 ‘歴史的’이 무엇인지 분리하기가 어렵습니다. 새로운 논문의 발견에 따르면, 많은 시간대는 묘사된 미디어의 ‘外観’으로 대표되는 경우가 많습니다.

이것은 19세기와 같은 특정 시대대의 2025년 품질의 사진 현실적인 이미지 생성이 어려운 이유 중 하나입니다. 대부분의 경우, 모델은 영화와 텔레비전에서 가져온 시각적 트로피에 의존할 것입니다. 이러한 요청이 실패할 때, 데이터에 보완할 수 있는 내용은 거의 없습니다. 이 간격을 메우는 것은 미래의 개선에 의존할 것입니다.

最初에 2025년 5월 26일에 게시되었습니다.