Connect with us

Unite.AI

AIが過去の時代にiPhoneを描写するのを止める方法

Andersonの視点

AIが過去の時代にiPhoneを描写するのを止める方法

Published May 26, 2025

Updated April 26, 2026

By

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

AIの画像生成器はどのようにして過去を描写するのか。新しい研究によると、18世紀にスマートフォンを配置し、1930年代のシーンにラップトップを挿入し、19世紀の家に掃除機を置くなど、歴史的背景の正確性について疑問を提起している。

2024年初頭、GoogleのGeminiマルチモーダルAIモデルは、第二次世界大戦中のドイツ軍兵士にありそうもない出自を持たせるなど、不適切な文脈で人種的公平性を課すことについて批判された。

Geminiマルチモーダルモデルによって2024年に描かれた、ありそうもないドイツ軍人。

Geminiマルチモーダルモデルによって2024年に描かれた、ありそうもないドイツ軍人。 ソース: Gemini AI/Google via The Guardian

これは、AIモデルにおける偏見を是正しようとする試みが歴史的背景を考慮していない例である。この問題は、その後すぐに解決された。しかし、拡散ベースのモデルは、現代と歴史的側面や遺物を混同した歴史のバージョンを生成する傾向がある。

これは、エンタングルメントのためである。つまり、トレーニングデータで頻繁に一緒に出現する特性がモデル出力で結びつくことになる。たとえば、モダンなオブジェクトであるスマートフォンが、データセットで会話や聴く行為と共に頻繁に出現する場合、モデルはこれらの行為をモダンなデバイスと関連付けることを学習し、プロンプトが歴史的背景を指定していても、歴史的正確性のない結果になる。

スイスの新しい論文は、潜在的な拡散モデルにおける歴史的生成のエンタングルメント現象を調査し、歴史上の人物を歴史的な方法で描写することを好むAIフレームワークを観察している。

新しい論文からの、LDMによる「[歴史的時代]の友人と笑っている人の写実的な画像」のプロンプトによる多様な表現。

新しい論文からの、LDMによる「[歴史的時代]の友人と笑っている人の写実的な画像」のプロンプトによる多様な表現。 ソース: https://arxiv.org/pdf/2505.17064

プロンプト「[歴史的時代]の友人と笑っている人の写実的な画像」に対して、3つのテストされたモデルは、指定された時代のビジュアルメディアの特徴を反映したカラートリートメントを使用することが多い。

このテストでは、モデルは「モノクロ」という否定的なプロンプトを無視し、1950年代と1970年代のセルロイドフィルムのミューテッドトーンを模倣する。

繊細な「真実」

この論文のテーマのいくつかは、歴史的表現における人種や性別の表現に関する文化的に敏感な問題に触れている。Geminiの、第三帝国における人種的平等の課しは、歴史的修正主義であり、歴史を侮辱するものである。

近年の歴史ドラマ、Bridgertonのように、歴史的人口統計の正確さをぼかした表現は、将来のトレーニングデータセットに影響を与える可能性があり、LLM生成の時代遅れの画像を従来の標準と一致させる努力を複雑にしている。

しかし、これは複雑なテーマである。歴史的背景を考慮して、歴史的正確性と文化的感受性のバランスを取る必要がある。

方法とテスト

歴史的背景をどのように解釈するかをテストするために、著者は30,000枚の画像からなる「HistVis」というデータセットを作成した。これは、10の異なる時代にわたる100のプロンプトから生成されたものである。

HistVisデータセットのサンプル。

HistVisデータセットのサンプル。 ソース: https://huggingface.co/datasets/latentcanon/HistVis

活動は、普遍性のために選択され、ニュートラルな形式で提示された。

視覚スタイルの優位性

著者は、モデルが特定の視覚スタイルを歴史的時代にデフォルトで使用するかどうかを調査した。

プロンプト「[歴史的時代]の2人の人がダンスをしている」の生成画像の視覚スタイルの予測。

プロンプト「[歴史的時代]の2人の人がダンスをしている」の生成画像の視覚スタイルの予測。

歴史的一貫性

次の分析では、生成された画像に時代に合わないオブジェクトが含まれているかどうかを調べた。

2段階の検出方法によって特定された、時代に合わない要素を含む生成画像の例。

2段階の検出方法によって特定された、時代に合わない要素を含む生成画像の例。

人種

最終的な分析では、モデルが歴史を通じて人種や性別をどのように描写するかを調べた。

生成画像にみられる人種や性別の過剰表現の例。

生成画像にみられる人種や性別の過剰表現の例。

結論

拡散モデルをトレーニングする際、新しい概念は、潜在的な空間に整然と整理されたスロットに収まるのではなく、クラスターを形成する。結果として、概念は、頻度や関連するアイデアとの近さによって形成された、緩く構造化された空間を占めることになる。

これは、歴史的時代を「歴史的」という意味で分離することを困難にする。新しい論文の発見は、多くの時代が、歴史的詳細よりも、表現されたメディアの「見た目」によって表現されることを示唆している。

これは、2025年の写真のような写実的な画像を19世紀のキャラクターに生成するのが難しい理由の1つである。ほとんどの場合、モデルは映画やテレビから借用した視覚的なトロープに頼ることになる。モデルがこのギャップを埋めるには、将来の概念の解離の改善に依存する必要がある。

2025年5月26日初めて公開

Related Topics:AI image image classification image generation latent diffusion

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。