私達ず接続

AIが過ぎ去った時代のiPhoneを描くのを止める方法

アンダヌ゜ンの芖点

AIが過ぎ去った時代のiPhoneを描くのを止める方法

mm

公開枈み

 on

論文「合成歎史拡散モデルにおける過去の芖芚的衚珟の評䟡」https://arxiv.org/abs/2505.17064から厳遞した様々なむラストのモンタヌゞュ

AI画像生成噚はどのように過去を描写するのだろうか新たな研究によるず、AI画像生成噚はスマヌトフォンを18䞖玀に萜ずし蟌み、ノヌトパ゜コンを1930幎代の颚景に挿入し、掃陀機を19䞖玀の家に眮くこずが瀺唆されおいる。これらのモデルがどのように歎史を想像するのか、そしおそもそも文脈的な歎史的正確性を実珟できるのか、ずいう疑問が浮䞊しおいる。

 

2024幎初頭には、Googleの 双子座 マルチモヌダルAIモデルは、 䞍適切な状況における人口統蚈䞊の公平性たずえば、あり埗ない出自を持぀第二次䞖界倧戊のドむツ兵を生成するなど:

GoogleのGeminiマルチモヌダルモデルが想定する、人口統蚈的にあり埗ない2024幎のドむツ軍人。出兞Gemini AI/Google via The Guardian

Google の Gemini マルチモヌダル モデルが 2024 幎に想定した、人口統蚈孊的に考えにくいドむツ軍人。 出兞: Gemini AI/Google 保護者

これは、補償の努力が バむアス AIモデルは歎史的背景を考慮に入れおいなかった。このケヌスでは、この問題はすぐに解決された。しかし、 拡散ベヌス モデルは、珟代ず歎史的な偎面や遺物を混同する歎史のバヌゞョンを生成する傟向がありたす。

これは郚分的に ゚ンタングルメント蚓緎デヌタで頻繁に䞀緒に出珟する特性が、モデルの出力で融合される。䟋えば、スマヌトフォンのような珟代的な物䜓が、デヌタセット内で話す、聞くずいう行為ず頻繁に共起する堎合、モデルは、プロンプトが歎史的な蚭定を指定しおいる堎合でも、それらの行動を珟代的なデバむスず関連付けるこずを孊習する可胜性がある。これらの関連付けがモデルの 内郚衚珟、その掻動を珟代の文脈から切り離すこずが難しくなり、歎史的に䞍正確な結果に぀ながりたす。

スむスの新しい論文では、朜圚的拡散モデルにおける絡み合った歎史的䞖代の珟象を調査し、 写実的な人物を創造する胜力が非垞に高い それでも、歎史䞊の人物を歎史的な方法で描写するこずを奜む。

新しい論文では、「[歎史的時代]においお友人ず笑い合う人物の写実的な画像」ずいうプロンプトに察し、LDMを甚いた倚様な衚珟が提瀺されおおり、それぞれの出力にはそれぞれの時代が瀺されおいたす。このように、時代の媒䜓がコンテンツず結び぀いおいるこずがわかりたす。出兞https://arxiv.org/pdf/2505.17064

新しい論文では、「[歎史的時代]においお友人ず笑い合う人物の写実的な画像」ずいう課題に察し、LDMを甚いた倚様な衚珟が提瀺され、それぞれの出力においおそれぞれの時代が瀺されおいたす。このように、時代の媒䜓がコンテンツず結び぀いおいるこずがわかりたす。 出兞: https://arxiv.org/pdf/2505.17064

プロンプト 「[歎史的時代]に友人ず笑っおいる人物の写実的な画像」3぀のテストモデルのうち1぀は、吊定的なプロンプトを無芖するこずが倚い。 「モノクロ」 代わりに、特定の時代における芖芚メディアを反映した色圩凊理を採甚し、たずえば 1950 幎代や 1970 幎代のセルロむド フィルムの萜ち着いた色調を暡倣しおいたす。

3぀のモデルの創造胜力をテストしたずころ、 時代錯誀 察象期間倖のもの、たたは「時間倖」のもの - 察象期間の 未来 圌らは、その過去だけでなく、時代を超えた掻動「歌う」や「料理する」などを珟代の文脈や蚭備ず混同する傟向が䞀般的にあるこずを発芋した。

過去数䞖玀に完党に有効であった倚様な掻動が、芁求されたむメヌゞの粟神に反しお、珟圚たたはより最近の技術ず道具を䜿っお描かれおいたす。

過去数䞖玀に完党に有効であった倚様な掻動が、芁求されたむメヌゞの粟神に反しお、珟圚たたはより最近の技術ず道具を䜿っお描かれおいたす。

泚目すべきは、スマヌトフォンは写真の衚珟法や他の倚くの歎史的文脈から切り離すこずが特に難しいずいうこずです。なぜなら、スマヌトフォンの普及ず描写は、次のような圱響力のあるハむパヌスケヌルデヌタセットでよく衚珟されおいるからです。 䞀般的なクロヌル:

Flux のテキストから画像ぞの生成モデルでは、通信ずスマヌトフォンは、歎史的背景が蚱さない堎合でも、密接に関連した抂念です。

Flux のテキストから画像ぞの生成モデルでは、通信ずスマヌトフォンは、歎史的背景が蚱さない堎合でも、密接に関連した抂念です。

問題の深刻さを解明し、この厄介な問題に察する今埌の研究の方向性を瀺すため、論文の著者らは生成システムをテストするための専甚のデヌタセットを開発した。これに぀いおは埌ほど詳しく芋おいこう。 新䜜ずいうタむトルの 総合的な歎史拡散モデルにおける過去の芖芚的衚珟の評䟡チュヌリッヒ倧孊の2人の研究者によるもので、デヌタセットずコヌドは公開されおいたす。

脆い「真実」

論文のテヌマの䞭には、人皮の過少代衚など、文化的に敏感な問題に觊れおいるものもある。 ず性別 歎史的衚象においお。ゞェミニが、甚だしく䞍平等な第䞉垝囜においお人皮平等を抌し付けたこずは、䞍条理で䟮蟱的な歎史修正である䞀方、「䌝統的な」人皮衚象拡散モデルによっお「曎新」されたものを埩元するこずは、しばしば事実䞊、歎史を「再び癜塗り」するこずずなる。

最近のヒットの歎史番組の倚くは、 ブリッゞャヌトンは、将来のトレヌニングデヌタセットに圱響を䞎える可胜性のある方法で歎史的な人口統蚈の正確性を曖昧にし、LLMで生成された時代画像を埓来の基準に合わせる取り組みを耇雑化させたす。しかし、これは耇雑な問題です。 歎史的傟向 西掋の歎史は富ず癜人を優遇し、倚くの「重芁でない」物語を語らないたたにしおきた。

これらの扱いにくく垞に倉化する文化的パラメヌタを念頭に眮き、研究者の新しいアプロヌチを芋おみたしょう。

方法ずテスト

生成モデルが歎史的文脈をどのように解釈するかをテストするために、著者らは ヒストビズは、䞀般的な人間の掻動を描写した 30,000 のプロンプトから生成された XNUMX 枚の画像のデヌタセットで、それぞれが XNUMX の異なる期間にわたっおレンダリングされおいたす。

著者らがHugging Faceで公開しおいるHistVisデヌタセットのサンプル。出兞https://huggingface.co/datasets/latentcanon/HistVis

著者らがHugging Faceで公開しおいるHistVisデヌタセットからのサンプル。 出兞: https://huggingface.co/datasets/latentcanon/HistVis

掻動ずしおは、 料理, 祈る or 音楜を聎くは、その普遍性から遞ばれ、特定の矎孊に瞛られないよう䞭立的な圢匏で衚珟されおいたす。デヌタセットの期間は17䞖玀から珟代たでで、20䞖玀の5぀の幎代にも重点を眮いおいたす。

広く䜿甚されおいる 30,000 ぀のオヌプン゜ヌス拡散モデルを䜿甚しお、XNUMX 枚の画像が生成されたした。 安定拡散XL; 安定拡散 3、および フラックス.1研究者たちは、期間を唯䞀の倉数ずしお切り離すこずで、歎史的手がかりがこれらのシステムによっおどのように芖芚的に笊号化されるか、あるいは無芖されるかを評䟡するための構造化された基盀を構築した。

ビゞュアルスタむルの優䜍性

著者は、生成モデルが特定の ビゞュアルスタむル 歎史的時代を描くずき、​​たずえ指瀺に媒䜓や矎的感芚に぀いおの蚀及が含たれおいなかったずしおも、モデルは特定の䞖玀を特城的なスタむルず関連付けるこずが倚いように思われた。

「[歎史的時代]に人が螊っおいる」ずいうプロンプトから生成された画像巊ず、「モノクロ写真」を吊定プロンプトずしお蚭定しお修正したプロンプト「[歎史的時代]に人が螊っおいる写実的な画像」から生成された画像の予枬芖芚スタむル右。

「[歎史的時代]に人が螊っおいる」ずいうプロンプトから生成された画像巊ず、「モノクロ写真」を吊定プロンプトずしお蚭定しお修正したプロンプト「[歎史的時代]に人が螊っおいる写実的な画像」から生成された画像の予枬芖芚スタむル右。

この傟向を枬定するために、著者らは たたみ蟌みニュヌラルネットワヌク (CNN) HistVis デヌタセット内の各画像を 5 ぀のカテゎリのいずれかに分類したす。 描画; 圫刻; むラスト; 絵画、たたは 写真撮圱これらのカテゎリヌは、期間を跚いで出珟する共通のパタヌンを反映し、構造化された比范をサポヌトするこずを目的ずしおいたす。

分類噚は、 VGG16 事前孊習枈みモデル ImageNet および 埮調敎 クラスごずに1,500の䟋題を甚意し、 りィキアヌト掟生デヌタセット。WikiArtはモノクロ写真ずカラヌ写真を区別しないため、別途 カラフルさスコア 䜎圩床の画像をモノクロずしおラベル付けするために䜿甚されたした。

孊習枈みの分類噚をデヌタセット党䜓に適甚した結果、17぀のモデルすべおが時代ごずに䞀貫した文䜓のデフォルトを課しおいるこずが瀺されたした。SDXLは18䞖玀ず3䞖玀を圫刻ず関連付け、SD1ずFLUX.3は絵画に傟向しおいたす。XNUMX䞖玀の幎代では、SDXNUMXはモノクロ写真に重点を眮き、SDXLは珟代のむラストを返すこずが倚いです。

これらの奜みは、迅速な調敎にもかかわらず持続するこずがわかり、モデルがスタむルず歎史的文脈の間の定着した぀ながりを゚ンコヌドしおいるこずを瀺唆しおいたす。

各拡散モデルに぀いお、期間ごず、モデルごずに 1,000 個のサンプルに基づいお、歎史的期間にわたっお生成された画像の予枬される芖芚スタむル。

各拡散モデルに぀いお、期間ごず、モデルごずに 1,000 個のサンプルに基づいお、歎史的期間にわたっお生成された画像の予枬される芖芚スタむル。

モデルが歎史的期間ず特定の期間をどの皋床匷く結び付けおいるかを定量化する ビゞュアルスタむル著者らは、 ビゞュアルスタむルの優䜍性 VSD。各モデルず期間においお、VSDは最も䞀般的なスタむルを共有するず予枬される出力の割合ずしお定矩されたす。

モデル党䜓に​​わたる文䜓䞊の偏りの䟋。

モデル党䜓に​​わたる文䜓䞊の偏りの䟋。

スコアが高いほど、その期間の出力は単䞀のスタむルで支配的であるこずを瀺し、スコアが䜎いほど、ばら぀きが倧きいこずを瀺したす。これにより、各モデルが特定のスタむル慣習にどれだけ厳密に埓っおいるかを、時系列で比范するこずが可胜になりたす。

HistVis デヌタセット党䜓に適甚するず、VSD メトリックはさたざたなレベルの収束を明らかにし、各モデルが過去の芖芚的解釈をどの皋床絞り蟌むかを明確にするのに圹立ちたす。

䞊蚘の結果衚は、各モデルの歎史的期間におけるVSDスコアを瀺しおいたす。17䞖玀ず18䞖玀では、SDXLは高い䞀貫性で圫刻を衚珟する傟向がありたすが、SD3ずFLUX.1は絵画衚珟を奜みたす。20䞖玀ず21䞖玀になるず、SD3ずFLUX.1は写真衚珟に近づきたすが、SDXLはより倚様性に富みたすが、倚くの堎合、むラスト衚珟がデフォルトずなりたす。

これら 20 ぀のモデルはすべお、1910 䞖玀初頭、特に 1930 幎代、1950 幎代、XNUMX 幎代のモノクロ画像に察する匷い奜みを瀺しおいたす。

これらのパタヌンを軜枛できるかどうかをテストするために、著者らは 迅速な゚ンゞニアリングフォトリアリズムを明確に芁求し、吊定的なプロンプトを甚いおモノクロ出力を抑制したした。堎合によっおは、支配スコアが䜎䞋し、䟋えば、䞻導的なスタむルがモノクロから 絵画17 䞖玀ず 18 䞖玀に。

しかし、こうした介入によっお真にフォトリアリスティックな画像が生み出されるこずはほずんどなく、モデルのスタむルのデフォルトが深く根付いおいるこずが分かりたす。

歎史的䞀貫性

次の分析では、 歎史的䞀貫性生成された画像に、時代背景に適合しない物䜓が含たれおいたかどうか。著者らは、固定された犁止項目のリストを䜿甚する代わりに、倧芏暡蚀語モデルLLMず芖芚蚀語モデルVLMを掻甚し、歎史的文脈に基づいお堎違いず思われる芁玠を特定する柔軟な手法を開発した。

怜出方法はHistVisデヌタセットず同じ圢匏で、各プロンプトは歎史的期間ず人間の掻動を組み合わせたものだった。各プロンプトに察し、GPT-4oは指定された期間に堎違いずなるオブゞェクトのリストを生成し、提案されたオブゞェクトごずにGPT-4oは はい、もしくは、いいえ 生成された画像にそのオブゞェクトが衚瀺されたかどうかを確認するために蚭蚈された質問。

䟋えば、次のようなプロンプトが䞎えられた堎合 「18䞖玀に音楜を聎く人」GPT-4oは、 珟代のオヌディオ機噚 歎史的に䞍正確であるずし、疑問を抱かせる その人は18䞖玀には存圚しなかったヘッドフォンやスマヌトフォンを䜿っおいるのでしょうか?.

これらの質問は芖芚的な質問応答のセットアップでGPT-4oに返され、モデルは画像をレビュヌしお はい or いいえ それぞれに答えたす。このパむプラむンにより、珟代のオブゞェクトの事前定矩された分類に䟝存せずに、歎史的に考えにくいコンテンツを怜出するこずができたした。

時代錯誀的な芁玠を瀺す、18 段階怜出方法によっおフラグが付けられた生成画像の䟋: 19 䞖玀のヘッドフォン、1930 䞖玀の掃陀機、1950 幎代のラップトップ、XNUMX 幎代のスマヌトフォン。

時代錯誀的な芁玠を瀺す、18 段階怜出方法によっおフラグが付けられた生成画像の䟋: 19 䞖玀のヘッドフォン、1930 䞖玀の掃陀機、1950 幎代のラップトップ、XNUMX 幎代のスマヌトフォン。

生成された画像に時代錯誀がどの皋床頻繁に出珟するかを枬定するため、著者らは頻床ず重倧床を評䟡するための簡䟿な手法を導入した。たず、GPT-4oが同じ物䜓を説明する際に甚いる、わずかな衚珟の違いを考慮した。

䟋えば、珟代のオヌディオ機噚ずデゞタルオヌディオ機噚は同等のものずしお扱われたした。二重カりントを避けるため、 ファゞヌマッチングシステム は、真に異なる抂念に圱響を䞎えずに、これらの衚面的なバリ゚ヌションをグルヌプ化するために䜿甚されたした。

提案された時代錯誀がすべお正芏化されるず、次の 2 ぀のメトリックが蚈算されたした。 呚波数 特定の期間ずモデルにおいお、特定のオブゞェクトが画像にどのくらい頻繁に出珟したかを枬定し、 重症床 モデルによっお瀺唆された埌、そのオブゞェクトがどの皋床確実に衚瀺されるかを枬定したした。

珟代の携垯電話が1.0回フラグ付けされ、生成された画像0.5枚に出珟した堎合、深刻床スコアはXNUMXずなりたす。XNUMX枚にしか出珟しない堎合は、深刻床スコアはXNUMXずなりたす。これらのスコアは、時代錯誀が発生したかどうかだけでなく、各期間におけるモデルの出力にどれほど深く埋め蟌たれおいるかを特定するのに圹立ちたした。

各モデルにおける䞊䜍15の時代錯誀芁玠を、X軞に頻床、Y軞に重倧床でプロットしおいたす。䞞印は頻床、䞉角印は重倧床、ひし圢印は頻床ず重倧床の䞡方で䞊䜍15䜍にランクむンした芁玠を瀺しおいたす。

各モデルにおける䞊䜍15の時代錯誀芁玠を、X軞に頻床、Y軞に重倧床でプロットしおいたす。䞞印は頻床、䞉角印は重倧床、ひし圢印は頻床ず重倧床の䞡方で䞊䜍15䜍にランクむンした芁玠を瀺しおいたす。

䞊蚘では、各モデルで最も䞀般的な 15 個の時代錯誀を、出珟頻床ずプロンプトずの䞀貫性に基づいおランク付けしお衚瀺しおいたす。

衣類は頻繁に登堎するが、散圚しおいる。䞀方、オヌディオ機噚やアむロン噚具などのアむテムは、頻床は䜎いものの、高い䞀貫性を持っお登堎しおいる。このパタヌンは、モデルがしばしば プロンプトのアクティビティ 期間よりも長く。

SD3 は、特に 19 䞖玀ず 1930 幎代の画像においお、時代錯誀の割合が最も高く、次いで FLUX.1 ず SDXL が続きたした。

この怜出手法が人間の刀断ずどの皋床䞀臎するかを怜蚌するため、著者らはSD1,800時代錯誀率が最も高いモデルからランダムに抜出した3枚の画像を甚いおナヌザヌスタディを実斜し、各画像を2,040人のクラりドワヌカヌが評䟡した。信頌性の高い回答をフィルタリングした埌、234人のナヌザヌによる72件の刀断が含たれ、この手法はXNUMX%のケヌスで倚数決ず䞀臎した。

人間による評䟡調査甚の GUI。タスクの指瀺、正確な画像ず時代錯誀な画像の䟋、生成された出力の時間的な䞍䞀臎を識別するための「はい/いいえ」の質問が衚瀺されたす。

人間による評䟡調査甚の GUI。タスクの指瀺、正確な画像ず時代錯誀な画像の䟋、生成された出力の時間的な䞍䞀臎を識別するための「はい/いいえ」の質問が衚瀺されたす。

人口動態

最終分析では、モデルが人皮ず性別を時系列的にどのように描写しおいるかを怜蚌したした。著者らはHistVisデヌタセットを甚いお、モデルの出力ず蚀語モデルによっお生成されたベヌスラむン掚定倀を比范したした。これらの掚定倀は正確ではありたせんでしたが、歎史的な劥圓性に぀いお倧たかな感芚を提䟛し、モデルが意図した時代に合わせお描写を適応させおいるかどうかを明らかにするのに圹立ちたした。

これらの描写を倧芏暡に評䟡するために、著者らはモデルが生成した人口統蚈ず、それぞれの時間ず掻動の倧たかな予枬倀を比范するパむプラむンを構築した。たず、 フェアフェむス 分類噚、 レスネット3410 䞇枚以䞊の画像でトレヌニングされた機械孊習ベヌスのツヌルにより、生成された出力から性別ず人皮を怜出し、各シヌンの顔が男性たたは女性に分類される頻床を枬定したり、期間党䜓にわたっお人皮カテゎリを远跡したりできるようになりたした。

さたざたなモデル、期間、アクティビティにわたる人口統蚈的過剰衚珟を瀺す生成された画像の䟋。

さたざたなモデル、期間、アクティビティにわたる人口統蚈的過剰衚珟を瀺す生成された画像の䟋。

信頌性の䜎い結果はノむズを枛らすために陀倖され、特定の時間ず掻動に関連付けられたすべおの画像に぀いお予枬が平均化されたした。FairFaceの読み取り倀の信頌性を確認するために、 ディヌプフェむス 5,000枚の画像サンプルに䜿甚されたした。XNUMX぀の分類噚は高い䞀臎を瀺し、本研究で䜿甚された人口統蚈孊的デヌタの䞀貫性を裏付けたした。

モデルの出力を過去の劥圓性ず比范するため、著者らはGPT-4oに各掻動ず期間における性別ず人皮の分垃の予枬倀を掚定させた。これらの掚定倀は、グラりンドトゥルヌスではなく、倧たかなベヌスラむンずしお機胜した。そこで、以䞋のXNUMX぀の指暙が䜿甚された。 過小評䟡 および 過剰衚珟モデルの出力が LLM の予想からどれだけ倖れたかを枬定したす。

結果は明確なパタヌンを瀺した。FLUX.1は、次のようなシナリオでも男性を過剰に代衚するこずが倚い。 料理、女性が期埅されおいた。SD3ずSDXLは、次のようなカテゎリヌで同様の傟向を瀺した。 , 教育 および 宗教癜人の顔は党䜓的に予想以䞊に倚く登堎したしたが、この偏りは最近の期間では枛少しおいたす。たた、䞀郚のカテゎリでは癜人以倖の顔の衚珟が予想倖に急増しおおり、モデルの挙動は歎史的背景ではなくデヌタセットの盞関関係を反映しおいる可胜性があるこずを瀺唆しおいたす。

FLUX.1 の出力における、䜕䞖玀にもわたる掻動での性別ず人皮の過剰衚珟ず過少衚珟。GPT-4o の人口統蚈掚定倀ずの絶察差ずしお衚瀺されたす。

FLUX.1 の出力における、䜕䞖玀にもわたる掻動での性別ず人皮の過剰衚珟ず過少衚珟。GPT-4o の人口統蚈掚定倀ずの絶察差ずしお衚瀺されたす。

著者らは結論する

私たちの分析により、[テキスト画像倉換/TTI]モデルは、歎史的時代の埮劙な理解よりも、限定的な文䜓的笊号化に䟝存しおいるこずが明らかになりたした。各時代は特定の芖芚スタむルず匷く結び぀いおおり、結果ずしお歎史の描写は䞀面的なものになっおしたいたす。

「特に、人物の写実的な描写は、FLUX.20 ず SD1 のたれな䟋倖を陀いお 3 䞖玀以降にのみ登堎しおおり、モデルは歎史的背景に柔軟に適応するのではなく、孊習した連想を匷化するこずを瀺唆しおおり、リアリズムは珟代的な特城であるずいう考えを氞続させおいたす。」

「さらに、頻繁に起こる時代錯誀は、これらのモデルの朜圚空間では歎史的期間が明確に区別されおいないこずを瀺唆しおいる。なぜなら、近代の遺物は前近代的な環境で出珟するこずが倚く、教育や文化遺産の文脈におけるTTIシステムの信頌性が損なわれおいるからだ。」

たずめ

拡散モデルの孊習䞭、新しい抂念は朜圚空間内の定矩枈みのスロットにきちんず収たるわけではありたせん。むしろ、出珟頻床ず関連する抂念ずの近さによっお圢䜜られたクラスタヌを圢成したす。その結果、抂念は明確な経隓的分離ではなく、出珟頻床ず兞型的な文脈ずの関係性に基づいお存圚する、緩く組織化された構造が圢成されたす。

このため、倧芏暡で汎甚的なデヌタセットの䞭で䜕が「歎史的」ずみなされるのかを区別するこずが困難になりたす。新しい論文の調査結果が瀺唆するように、倚くの時代は 芋たす より深い歎史的詳现よりも、それらを描写するために䜿甚されたメディアによるものです。

これが、䟋えば2025䞖玀の人物の19幎品質のフォトリアリスティックな画像を生成するこずが䟝然ずしお困難な理由の䞀぀です。倚くの堎合、モデルは映画やテレビから匕き出された芖芚的比喩に頌るこずになりたす。それらが芁求に合臎しない堎合、デヌタにはそれを補うものがほずんどありたせん。このギャップを埋めるには、重耇する抂念を分離する技術の将来的な改善が䞍可欠ずなるでしょう。

 

初版発行日26幎2025月XNUMX日月