Connect with us

Sudut Anderson

Bagaimana Menghentikan AI Menggambarkan iPhone di Era yang Telah Berlalu

mm
A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Bagaimana generator gambar AI memvisualisasikan masa lalu? Penelitian baru menunjukkan bahwa mereka meletakkan smartphone di abad ke-18, memasukkan laptop ke dalam adegan tahun 1930-an, dan menempatkan penghisap debu di rumah abad ke-19, menimbulkan pertanyaan tentang bagaimana model ini membayangkan sejarah – dan apakah mereka mampu menghasilkan akurasi historis yang kontekstual sama sekali.

 

Pada awal 2024, kemampuan generasi gambar Google’s Gemini multimodal AI model dikritik karena menerapkan keadilan demografis dalam konteks yang tidak tepat, seperti menghasilkan tentara Jerman Perang Dunia II dengan asal yang tidak mungkin:

Personel militer Jerman yang tidak mungkin secara demografis, seperti yang dibayangkan oleh model multimodal Gemini Google pada 2024. Sumber: Gemini AI/Google via The Guardian

Personel militer Jerman yang tidak mungkin secara demografis, seperti yang dibayangkan oleh model multimodal Gemini Google pada 2024. Sumber: Gemini AI/Google via The Guardian

Ini adalah contoh di mana upaya untuk mengatasi bias dalam model AI gagal mempertimbangkan konteks historis. Dalam hal ini, masalah tersebut segera diatasi. Namun, model difusi tetap rentan menghasilkan versi sejarah yang membingungkan aspek dan artefak modern dan historis.

Hal ini sebagian karena entanglement, di mana kualitas yang sering muncul bersama dalam data pelatihan menjadi menyatu dalam output model. Misalnya, jika objek modern seperti smartphone sering dikaitkan dengan tindakan berbicara atau mendengarkan dalam dataset, model mungkin belajar mengasosiasikan aktivitas tersebut dengan perangkat modern, bahkan ketika prompt menentukan pengaturan historis. Setelah asosiasi ini tertanam dalam representasi internal model, menjadi sulit untuk memisahkan aktivitas dari konteks kontemporer, menghasilkan hasil yang tidak akurat secara historis.

Sebuah makalah baru dari Swiss, yang mengeksaminasi fenomena generasi historis yang terjalin dalam model difusi laten, mengamati bahwa kerangka AI yang sangat mampu menciptakan orang yang fotorealistik namun lebih suka menggambarkan tokoh historis dengan cara historis:

Dari makalah baru, representasi yang beragam melalui LDM dari prompt 'Gambar fotorealistik seseorang tertawa dengan teman di [periode historis]', dengan setiap periode ditunjukkan dalam setiap output. Seperti yang kita lihat, medium era telah menjadi terkait dengan konten.

Dari makalah baru, representasi yang beragam melalui LDM dari prompt ‘Gambar fotorealistik seseorang tertawa dengan teman di [periode historis]’, dengan setiap periode ditunjukkan dalam setiap output. Sumber: https://arxiv.org/pdf/2505.17064

Untuk prompt ‘Gambar fotorealistik seseorang tertawa dengan teman di [periode historis]’, salah satu dari tiga model yang diuji sering mengabaikan prompt negatif ‘monokrom’ dan malah menggunakan perawatan warna yang mencerminkan media visual dari era yang ditentukan, misalnya meniru nada yang tumpul dari film seluloid dari tahun 1950-an dan 1970-an.

Dalam pengujian tiga model untuk kapasitas mereka dalam membuat anakronisme (hal-hal yang tidak dari periode target, atau ‘keluar dari waktu’ – yang mungkin dari masa depan periode target serta masa lalunya), mereka menemukan disposisi umum untuk menggabungkan aktivitas yang abadi (seperti ‘bernyanyi’ atau ‘memasak’) dengan konteks dan peralatan modern:

Aktivitas yang beragam yang sangat valid untuk abad sebelumnya digambarkan dengan teknologi dan peralatan saat ini atau lebih baru, melawan semangat gambar yang diminta.

Aktivitas yang beragam yang sangat valid untuk abad sebelumnya digambarkan dengan teknologi dan peralatan saat ini atau lebih baru, melawan semangat gambar yang diminta.

Yang perlu diperhatikan adalah bahwa smartphone sangat sulit dipisahkan dari idiom fotografi, dan dari banyak konteks historis lainnya, karena proliferasi dan penggambarannya yang baik di dataset hyperscale yang berpengaruh seperti Common Crawl:

Dalam model generatif teks-ke-gambar Flux, komunikasi dan smartphone adalah konsep yang terkait erat - bahkan ketika konteks historis tidak memungkinkannya.

Dalam model generatif teks-ke-gambar Flux, komunikasi dan smartphone adalah konsep yang terkait erat – bahkan ketika konteks historis tidak memungkinkannya.

Untuk menentukan sejauh mana masalah ini, dan untuk memberikan upaya penelitian masa depan dengan cara untuk melanjutkan dengan bugbear ini, penulis makalah baru mengembangkan dataset khusus untuk menguji sistem generatif. Dalam satu saat, kita akan melihat makalah baru ini, yang berjudul Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models, dan berasal dari dua peneliti di Universitas Zurich. Dataset dan kode tersedia secara publik.

Kebenaran yang Rapuh

Beberapa tema dalam makalah ini menyentuh isu-isu yang sensitif secara budaya, seperti under-representasi ras dan jenis kelamin dalam representasi historis. Sementara imposisi Gemini akan kesetaraan rasial di Reich Ketiga yang sangat tidak setara adalah revisi historis yang absurd dan menghina, memulihkan ‘representasi tradisional’ ras (di mana model difusi telah ‘memperbarui’ ini) sering akan efektif ‘menghilangkan’ sejarah.

Banyak pertunjukan historis terbaru, seperti Bridgerton, mengaburkan akurasi demografis historis dengan cara yang mungkin mempengaruhi dataset pelatihan masa depan, mempersulit upaya untuk menyelaraskan gambar periode yang dihasilkan LLM dengan standar tradisional. Namun, ini adalah topik yang kompleks, mengingat kecenderungan historis (Barat) untuk memfavoritkan kekayaan dan keputihan, dan meninggalkan banyak ‘kisah yang lebih rendah’ yang tidak terungkap.

Mengingat parameter budaya yang sulit dan berubah-ubah ini, mari kita lihat pendekatan peneliti.

Metode dan Pengujian

Untuk menguji bagaimana model generatif menafsirkan konteks historis, penulis membuat HistVis, dataset 30.000 gambar yang dihasilkan dari seratus prompt yang menggambarkan aktivitas manusia umum, masing-masing dirender dalam sepuluh periode waktu yang berbeda:

Contoh dari dataset HistVis, yang penulis buat tersedia di Hugging Face. Sumber: https://huggingface.co/datasets/latentcanon/HistVis

Contoh dari dataset HistVis, yang penulis buat tersedia di Hugging Face. Sumber: https://huggingface.co/datasets/latentcanon/HistVis

Aktivitas, seperti memasak, berdoa atau menonton musik, dipilih karena universalitasnya, dan difrasakan dalam format netral untuk menghindari mengaitkan model dengan estetika tertentu. Periode waktu untuk dataset ini berkisar dari abad ke-17 hingga sekarang, dengan fokus tambahan pada lima dekade individu dari abad ke-20.

30.000 gambar dihasilkan menggunakan tiga model difusi sumber terbuka yang umum digunakan: Stable Diffusion XL; Stable Diffusion 3; dan FLUX.1. Dengan mengisolasi periode waktu sebagai satu-satunya variabel, peneliti membuat dasar terstruktur untuk mengevaluasi bagaimana petunjuk historis dikodekan secara visual atau diabaikan oleh sistem ini.

Dominasi Gaya Visual

Penulis awalnya mengeksaminasi apakah model generatif default ke gaya visual tertentu ketika menggambarkan periode historis; karena tampaknya bahkan ketika prompt tidak menyebutkan medium atau estetika, model tersebut sering mengaitkan abad tertentu dengan gaya khas:

Gaya visual yang diprediksi untuk gambar yang dihasilkan dari prompt “Seseorang menari dengan yang lain di [periode historis]” (kiri) dan dari prompt yang dimodifikasi “Gambar fotorealistik seseorang menari dengan yang lain di [periode historis]” dengan “gambar monokrom” sebagai prompt negatif (kanan).

Gaya visual yang diprediksi untuk gambar yang dihasilkan dari prompt ‘Seseorang menari dengan yang lain di [periode historis]’ (kiri) dan dari prompt yang dimodifikasi ‘Gambar fotorealistik seseorang menari dengan yang lain di [periode historis]’ dengan ‘gambar monokrom’ sebagai prompt negatif (kanan).

Untuk mengukur kecenderungan ini, penulis melatih jaringan saraf konvolusi (CNN) untuk mengklasifikasikan setiap gambar dalam dataset HistVis menjadi salah satu dari lima kategori: gambar; ukiran; ilustrasi; lukisan; atau fotografi. Kategori ini dimaksudkan untuk mencerminkan pola umum yang muncul di seluruh periode waktu, dan yang mendukung perbandingan terstruktur.

Klasifikasi ini didasarkan pada model VGG16 yang telah dilatih sebelumnya pada ImageNet dan dihaluskan dengan 1.500 contoh per kelas dari dataset WikiArt-derived. Karena WikiArt tidak membedakan monokrom dari fotografi warna, skor kecerahan terpisah digunakan untuk menandai gambar dengan saturasi rendah sebagai monokrom.

Klasifikasi yang dilatih kemudian diterapkan pada dataset lengkap, dengan hasil menunjukkan bahwa ketiga model menerapkan default gaya konsisten oleh periode: SDXL mengaitkan abad ke-17 dan ke-18 dengan ukiran, sedangkan SD3 dan FLUX.1 cenderung menuju lukisan. Pada dekade abad ke-20, SD3 memfavoritkan fotografi monokrom, sedangkan SDXL sering mengembalikan ilustrasi modern.

Preferensi ini ditemukan bertahan meskipun penyesuaian prompt, menunjukkan bahwa model mengkodekan tautan yang kuat antara gaya dan konteks historis.

Gaya visual yang diprediksi dari gambar yang dihasilkan di seluruh periode historis untuk setiap model difusi, berdasarkan 1.000 sampel per periode per model.

Gaya visual yang diprediksi dari gambar yang dihasilkan di seluruh periode historis untuk setiap model difusi, berdasarkan 1.000 sampel per periode per model.

Untuk mengkuantifikasi seberapa kuat model menghubungkan periode historis dengan gaya visual tertentu, penulis mengembangkan metrik yang mereka sebut Visual Style Dominance (VSD). Untuk setiap model dan periode waktu, VSD didefinisikan sebagai proporsi output yang diprediksi untuk berbagi gaya yang paling umum:

Contoh bias stilistika di seluruh model.

Contoh bias stilistika di seluruh model.

Skor yang lebih tinggi menunjukkan bahwa gaya tunggal mendominasi output untuk periode tersebut, sedangkan skor yang lebih rendah menunjukkan variasi yang lebih besar. Ini memungkinkan perbandingan tentang seberapa kuat setiap model mempertahankan konvensi stilistika tertentu di seluruh waktu.

Diterapkan pada dataset HistVis lengkap, metrik VSD mengungkapkan tingkat konvergensi yang berbeda, membantu menjelaskan seberapa kuat setiap model menarrowkan interpretasi visual mereka tentang masa lalu:

Tabel hasil di atas menunjukkan skor VSD di seluruh periode historis untuk setiap model. Pada abad ke-17 dan ke-18, SDXL cenderung menghasilkan ukiran dengan konsistensi tinggi, sedangkan SD3 dan FLUX.1 memfavoritkan lukisan. Pada abad ke-20 dan ke-21, SD3 dan FLUX.1 bergeser menuju fotografi, sedangkan SDXL menunjukkan variasi lebih, tetapi sering default ke ilustrasi.

Ketiga model menunjukkan preferensi kuat untuk gambar monokrom pada dekade awal abad ke-20, terutama 1910-an, 1930-an, dan 1950-an.

Untuk menguji apakah pola ini dapat dimitigasi, penulis menggunakan rekayasa prompt, secara eksplisit meminta fotorealisme dan mencegah output monokrom menggunakan prompt negatif. Dalam beberapa kasus, skor dominasi menurun, dan gaya terkemuka bergeser, misalnya dari monokrom ke lukisan, pada abad ke-17 dan ke-18.

Namun, intervensi ini jarang menghasilkan gambar yang benar-benar fotorealistik, menunjukkan bahwa default stilistika model sangat tertanam.

Konsistensi Historis

Analisis berikutnya melihat konsistensi historis: apakah gambar yang dihasilkan termasuk objek yang tidak sesuai dengan periode waktu. Sebagai gantinya menggunakan daftar objek yang dilarang, penulis mengembangkan metode yang fleksibel yang menggunakan model bahasa besar (LLM) dan model visi-bahasa (VLM) untuk mendeteksi elemen yang tampaknya tidak pada tempatnya, berdasarkan konteks historis.

Metode deteksi ini mengikuti format yang sama dengan dataset HistVis, di mana setiap prompt menggabungkan periode historis dengan aktivitas manusia. Untuk setiap prompt, GPT-4o menghasilkan daftar objek yang akan tidak sesuai dengan periode waktu yang ditentukan; dan untuk setiap objek yang diusulkan, GPT-4o menghasilkan pertanyaan ya atau tidak yang dirancang untuk memeriksa apakah objek tersebut muncul dalam gambar yang dihasilkan.

Misalnya, diberikan prompt ‘Seseorang mendengarkan musik di abad ke-18’, GPT-4o mungkin mengidentifikasi perangkat audio modern sebagai tidak akurat secara historis, dan menghasilkan pertanyaan Apakah orang tersebut menggunakan headphone atau smartphone yang tidak ada di abad ke-18?.

Pertanyaan-pertanyaan ini dikembalikan ke GPT-4o dalam pengaturan jawaban pertanyaan visual, di mana model meninjau gambar dan mengembalikan jawaban ya atau tidak untuk setiap pertanyaan. Pipa ini memungkinkan deteksi konten yang tidak sesuai secara historis tanpa mengandalkan taksonomi objek modern yang telah ditentukan sebelumnya:

Contoh gambar yang dihasilkan yang diberi tanda oleh metode deteksi dua tahap, menunjukkan elemen anakronistik: headphone di abad ke-18; penghisap debu di abad ke-19; laptop di tahun 1930-an; dan smartphone di tahun 1950-an.

Contoh gambar yang dihasilkan yang diberi tanda oleh metode deteksi dua tahap, menunjukkan elemen anakronistik: headphone di abad ke-18; penghisap debu di abad ke-19; laptop di tahun 1930-an; dan smartphone di tahun 1950-an.

Untuk mengukur seberapa sering anakronisme muncul dalam gambar yang dihasilkan, penulis memperkenalkan metode sederhana untuk skor frekuensi dan keparahan. Pertama, mereka mempertimbangkan perbedaan kata-kata kecil dalam cara GPT-4o menggambarkan objek yang sama.

Misalnya, perangkat audio modern dan perangkat audio digital dianggap setara. Untuk menghindari penghitungan ganda, sistem pencocokan fuzzy digunakan untuk mengelompokkan variasi permukaan tanpa mempengaruhi konsep yang benar-benar berbeda.

Setelah semua anakronisme yang diusulkan dinormalisasi, dua metrik dihitung: frekuensi mengukur seberapa sering objek tertentu muncul dalam gambar untuk periode waktu dan model tertentu; dan keparahan mengukur seberapa dapat diandalkan objek tersebut muncul sekali telah diusulkan oleh model.

Jika telepon modern diberi tanda sepuluh kali dan muncul dalam sepuluh gambar yang dihasilkan, maka skor keparahannya adalah 1,0. Jika muncul hanya lima, skor keparahannya adalah 0,5. Skor ini membantu mengidentifikasi tidak hanya apakah anakronisme terjadi, tetapi seberapa kuat mereka tertanam dalam output model untuk setiap periode:

Elemen anakronistik teratas lima belas untuk setiap model, diplot oleh frekuensi pada sumbu x dan keparahan pada sumbu y. Lingkaran menandai elemen yang berperingkat di lima belas teratas oleh frekuensi, segitiga oleh keparahan, dan berlian oleh keduanya.

Elemen anakronistik teratas lima belas untuk setiap model, diplot oleh frekuensi pada sumbu x dan keparahan pada sumbu y.

Di atas kita lihat lima belas anakronisme paling umum untuk setiap model, diurutkan oleh seberapa sering mereka muncul dan seberapa konsisten mereka sesuai dengan prompt.

Pakaian sering tetapi tersebar, sedangkan item seperti perangkat audio dan peralatan setrika muncul kurang sering, tetapi dengan konsistensi yang tinggi – pola yang menunjukkan bahwa model sering merespons aktivitas dalam prompt lebih dari periode waktu.

SD3 menunjukkan tingkat anakronisme tertinggi, terutama dalam gambar abad ke-19 dan 1930-an, diikuti oleh FLUX.1 dan SDXL.

Untuk menguji seberapa baik metode deteksi sesuai dengan penilaian manusia, penulis melakukan studi pengguna yang menampilkan 1.800 gambar yang diambil secara acak dari SD3 (model dengan tingkat anakronisme tertinggi), dengan setiap gambar dinilai oleh tiga pekerja kerumunan. Setelah menyaring respons yang dapat diandalkan, 2.040 penilaian dari 234 pengguna dimasukkan, dan metode ini setuju dengan suara mayoritas dalam 72 persen kasus:

GUI untuk studi evaluasi manusia, menampilkan instruksi tugas, contoh gambar yang akurat dan anakronistik, dan pertanyaan ya atau tidak untuk mengidentifikasi inkonsistensi temporal dalam output yang dihasilkan.

GUI untuk studi evaluasi manusia, menampilkan instruksi tugas, contoh gambar yang akurat dan anakronistik, dan pertanyaan ya atau tidak untuk mengidentifikasi inkonsistensi temporal dalam output yang dihasilkan.

Demografi

Analisis terakhir melihat bagaimana model menggambarkan ras dan jenis kelamin sepanjang waktu. Menggunakan dataset HistVis, penulis membandingkan output model dengan perkiraan dasar yang dihasilkan oleh model bahasa. Perkiraan ini tidak akurat, tetapi menawarkan gambaran kasar tentang kemungkinan historis, membantu mengungkap apakah model menyesuaikan penggambaran dengan periode yang dimaksud.

Untuk mengevaluasi penggambaran ini dalam skala besar, penulis membangun pipa yang membandingkan output model dengan demografi yang diharapkan untuk setiap waktu dan aktivitas. Mereka pertama-tama menggunakan FairFace klasifikasi, alat berbasis ResNet34 yang dilatih pada lebih dari seratus ribu gambar, untuk mendeteksi jenis kelamin dan ras dalam output yang dihasilkan, memungkinkan pengukuran seberapa sering wajah dalam setiap adegan diklasifikasikan sebagai laki-laki atau perempuan, dan untuk melacak kategori rasial di seluruh periode:

Contoh gambar yang dihasilkan yang menunjukkan overrepresentasi demografis di seluruh model, periode waktu, dan aktivitas.

Contoh gambar yang dihasilkan yang menunjukkan overrepresentasi demografis di seluruh model, periode waktu, dan aktivitas.

Hasil yang kurang percaya diri disaring untuk mengurangi kebisingan, dan prediksi dirata-ratakan di seluruh gambar yang terkait dengan waktu dan aktivitas tertentu. Untuk memeriksa keandalan pembacaan FairFace, sistem kedua berdasarkan DeepFace digunakan pada sampel 5.000 gambar. Kedua klasifikasi menunjukkan kesepakatan yang kuat, mendukung konsistensi pembacaan demografis yang digunakan dalam studi.

Untuk membandingkan output model dengan kemungkinan historis, penulis meminta GPT-4o untuk memperkirakan distribusi jenis kelamin dan ras yang diharapkan untuk setiap aktivitas dan periode waktu. Perkiraan ini berfungsi sebagai baseline kasar daripada kebenaran dasar. Dua metrik kemudian digunakan: underrepresentasi dan overrepresentasi, mengukur seberapa jauh output model menyimpang dari perkiraan LLM.

Hasilnya menunjukkan pola yang jelas: FLUX.1 sering overrepresentasi laki-laki, bahkan dalam skenario seperti memasak, di mana perempuan diharapkan; SD3 dan SDXL menunjukkan tren serupa di seluruh kategori seperti pekerjaan, pendidikan, dan agama; wajah putih muncul lebih dari yang diharapkan secara umum, meskipun bias ini menurun dalam periode yang lebih baru; dan beberapa kategori menunjukkan lonjakan yang tidak terduga dalam representasi non-putih, menunjukkan bahwa perilaku model mungkin mencerminkan korelasi dataset daripada konteks historis:

Overrepresentasi dan underrepresentasi jenis kelamin dan rasial dalam output FLUX.1 di seluruh abad dan aktivitas, ditunjukkan sebagai perbedaan absolut dari perkiraan demografis GPT-4o.

Overrepresentasi dan underrepresentasi jenis kelamin dan rasial dalam output FLUX.1 di seluruh abad dan aktivitas, ditunjukkan sebagai perbedaan absolut dari perkiraan demografis GPT-4o.

Penulis menyimpulkan:

‘Analisis kami mengungkapkan bahwa model [teks-ke-gambar] bergantung pada pengkodean stilistika yang terbatas daripada pemahaman yang halus tentang periode historis. Setiap era sangat terkait dengan gaya visual tertentu, menghasilkan penggambaran sejarah yang satu dimensi.

‘Secara khusus, penggambaran fotorealistik orang hanya muncul dari abad ke-20 dan seterusnya, dengan pengecualian langka di FLUX.1 dan SD3, menunjukkan bahwa model memperkuat asosiasi yang dipelajari daripada menyesuaikan diri dengan konteks historis, memperkuat gagasan bahwa realisme adalah ciri modern.

‘Selain itu, anakronisme yang sering terjadi menunjukkan bahwa periode historis tidak dipisahkan dengan baik dalam ruang laten model ini, karena artefak modern sering muncul dalam pengaturan sebelum modern, melemahkan keandalan sistem teks-ke-gambar dalam konteks pendidikan dan warisan budaya.’

Kesimpulan

Selama pelatihan model difusi, konsep baru tidak dengan rapi menetap dalam slot yang telah ditentukan sebelumnya dalam ruang laten. Sebaliknya, mereka membentuk cluster yang dibentuk oleh seberapa sering mereka muncul dan oleh kedekatan mereka dengan ide yang terkait. Hasilnya adalah struktur yang longgar di mana konsep ada dalam kaitannya dengan frekuensi dan konteks yang khas, bukan oleh pemisahan yang bersih atau empiris.

Hal ini membuatnya sulit untuk mengisolasi apa yang dianggap ‘historis’ dalam dataset besar dan umum. Seperti yang ditunjukkan oleh temuan dalam makalah baru, banyak periode waktu lebih diwakili oleh penampilan media yang digunakan untuk menggambarkannya daripada oleh detail historis yang lebih dalam.

Ini adalah salah satu alasan mengapa masih sulit untuk menghasilkan gambar fotorealistik berkualitas 2025 dari karakter dari (misalnya) abad ke-19; dalam kebanyakan kasus, model akan bergantung pada trope visual yang diambil dari film dan televisi. Ketika trope ini gagal mencocokkan permintaan, ada sedikit yang lain dalam data untuk mengkompensasi. Membuat jembatan ini kemungkinan akan bergantung pada perbaikan masa depan dalam memisahkan konsep yang tumpang tindih.

 

Dipublikasikan pertama kali pada hari Senin, 26 Mei 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.