Sudut Pandang Anderson
Cara Menghentikan AI Menggambarkan iPhone di Era Lampau

Bagaimana generator gambar AI menggambarkan masa lalu? Penelitian baru menunjukkan bahwa generator gambar AI membawa ponsel pintar ke abad ke-18, memasukkan laptop ke dalam adegan tahun 1930-an, dan menempatkan penyedot debu di rumah-rumah abad ke-19, sehingga menimbulkan pertanyaan tentang bagaimana model-model ini membayangkan sejarah – dan apakah model-model ini mampu memberikan akurasi sejarah kontekstual.
Pada awal tahun 2024, kemampuan pembuatan gambar Google Gemini Model AI multimodal dikritik karena memaksakan keadilan demografi dalam konteks yang tidak tepat, seperti menghasilkan tentara Jerman Perang Dunia II dengan asal-usul yang tidak mungkin:

Personel militer Jerman secara demografis tidak mungkin, seperti yang dibayangkan oleh model multimoda Gemini Google pada tahun 2024. Sumber: Gemini AI/Google melalui Penjaga
Ini adalah contoh dimana upaya perbaikan prasangka dalam model AI gagal memperhitungkan konteks historis. Dalam kasus ini, masalah tersebut segera diatasi. Namun, berdasarkan difusi model tetap cenderung menghasilkan versi sejarah yang membingungkan aspek dan artefak modern dan historis.
Ini sebagian karena belitan, di mana kualitas yang sering muncul bersamaan dalam data pelatihan menjadi menyatu dalam keluaran model. Misalnya, jika objek modern seperti telepon pintar sering muncul bersamaan dengan tindakan berbicara atau mendengarkan dalam kumpulan data, model dapat belajar mengaitkan aktivitas tersebut dengan perangkat modern, bahkan ketika perintah tersebut menentukan latar historis. Setelah asosiasi ini tertanam dalam model representasi internal, menjadi sulit untuk memisahkan aktivitas dari konteks kontemporernya, yang mengarah pada hasil yang tidak akurat secara historis.
Sebuah makalah baru dari Swiss, yang meneliti fenomena keterikatan generasi historis dalam model difusi laten, mengamati bahwa kerangka kerja AI yang cukup mampu menciptakan orang-orang yang fotorealistik tetap lebih suka menggambarkan tokoh sejarah dengan cara yang historis:
![Dari makalah baru, beragam representasi melalui LDM dari prompt 'Gambar fotorealistik seseorang yang sedang tertawa dengan seorang teman di [periode sejarah]', dengan setiap periode ditunjukkan dalam setiap keluaran. Seperti yang dapat kita lihat, media era tersebut telah dikaitkan dengan konten. Sumber: https://arxiv.org/pdf/2505.17064](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
Dari makalah baru, beragam representasi melalui LDM dari prompt 'Gambar fotorealistik seseorang yang sedang tertawa dengan seorang teman di [periode sejarah]', dengan setiap periode ditunjukkan di setiap keluaran. Seperti yang dapat kita lihat, media era tersebut telah dikaitkan dengan konten. Sumber: https://arxiv.org/pdf/2505.17064
Dalam menguji ketiga model tersebut untuk mengetahui kapasitasnya dalam menciptakan anakronisme (hal-hal yang tidak termasuk dalam periode target, atau 'di luar waktu' – yang mungkin berasal dari periode target masa depan serta masa lalunya), mereka menemukan kecenderungan umum untuk menggabungkan kegiatan-kegiatan yang tidak lekang oleh waktu (seperti 'bernyanyi' atau 'memasak') dengan konteks dan peralatan modern:

Berbagai kegiatan yang benar-benar berlaku pada abad-abad sebelumnya digambarkan dengan teknologi dan perlengkapan masa kini atau yang lebih baru, berlawanan dengan semangat penggambaran yang diminta.
Yang perlu diperhatikan adalah bahwa smartphone sangat sulit dipisahkan dari idiom fotografi, dan dari banyak konteks sejarah lainnya, karena penyebaran dan penggambarannya terwakili dengan baik dalam kumpulan data skala besar yang berpengaruh seperti Perayapan Umum:

Dalam model teks-ke-gambar generatif Flux, komunikasi dan telepon pintar merupakan konsep yang saling terkait erat – bahkan ketika konteks historis tidak mengizinkannya.
Untuk menentukan sejauh mana masalah ini, dan untuk memberikan upaya penelitian di masa mendatang sebuah jalan keluar dengan masalah khusus ini, penulis makalah baru mengembangkan sebuah kumpulan data khusus untuk menguji sistem generatif. Sebentar lagi, kita akan melihat ini pekerjaan Baru, yang diberi judul Sejarah Sintetis: Mengevaluasi Representasi Visual Masa Lalu dalam Model Difusi, dan berasal dari dua peneliti di Universitas Zurich. Kumpulan data dan kodenya tersedia untuk umum.
'Kebenaran' yang Rapuh
Beberapa tema dalam makalah ini menyentuh isu-isu sensitif budaya, seperti kurangnya representasi ras dan gender dalam representasi historis. Sementara pemaksaan kesetaraan rasial oleh Gemini di Third Reich yang sangat tidak adil merupakan revisi historis yang tidak masuk akal dan menghina, memulihkan representasi rasial 'tradisional' (di mana model difusi telah 'memperbarui' representasi tersebut) sering kali secara efektif akan 'menutupi' kembali sejarah.
Banyak acara sejarah hit baru-baru ini, seperti bridgerton, mengaburkan akurasi demografi historis dengan cara yang mungkin memengaruhi kumpulan data pelatihan di masa mendatang, sehingga mempersulit upaya untuk menyelaraskan citra periode yang dihasilkan LLM dengan standar tradisional. Namun, ini adalah topik yang rumit, mengingat kecenderungan historis (Barat) yang memihak pada kekayaan dan ras kulit putih, dan membiarkan banyak kisah 'yang lebih rendah' tak terungkap.
Dengan mengingat parameter budaya yang rumit dan terus berubah ini, mari kita lihat pendekatan baru para peneliti.
Metode dan Pengujian
Untuk menguji bagaimana model generatif menafsirkan konteks sejarah, penulis menciptakan HistVis, kumpulan data berisi 30,000 gambar yang dihasilkan dari seratus perintah yang menggambarkan aktivitas umum manusia, masing-masing ditampilkan dalam sepuluh periode waktu berbeda:

Contoh dari kumpulan data HistVis yang disediakan penulis di Hugging Face. Sumber: https://huggingface.co/datasets/latentcanon/HistVis
Kegiatan seperti memasak, berdoa or mendengarkan musik, dipilih karena sifatnya yang universal, dan diutarakan dalam format yang netral untuk menghindari keterikatan model pada estetika tertentu. Periode waktu untuk kumpulan data tersebut berkisar dari abad ke-17 hingga saat ini, dengan fokus tambahan pada lima dekade individual dari abad ke-20.
30,000 gambar dihasilkan menggunakan tiga model difusi sumber terbuka yang banyak digunakan: Difusi Stabil XL; Difusi Stabil 3; Dan FLUKS.1Dengan mengisolasi periode waktu sebagai satu-satunya variabel, para peneliti menciptakan dasar terstruktur untuk mengevaluasi bagaimana isyarat historis dikodekan secara visual atau diabaikan oleh sistem ini.
Dominasi Gaya Visual
Penulis awalnya meneliti apakah model generatif menggunakan default tertentu gaya visual ketika menggambarkan periode sejarah; karena tampaknya bahkan ketika petunjuk tidak menyebutkan media atau estetika, model sering mengaitkan abad tertentu dengan gaya khas:
![Gaya visual yang diprediksi untuk gambar yang dihasilkan dari perintah “Seseorang menari dengan yang lain di [periode sejarah]” (kiri) dan dari perintah yang dimodifikasi “Gambar fotorealistis seseorang menari dengan yang lain di [periode sejarah]” dengan “gambar monokrom” ditetapkan sebagai perintah negatif (kanan).](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
Gaya visual yang diprediksi untuk gambar yang dihasilkan dari perintah 'Seseorang menari dengan orang lain pada [periode sejarah]' (kiri) dan dari perintah yang dimodifikasi 'Gambar fotorealistik seseorang menari dengan orang lain pada [periode sejarah]' dengan 'gambar monokrom' ditetapkan sebagai perintah negatif (kanan).
Klasifikasi ini didasarkan pada VGG16 model yang sudah dilatih sebelumnya IMAGEnet dan disetel dengan baik dengan 1,500 contoh per kelas dari WikiArt-set data turunan. Karena WikiArt tidak membedakan fotografi monokrom dari fotografi warna, skor warna-warni digunakan untuk memberi label gambar saturasi rendah sebagai monokrom.
Klasifikasi yang telah dilatih kemudian diterapkan ke seluruh kumpulan data, dengan hasil yang menunjukkan bahwa ketiga model memberlakukan gaya default yang konsisten berdasarkan periode: SDXL mengaitkan abad ke-17 dan ke-18 dengan ukiran, sementara SD3 dan FLUX.1 cenderung ke arah lukisan. Pada dekade abad kedua puluh, SD3 lebih menyukai fotografi monokrom, sementara SDXL sering kali menampilkan ilustrasi modern.
Preferensi ini ditemukan tetap ada meskipun ada penyesuaian segera, yang menunjukkan bahwa model tersebut mengodekan hubungan yang kuat antara gaya dan konteks historis.

Prediksi gaya visual gambar yang dihasilkan di berbagai periode historis untuk setiap model difusi, berdasarkan 1,000 sampel per periode per model.
Untuk mengukur seberapa kuat suatu model menghubungkan suatu periode sejarah dengan periode tertentu gaya visual, para penulis mengembangkan sebuah metrik yang mereka beri judul Dominasi Gaya Visual (VSD). Untuk setiap model dan periode waktu, VSD didefinisikan sebagai proporsi keluaran yang diprediksi memiliki gaya yang paling umum:

Contoh bias gaya di seluruh model.
Skor yang lebih tinggi menunjukkan bahwa satu gaya mendominasi keluaran untuk periode tersebut, sementara skor yang lebih rendah menunjukkan variasi yang lebih besar. Hal ini memungkinkan untuk membandingkan seberapa ketat setiap model mematuhi konvensi gaya tertentu dari waktu ke waktu.
Diterapkan pada kumpulan data HistVis lengkap, metrik VSD mengungkap berbagai tingkat konvergensi, yang membantu menjelaskan seberapa kuat setiap model mempersempit interpretasi visualnya terhadap masa lalu:
Tabel hasil di atas menunjukkan skor VSD di berbagai periode historis untuk setiap model. Pada abad ke-17 dan ke-18, SDXL cenderung menghasilkan ukiran dengan konsistensi tinggi, sementara SD3 dan FLUX.1 lebih menyukai lukisan. Pada abad ke-20 dan ke-21, SD3 dan FLUX.1 beralih ke fotografi, sedangkan SDXL menunjukkan lebih banyak variasi, tetapi sering kali lebih condong ke ilustrasi.
Ketiga model menunjukkan preferensi yang kuat terhadap citra monokrom pada dekade awal abad ke-20, khususnya tahun 1910-an, 1930-an, dan 1950-an.
Untuk menguji apakah pola-pola ini dapat dikurangi, penulis menggunakan rekayasa cepat, secara eksplisit meminta fotorealisme dan mencegah keluaran monokrom menggunakan perintah negatif. Dalam beberapa kasus, skor dominasi menurun, dan gaya utama bergeser, misalnya, dari monokrom ke lukisan, pada abad ke-17 dan ke-18.
Akan tetapi, intervensi ini jarang menghasilkan gambar yang benar-benar fotorealistik, yang menunjukkan bahwa bawaan gaya para model sudah tertanam kuat.
Konsistensi Historis
Analisis selanjutnya mengamati konsistensi historis: apakah gambar yang dihasilkan menyertakan objek yang tidak sesuai dengan periode waktu. Alih-alih menggunakan daftar tetap barang terlarang, penulis mengembangkan metode fleksibel yang memanfaatkan model bahasa besar (LLM) dan model bahasa visual (VLM) untuk menemukan elemen yang tampak tidak pada tempatnya, berdasarkan konteks historis.
Metode deteksi mengikuti format yang sama dengan kumpulan data HistVis, di mana setiap prompt menggabungkan periode historis dengan aktivitas manusia. Untuk setiap prompt, GPT-4o membuat daftar objek yang tidak pada tempatnya dalam periode waktu yang ditentukan; dan untuk setiap objek yang diusulkan, GPT-4o membuat daftar ya atau tidak pertanyaan yang dirancang untuk memeriksa apakah objek tersebut muncul dalam gambar yang dihasilkan.
Misalnya saja, dengan diberikan perintah 'Seseorang mendengarkan musik pada abad ke-18'GPT-4o mungkin mengidentifikasi perangkat audio modern sebagai sesuatu yang tidak akurat secara historis, dan menimbulkan pertanyaan Apakah orang tersebut menggunakan headphone atau telepon pintar yang tidak ada pada abad ke-18?.
Pertanyaan-pertanyaan ini dikembalikan ke GPT-4o dalam pengaturan tanya jawab visual, di mana model meninjau gambar dan mengembalikan iya nih or tidak jawaban untuk masing-masing. Alur kerja ini memungkinkan pendeteksian konten yang secara historis tidak masuk akal tanpa bergantung pada taksonomi objek modern yang telah ditetapkan sebelumnya:

Contoh gambar yang dihasilkan ditandai oleh metode deteksi dua tahap, yang menunjukkan unsur-unsur yang tidak sesuai dengan zaman: headphone pada abad ke-18; penyedot debu pada abad ke-19; laptop pada tahun 1930-an; dan telepon pintar pada tahun 1950-an.
Untuk mengukur seberapa sering anakronisme muncul dalam gambar yang dihasilkan, penulis memperkenalkan metode sederhana untuk menilai frekuensi dan tingkat keparahan. Pertama, mereka memperhitungkan perbedaan kata-kata kecil dalam cara GPT-4o menggambarkan objek yang sama.
Misalnya, perangkat audio modern dan perangkat audio digital diperlakukan sama. Untuk menghindari penghitungan ganda, sistem pencocokan fuzzy digunakan untuk mengelompokkan variasi tingkat permukaan tanpa memengaruhi konsep yang benar-benar berbeda.
Setelah semua anakronisme yang diusulkan dinormalisasi, dua metrik dihitung: frekuensi mengukur seberapa sering objek tertentu muncul dalam gambar untuk jangka waktu dan model tertentu; dan kerasnya mengukur seberapa andal objek tersebut muncul setelah disarankan oleh model.
Jika ponsel modern ditandai sepuluh kali dan muncul dalam sepuluh gambar yang dihasilkan, ponsel tersebut menerima skor keparahan 1.0. Jika ponsel tersebut muncul hanya dalam lima gambar, skor keparahannya adalah 0.5. Skor ini membantu mengidentifikasi tidak hanya apakah anakronisme terjadi, tetapi seberapa kuat anakronisme tersebut tertanam dalam keluaran model untuk setiap periode:

Lima belas elemen anakronistis teratas untuk setiap model, diplot berdasarkan frekuensi pada sumbu x dan tingkat keparahan pada sumbu y. Lingkaran menandai elemen yang berada di peringkat lima belas teratas berdasarkan frekuensi, segitiga berdasarkan tingkat keparahan, dan berlian berdasarkan keduanya.
Di atas kita melihat lima belas anakronisme paling umum untuk setiap model, diurutkan berdasarkan seberapa sering mereka muncul dan seberapa konsisten mereka cocok dengan petunjuk.
Pakaian sering muncul namun tersebar, sementara barang-barang seperti perangkat audio dan peralatan setrika muncul lebih jarang, namun dengan konsistensi tinggi – pola yang menunjukkan bahwa model sering merespons aktivitas dalam prompt lebih dari jangka waktu tersebut.
SD3 menunjukkan tingkat anakronisme tertinggi, terutama pada gambar abad ke-19 dan 1930-an, diikuti oleh FLUX.1 dan SDXL.
Untuk menguji seberapa baik metode deteksi tersebut sesuai dengan penilaian manusia, penulis menjalankan studi pengguna yang menampilkan 1,800 gambar yang diambil sampelnya secara acak dari SD3 (model dengan tingkat anakronisme tertinggi), dengan setiap gambar dinilai oleh tiga pekerja lapangan. Setelah menyaring respons yang andal, 2,040 penilaian dari 234 pengguna disertakan, dan metode tersebut disetujui oleh suara mayoritas dalam 72 persen kasus.

GUI untuk studi evaluasi manusia, menunjukkan instruksi tugas, contoh gambar yang akurat dan tidak sesuai dengan zaman, serta pertanyaan ya-tidak untuk mengidentifikasi ketidakkonsistenan temporal pada keluaran yang dihasilkan.
Demografi
Analisis akhir mengamati bagaimana model menggambarkan ras dan gender dari waktu ke waktu. Dengan menggunakan kumpulan data HistVis, penulis membandingkan keluaran model dengan estimasi dasar yang dihasilkan oleh model bahasa. Estimasi ini tidak akurat tetapi memberikan gambaran kasar tentang kemungkinan historis, yang membantu mengungkap apakah model mengadaptasi penggambaran ke periode yang dimaksud.
Untuk menilai penggambaran ini dalam skala besar, penulis membuat alur kerja yang membandingkan demografi yang dihasilkan model dengan ekspektasi kasar untuk setiap waktu dan aktivitas. Mereka pertama-tama menggunakan Wajah Adil pengklasifikasi, a ResNet34Alat berbasis-CB yang dilatih pada lebih dari seratus ribu gambar, untuk mendeteksi jenis kelamin dan ras dalam keluaran yang dihasilkan, memungkinkan pengukuran seberapa sering wajah dalam setiap pemandangan diklasifikasikan sebagai pria atau wanita, dan untuk pelacakan kategori ras lintas periode.

Contoh gambar yang dihasilkan menunjukkan kelebihan representasi demografis di berbagai model, periode waktu, dan aktivitas.
Hasil dengan keyakinan rendah disaring untuk mengurangi gangguan, dan prediksi dirata-ratakan pada semua gambar yang dikaitkan dengan waktu dan aktivitas tertentu. Untuk memeriksa keandalan pembacaan FairFace, sistem kedua berdasarkan wajah dalam digunakan pada sampel sebanyak 5,000 gambar. Kedua pengklasifikasi menunjukkan kesesuaian yang kuat, mendukung konsistensi pembacaan demografis yang digunakan dalam penelitian.
Untuk membandingkan keluaran model dengan kemungkinan historis, penulis meminta GPT-4o untuk memperkirakan distribusi jenis kelamin dan ras yang diharapkan untuk setiap aktivitas dan periode waktu. Perkiraan ini berfungsi sebagai dasar kasar, bukan kebenaran dasar. Dua metrik kemudian digunakan: kurang terwakili dan representasi berlebihan, mengukur seberapa besar keluaran model menyimpang dari ekspektasi LLM.
Hasilnya menunjukkan pola yang jelas: FLUX.1 sering kali mewakili laki-laki, bahkan dalam skenario seperti memasak, dimana perempuan diharapkan; SD3 dan SDXL menunjukkan tren serupa di seluruh kategori seperti kerja, pendidikan dan agama; wajah kulit putih muncul lebih banyak dari yang diharapkan secara keseluruhan, meskipun bias ini menurun dalam periode yang lebih baru; dan beberapa kategori menunjukkan lonjakan yang tidak terduga dalam representasi non-kulit putih, yang menunjukkan bahwa perilaku model mungkin mencerminkan korelasi kumpulan data daripada konteks historis:

Kelebihan dan kekurangan representasi gender dan ras dalam keluaran FLUX.1 di berbagai abad dan aktivitas, ditunjukkan sebagai perbedaan absolut dari estimasi demografi GPT-4o.
Penulis menyimpulkan:
Analisis kami mengungkap bahwa model [Teks-ke-gambar/TTI] mengandalkan penyandian gaya yang terbatas, bukan pemahaman yang mendalam tentang periode sejarah. Setiap era sangat terkait dengan gaya visual tertentu, sehingga menghasilkan penggambaran sejarah yang satu dimensi.
'Yang perlu diperhatikan, penggambaran orang yang fotorealistik baru muncul mulai abad ke-20 dan seterusnya, dengan pengecualian langka pada FLUX.1 dan SD3, yang menunjukkan bahwa model memperkuat asosiasi yang dipelajari alih-alih beradaptasi secara fleksibel dengan konteks historis, sehingga mengabadikan gagasan bahwa realisme adalah ciri modern.
'Selain itu, anakronisme yang sering terjadi menunjukkan bahwa periode sejarah tidak dipisahkan dengan jelas dalam ruang laten model ini, karena artefak modern sering muncul dalam pengaturan pra-modern, sehingga merusak keandalan sistem TTI dalam konteks pendidikan dan warisan budaya.'
Kesimpulan
Selama pelatihan model difusi, konsep-konsep baru tidak dengan rapi masuk ke dalam slot yang telah ditentukan sebelumnya dalam ruang laten. Sebaliknya, konsep-konsep tersebut membentuk kelompok yang dibentuk oleh seberapa sering konsep-konsep tersebut muncul dan oleh kedekatannya dengan ide-ide terkait. Hasilnya adalah struktur yang terorganisasi secara longgar di mana konsep-konsep muncul dalam kaitannya dengan frekuensi dan konteks tipikalnya, bukan oleh pemisahan yang jelas atau empiris.
Hal ini membuat sulit untuk mengisolasi apa yang dianggap sebagai 'historis' dalam kumpulan data yang besar dan umum. Seperti yang ditunjukkan oleh temuan dalam makalah baru, banyak periode waktu lebih terwakili oleh melihat media yang digunakan untuk menggambarkannya daripada detail sejarah yang lebih dalam.
Inilah salah satu alasan mengapa masih sulit untuk menghasilkan gambar fotorealistis berkualitas 2025 dari suatu karakter dari (misalnya) abad ke-19; dalam kebanyakan kasus, model akan bergantung pada kiasan visual yang diambil dari film dan televisi. Jika kiasan tersebut gagal memenuhi permintaan, hanya sedikit data lain yang dapat mengimbanginya. Menjembatani kesenjangan ini kemungkinan besar akan bergantung pada peningkatan di masa mendatang dalam mengurai konsep-konsep yang tumpang tindih.
Pertama kali diterbitkan pada hari Senin, 26 Mei 2025