Connect with us

Sudut Anderson

Membawa Analogi Visual ke AI

mm
AI-generated image: comparative cross-sections of a peach and the planet Earth. GPT-image-1, Firefly 3.

Model AI saat ini gagal mengenali ‘kesamaan relasional’ gambar, seperti bagaimana lapisan Bumi mirip dengan peach, sehingga melewatkan aspek kunci tentang bagaimana manusia memahami gambar.

 

Meskipun ada banyak model computer vision yang dapat membandingkan gambar dan menemukan kesamaan di antara mereka, generasi sistem komparatif saat ini memiliki kapasitas imajinatif yang sangat terbatas. Pertimbangkan beberapa lirik dalam lagu klasik 1960-an, Windmills of Your Mind:

Like a carousel that’s turning, running rings around the moon
Like a clock whose hands are sweeping past the minutes of its face
And the world is like an apple whirling silently in space

Perbandingan seperti ini mewakili domain alusi poetis yang bermakna bagi manusia dengan cara yang jauh melampaui ekspresi artistik; lebih dari itu, terkait dengan bagaimana kita mengembangkan sistem perseptual kita; ketika kita menciptakan ‘domain objek’ kita, kita mengembangkan kapasitas untuk kesamaan visual, sehingga – misalnya – potongan melintang yang menggambarkan peach dan planet Bumi, atau rekursi fraktal seperti spiral kopi dan cabang galaksi, terdaftar sebagai analog bagi kita.

Dengan cara ini kita dapat menyimpulkan koneksi antara objek dan jenis objek yang tampaknya tidak terkait, dan menginferensikan sistem (seperti gravitasi, momentum, dan kohesi permukaan) yang dapat diterapkan pada berbagai domain dengan berbagai skala.

Melihat Hal-Hal

Bahkan generasi terbaru sistem perbandingan gambar AI, seperti Learned Perceptual Image Patch Similarity (LPIPS) dan DINO, yang diberitahu oleh umpan balik manusia, hanya melakukan perbandingan permukaan literal.

Kapasitas mereka untuk menemukan wajah di mana tidak ada – yaitu, pareidolia – tidak mewakili jenis mekanisme kesamaan visual yang dikembangkan manusia, tetapi terjadi karena algoritma pencarian wajah menggunakan fitur struktur wajah tingkat rendah yang kadang-kadang sesuai dengan objek acak:

Contoh positif palsu untuk pengenalan wajah di dataset 'Wajah dengan Hal-Hal'. Sumber - https://arxiv.org/pdf/2409.16143

Contoh positif palsu untuk pengenalan wajah di dataset ‘Wajah dengan Hal-Hal’. Sumber

Untuk menentukan apakah mesin dapat benar-benar mengembangkan kapasitas imajinatif kita untuk mengenali kesamaan visual di seluruh domain, peneliti di AS telah melakukan studi tentang Kesamaan Visual Relasional, mengkurasi dan melatih dataset baru yang dirancang untuk memaksa hubungan abstrak terbentuk antara objek yang berbeda yang nonetheless terikat oleh hubungan abstrak:

Sebagian besar model AI hanya mengenali kesamaan ketika gambar berbagi ciri permukaan seperti bentuk atau warna, yang mengapa mereka hanya menghubungkan Grup B (di atas) ke referensi. Manusia, di sisi lain, juga melihat Grup A sebagai kesamaan – tidak karena gambar terlihat sama, tetapi karena mereka mengikuti logika yang mendasarinya, seperti menunjukkan transformasi dari waktu ke waktu. Pekerjaan baru ini berusaha untuk mereproduksi jenis kesamaan struktural atau relasional ini, dengan tujuan membawa persepsi mesin lebih dekat dengan penalaran manusia. Sumber: https://arxiv.org/pdf/2512.07833

Sebagian besar model AI hanya mengenali kesamaan ketika gambar berbagi ciri permukaan seperti bentuk atau warna, yang mengapa mereka hanya menghubungkan Grup B (di atas) ke referensi. Manusia, di sisi lain, juga melihat Grup A sebagai kesamaan – tidak karena gambar terlihat sama, tetapi karena mereka mengikuti logika yang mendasarinya, seperti menunjukkan transformasi dari waktu ke waktu. Pekerjaan baru ini berusaha untuk mereproduksi jenis kesamaan struktural atau relasional ini, dengan tujuan membawa persepsi mesin lebih dekat dengan penalaran manusia. Sumber: https://arxiv.org/pdf/2512.07833

Sistem penjelasan yang dikembangkan untuk dataset ini memfasilitasi anotasi abstrak yang tidak biasa, dirancang untuk memaksa sistem AI untuk fokus pada karakteristik dasar daripada detail lokal tertentu:

Keterangan 'anonim' yang diprediksi yang berkontribusi pada metrik 'relsim' penulis.

Keterangan ‘anonim’ yang diprediksi yang berkontribusi pada metrik ‘relsim’ penulis.

Koleksi yang dikurasi dan gaya penjelasan yang tidak biasa ini memicu metrik baru yang diusulkan relsim, yang penulis telah fine-tuned ke dalam model bahasa-visi (VLM).

Perbandingan antara gaya penjelasan dataset biasa, yang fokus pada kesamaan atribut, sedangkan pendekatan relsim (baris bawah) menekankan kesamaan relasional.

Perbandingan antara gaya penjelasan dataset biasa, yang fokus pada kesamaan atribut, sedangkan pendekatan relsim (baris bawah) menekankan kesamaan relasional.

Pendekatan baru ini mengambil metodologi dari ilmu kognitif, khususnya teori Pemetaan Struktur Dedre Gentner (sebuah studi tentang analogi) dan definisi kesamaan relasional dan kesamaan atribut Amos Tversky.

Dari situs web proyek terkait, contoh kesamaan relasional. Sumber - https://thaoshibe.github.io/relsim/

Dari situs web proyek terkait, contoh kesamaan relasional. Sumber

Penulis menyatakan:

‘[Manusia] memproses kesamaan atribut secara perseptual, tetapi kesamaan relasional memerlukan abstraksi konseptual, sering didukung oleh bahasa atau pengetahuan sebelumnya. Ini menunjukkan bahwa mengenali kesamaan relasional pertama-tama memerlukan pemahaman gambar, menggambar pada pengetahuan, dan mengabstraksi struktur dasarnya.’

Makalah baru ini berjudul Kesamaan Visual Relasional, dan disertai dengan situs web proyek (lihat video yang disematkan di akhir artikel ini).

Metode

Peneliti menggunakan salah satu dataset hyperscale yang paling dikenal sebagai titik awal untuk koleksi mereka sendiri – LAION-2B:

Metadata untuk entri di koleksi LAION-2B. Sumber - https://huggingface.co/datasets/laion/laion2B-en-aesthetic/viewer/default/train

Metadata untuk entri di koleksi LAION-2B. Sumber

114.000 gambar yang kemungkinan mengandung struktur relasional elastis diekstraksi dari LAION-2B, melibatkan penyaringan banyak gambar berkualitas rendah yang ada di dataset yang dikurasi minimal.

Untuk membuat pipa untuk proses seleksi ini, penulis menggunakan Qwen2.5-VL-7B, menggunakan 1.300 contoh positif dan 11.000 contoh negatif yang diberi label oleh manusia:

Sistem relsim dilatih dalam tiga tahap: menyaring gambar dari LAION-2B untuk konten relasional; menetapkan grup yang sama dengan keterangan anonim yang menangkap logika dasarnya; dan mempelajari untuk mencocokkan gambar dengan keterangan tersebut menggunakan kontras kerugian.

Sistem relsim dilatih dalam tiga tahap: menyaring gambar dari LAION-2B untuk konten relasional; menetapkan grup yang sama dengan keterangan anonim yang menangkap logika dasarnya; dan mempelajari untuk mencocokkan gambar dengan keterangan tersebut menggunakan kontras kerugian.

Makalah tersebut menyatakan:

‘Annotator diberi instruksi: “Apakah Anda dapat melihat pola relasional, logika, atau struktur dalam gambar ini yang dapat berguna untuk membuat atau menghubungkan ke gambar lain?”. Model yang diperhalus mencapai 93% kesepakatan dengan penilaian manusia, dan ketika diterapkan pada LAION-2B, itu menghasilkan N = 114k gambar yang diidentifikasi sebagai relasional menarik.’

Untuk menghasilkan label relasional, peneliti meminta model Qwen untuk menjelaskan logika bersama di balik set gambar tanpa menamai objek tertentu. Abstraksi ini sulit diperoleh ketika model hanya melihat satu gambar, tetapi menjadi layak ketika beberapa contoh menunjukkan pola dasar.

Keterangan grup yang dihasilkan menggantikan istilah tertentu dengan pengganti seperti ‘{Subjek}’ atau ‘{Jenis Gerakan}’, membuatnya dapat diterapkan secara luas.

Setelah verifikasi manusia, setiap keterangan dipasangkan dengan semua gambar dalam grupnya. Lebih dari 500 grup seperti itu digunakan untuk melatih model, yang kemudian diterapkan pada 114.000 gambar yang disaring untuk menghasilkan set besar contoh yang dinotasi relasional abstrak.

Data dan Tes

Setelah ekstraksi fitur relasional dengan Qwen2.5-VL-7B, model diperhalus pada data menggunakan LoRA, selama 15.000 langkah, melalui delapan A100 GPU*. Untuk sisi teks, keterangan relasional disematkan menggunakan all-MiniLM-L6-v2 dari Perpustakaan Sentence-Transformers.

Dataset 114.000 gambar yang diberi keterangan dibagi menjadi 100.000 untuk pelatihan dan 14.000 untuk evaluasi. Untuk menguji sistem, setup pengambilan digunakan: diberikan gambar kueri, model harus menemukan gambar lain dari kumpulan 28.000 item yang mengekspresikan gagasan relasional yang sama. Kumpulan pengambilan termasuk 14.000 gambar evaluasi dan 14.000 sampel tambahan dari LAION-2B, dengan 1.000 kueri dipilih secara acak dari set evaluasi untuk benchmarking.

Untuk mengevaluasi kualitas pengambilan, GPT-4o digunakan untuk menilai kesamaan relasional antara kueri dan gambar yang diambil pada skala dari 0 hingga 10. Studi manusia terpisah juga dijalankan untuk mengukur preferensi pengguna (lihat di bawah).

Setiap peserta diberi gambar kueri anonim dengan dua kandidat, satu diambil oleh metode yang diusulkan, dan yang lain oleh baseline. Peserta diminta untuk menentukan gambar mana yang lebih relasional mirip dengan kueri, atau jika keduanya sama dekat. Untuk setiap baseline, 300 triplet dibuat dan dinilai oleh setidaknya tiga orang, menghasilkan sekitar 900 respons.

Pendekatan relsim dibandingkan dengan beberapa metode kesamaan gambar-ke-gambar yang mapan, termasuk dreamsim, dan CLIP-I. Selain baseline yang secara langsung menghitung skor kesamaan antara pasangan gambar, seperti LPIPS, DINO, dreamsim, dan CLIP-I, penulis juga menguji metode berbasis keterangan di mana Qwen digunakan untuk menghasilkan keterangan anonim atau abstrak untuk setiap gambar.; ini kemudian berfungsi sebagai kueri pengambilan.

Dua varian pengambilan dievaluasi, dengan pengambilan teks-ke-gambar CLIP (CLIP-T) digunakan untuk pengambilan teks-ke-gambar, dan Qwen-T menggunakan pengambilan teks-ke-teks. Kedua baseline berbasis keterangan menggunakan model Qwen pra-terlatih asli daripada versi yang diperhalus pada logika relasional. Ini memungkinkan penulis untuk mengisolasi efek pelatihan berbasis grup, karena model yang diperhalus telah terpapar pada set gambar, bukan contoh terisolasi.

Metri yang Ada dan Kesamaan Relasional

Penulis awalnya menguji apakah metri yang ada dapat menangkap kesamaan relasional:

Perbandingan kinerja pengambilan yang dihakimi oleh GPT-4o, menunjukkan skor kesamaan relasional rata-rata untuk setiap metode. Metri kesamaan konvensional seperti LPIPS, DINO, dan CLIP-I mencetak skor lebih rendah. Baseline berbasis keterangan Qwen-T dan CLIP-T juga underperformed. Skor tertinggi dicapai oleh relsim (6,77, kolom biru paling kanan), menunjukkan bahwa pelatihan pada pola relasional berbasis grup memperbaiki keselarasan dengan penilaian GPT-4o.

Perbandingan kinerja pengambilan yang dihakimi oleh GPT-4o, menunjukkan skor kesamaan relasional rata-rata untuk setiap metode. Metri kesamaan konvensional seperti LPIPS, DINO, dan CLIP-I mencetak skor lebih rendah. Baseline berbasis keterangan Qwen-T dan CLIP-T juga underperformed. Skor tertinggi dicapai oleh relsim (6,77, kolom biru paling kanan), menunjukkan bahwa pelatihan pada pola relasional berbasis grup memperbaiki keselarasan dengan penilaian GPT-4o.

Mengenai hasil ini, penulis menyatakan**:

‘[LPIPS], yang fokus murni pada kesamaan perseptual, mencapai skor terendah (4,56). [DINO] berkinerja sedikit lebih baik (5,14), kemungkinan karena dilatih secara mandiri pada data gambar. [CLIP-I] menghasilkan hasil terkuat di antara baseline (5,91), kemungkinan karena abstraksi kadang-kadang hadir dalam keterangan gambar.

‘Namun, CLIP-I masih underperformed relatif terhadap metode kami, karena mencapai skor yang lebih baik mungkin memerlukan kemampuan untuk mencapai abstraksi tingkat lebih tinggi, seperti yang ada dalam keterangan anonim.’

Dalam studi manusia, manusia secara konsisten lebih memilih metode relsim di seluruh baseline:

Skor kesamaan relasional yang diberikan oleh GPT-4o untuk setiap metode. Metri kesamaan standar seperti LPIPS, DINO, dan CLIP-I mencetak skor lebih rendah, dan varian berbasis keterangan Qwen-T dan CLIP-T berkinerja sedikit lebih baik. Bahkan versi yang diperhalus dari DINO dan CLIP tidak menutup celah. Skor tertinggi, 6,77, dicapai oleh model yang diusulkan yang dilatih dengan pengawasan berbasis grup.

Skor kesamaan relasional yang diberikan oleh GPT-4o untuk setiap metode. Metri kesamaan standar seperti LPIPS, DINO, dan CLIP-I mencetak skor lebih rendah, dan varian berbasis keterangan Qwen-T dan CLIP-T berkinerja sedikit lebih baik. Bahkan versi yang diperhalus dari DINO dan CLIP tidak menutup celah. Skor tertinggi, 6,77, dicapai oleh model relsim, yang dilatih dengan pengawasan berbasis grup.

Penulis mencatat:

‘Ini sangat menggembirakan, karena menunjukkan tidak hanya bahwa model kami, relsim, dapat berhasil mengambil gambar yang relasional mirip, tetapi juga, lagi, mengkonfirmasi bahwa manusia memang memahami kesamaan relasional–bukan hanya kesamaan atribut!’

Untuk mengeksplorasi bagaimana kesamaan relasional dan atribut dapat saling melengkapi, peneliti menggunakan metode visualisasi gabungan. Gambar kueri tunggal (‘Seekor anjing memegang kamera’) dibandingkan dengan 3.000 gambar acak, dan kesamaan dihitung menggunakan model relasional dan atribut:

Visualisasi gabungan ruang kesamaan visual menggunakan sumbu relasional dan atribut. Gambar kueri tunggal, menggambarkan seekor anjing menggunakan kamera, dibandingkan dengan 3.000 lainnya. Hasil diatur oleh kesamaan relasional (vertikal) dan kesamaan atribut (horizontal). Wilayah kanan atas berisi gambar yang menyerupai kueri dalam logika dan penampilan, seperti anjing lain menggunakan alat. Wilayah kiri atas berisi kasus yang terkait secara semantik tetapi berbeda secara visual, seperti hewan lain melakukan tindakan terkait kamera. Sebagian besar contoh lainnya berkumpul lebih rendah dalam ruang, mencerminkan kesamaan yang lebih lemah. Tata letak menunjukkan bagaimana model relasional dan atribut menyoroti aspek komplementer dari data visual. Silakan merujuk ke makalah sumber untuk resolusi yang lebih baik.

Visualisasi gabungan ruang kesamaan visual menggunakan sumbu relasional dan atribut. Gambar kueri tunggal, menggambarkan seekor anjing menggunakan kamera, dibandingkan dengan 3.000 lainnya. Hasil diatur oleh kesamaan relasional (vertikal) dan kesamaan atribut (horizontal). Wilayah kanan atas berisi gambar yang menyerupai kueri dalam logika dan penampilan, seperti anjing lain menggunakan alat. Wilayah kiri atas berisi kasus yang terkait secara semantik tetapi berbeda secara visual, seperti hewan lain melakukan tindakan terkait kamera. Sebagian besar contoh lainnya berkumpul lebih rendah dalam ruang, mencerminkan kesamaan yang lebih lemah. Tata letak menunjukkan bagaimana model relasional dan atribut menyoroti aspek komplementer dari data visual. Silakan merujuk ke makalah sumber untuk resolusi yang lebih baik.

Hasil ini mengungkapkan klaster yang sesuai dengan jenis kesamaan yang berbeda: beberapa gambar memiliki kesamaan relasional dan visual; yang lain berbagi logika relasional tetapi tidak penampilan; sisa gambar menunjukkan tidak ada kesamaan.

Analisis ini menunjukkan bahwa kedua jenis kesamaan ini berperan berbeda dan menghasilkan struktur yang lebih kaya ketika digabungkan.

Kasus Penggunaan

Makalah ini juga mengeksplorasi beberapa kasus penggunaan yang mungkin untuk kesamaan relasional, termasuk pengambilan gambar relasional, yang memungkinkan pencarian gambar yang lebih selaras dengan cara kreatif manusia memandang dunia:

Pengambilan relasional mengembalikan gambar yang berbagi struktur konseptual yang lebih dalam dengan kueri, bukan hanya mencocokkan fitur permukaan. Misalnya, item makanan yang dirancang untuk menyerupai wajah mengembalikan makanan antropomorfik lain; objek yang dipotong menghasilkan bentuk potongan lain; dan adegan interaksi orang tua-anak mengembalikan gambar dengan peran relasional yang sama, bahkan ketika spesies dan komposisi berbeda.

Pengambilan relasional mengembalikan gambar yang berbagi struktur konseptual yang lebih dalam dengan kueri, bukan hanya mencocokkan fitur permukaan. Misalnya, item makanan yang dirancang untuk menyerupai wajah mengembalikan makanan antropomorfik lain; objek yang dipotong menghasilkan bentuk potongan lain; dan adegan interaksi orang tua-anak mengembalikan gambar dengan peran relasional yang sama, bahkan ketika spesies dan komposisi berbeda.

Kemungkinan lainnya adalah generasi gambar analog, yang memungkinkan sintesis kueri yang menggunakan struktur relasional daripada deskripsi langsung. Dalam perbandingan hasil yang diperoleh dari generasi model bahasa-ke-gambar yang paling mutakhir, kita dapat melihat bahwa hasil dari pendekatan seperti ini kemungkinan akan lebih beragam:

Diberikan gambar input dan prompt relasional, model diminta untuk menghasilkan gambar baru yang mengekspresikan konsep yang sama. Model proprietari menghasilkan analogi yang lebih setia, mempertahankan logika struktural di seluruh perubahan bentuk yang besar, dan model sumber terbuka cenderung mengalami regresi ke pencocokan literal atau gaya, gagal mentransfer ide yang lebih dalam. Keluaran dibandingkan dengan analogi yang dikurasi oleh manusia, yang menggambarkan transformasi yang dimaksud.

Diberikan gambar input dan prompt relasional, model diminta untuk menghasilkan gambar baru yang mengekspresikan konsep yang sama. Model proprietari menghasilkan analogi yang lebih setia, mempertahankan logika struktural di seluruh perubahan bentuk yang besar, dan model sumber terbuka cenderung mengalami regresi ke pencocokan literal atau gaya, gagal mentransfer ide yang lebih dalam. Keluaran dibandingkan dengan analogi yang dikurasi oleh manusia, yang menggambarkan transformasi yang dimaksud.

Kesimpulan

Sistem AI generatif akan, tampaknya, ditingkatkan secara signifikan dengan kemampuan untuk menggabungkan representasi abstrak ke dalam konseptualisasi mereka. Seperti yang ada sekarang, meminta gambar konsep seperti ‘kemarahan’ atau ‘kebahagiaan’ cenderung mengembalikan gambar yang dipilih dari gambar paling populer atau paling banyak yang memiliki asosiasi ini di dataset; yang merupakan memorasi daripada abstraksi.

Prinsip ini kemungkinan akan lebih bermanfaat jika dapat diterapkan pada penulisan generatif – terutama output analitis, spekulatif, atau fiksi.

Tekan untuk memutar. Sumber

 

 

* Sebuah A100 dapat memiliki 40Gb atau 80GB VRAM; ini tidak ditentukan dalam makalah.

** Kutipan penulis yang redundan dan dikecualikan.

Dipublikasikan pertama kali pada hari Selasa, 16 Desember 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.