Sudut Anderson

Ilusi ‘Unduh Lebih Banyak Label!’ dalam Penelitian AI

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Pandangan umum dalam penelitian pembelajaran mesin saat ini adalah bahwa pembelajaran mesin itu sendiri dapat digunakan untuk meningkatkan kualitas anotasi dataset AI – terutama caption gambar yang dimaksudkan untuk digunakan dalam model bahasa-visi (VLMs). Garis pemikiran ini didorong oleh biaya tinggi anotasi manusia, dan beban tambahan dari mengawasi kinerja annotator.

Secara dapat dipertanggarkan ini adalah setara AI dari meme ‘unduh lebih banyak RAM’ awal 2000-an, yang mengolok-olok gagasan bahwa keterbatasan perangkat keras dapat diselesaikan dengan perbaikan berbasis perangkat lunak.

Ini juga merupakan masalah yang kurang dipertimbangkan; sementara model AI baru menarik perhatian luas di kedua sphere publik dan komersial, anotasi sering kali tampak sebagai detail trivial dalam pipa pembelajaran mesin, tertutupi oleh kegembiraan sekitar kerangka kerja yang lebih luas.

Pada kenyataannya, kapasitas sistem pembelajaran mesin untuk mengenali dan mereproduksi pola (kasus penggunaan sentral hampir semua sistem AI) tergantung pada kualitas dan konsistensi anotasi dunia nyata – label dan frasa yang dibuat atau diadili oleh orang-orang nyata, sering kali membuat penilaian subjektif tentang titik data individual dalam situasi non-ideal.

Tidak dapat dihindari, sistem yang berusaha untuk mengamati dan mereproduksi pola dalam perilaku annotator (dan dengan demikian menggantikan annotator manusia dan memfasilitasi pelabelan akurat dalam skala besar) tidak dapat berharap untuk berkinerja baik pada data tidak terkandung dalam contoh yang diambil dari pengamat manusia. Tidak ada yang ‘serupa’ yang benar-benar sama, dan ekuivalensi antar domain tetap menjadi pengejaran yang bermasalah dalam penglihatan komputer.

‘Dollar data hulu’ harus berhenti di suatu tempat, dan dalam hal ini, itu tepat di mana berhenti – dengan cerebellum manusia membuat beberapa jenis distingsi subjektif untuk mengkodekan data untuk sistem buatan.

The RAG Trade

Hingga baru-baru ini, ketidakakuratan yang muncul dari anotasi dataset yang kurang dirawat mungkin dianggap sebagai kerusakan sampingan yang dapat diterima dalam konteks hasil yang tidak sempurna tetapi masih layak dipasarkan yang diperoleh dari sistem AI generatif.

Memang, hanya tahun ini sebuah studi dari Singapura menyimpulkan bahwa halusinasi – yaitu, kesempatan ketika sistem AI menciptakan hal-hal yang merusak niat kita – tidak dapat dihindari, dan terikat dengan arsitektur konseptual sistem tersebut.

Untuk mengatasi hal ini, agen RAG – yang dapat ‘memverifikasi’ fakta melalui pencarian internet – menjadi populer dalam penelitian dan solusi komersial yang diterapkan. Namun, mereka menambahkan biaya sumber daya dan latency dalam kueri; selain itu, informasi baru yang diterapkan pada model terlatih tidak dapat bersaing dengan koneksi yang lebih kompleks dan erat yang menghubungkan lapisan asli dalam model terlatih.

Oleh karena itu, akan lebih baik jika data anotasi yang memberi informasi kepada model-model ini secara signifikan kurang bermasalah pada awalnya, bahkan jika tidak dapat sempurna (tidak hanya karena aktivitas ini mengganggu ranah subjektivitas manusia).

RePOPE

Sebuah makalah baru dari Jerman menyoroti masalah yang timbul dari mengandalkan dataset yang lebih lama dan banyak digunakan, terutama dalam hal akurasi dan keandalan caption gambar mereka. Temuan peneliti menunjukkan bahwa kesalahan label dalam benchmark dapat menyembunyikan atau salah menggambarkan halusinasi dalam model bahasa-visi.

Dari makalah baru, beberapa contoh di mana caption asli gagal mengidentifikasi objek dalam dataset gambar MSCOCO. Revisi manual peneliti terhadap benchmark dataset POPE mengatasi kekurangan ini, menunjukkan biaya dari menghemat biaya kurasi anotasi. Sumber: https://arxiv.org/pdf/2504.15707

Bayangkan sebuah model diperlihatkan gambar adegan jalan dan ditanya apakah ada sepeda di dalamnya. Model menjawab ya. Jika dataset benchmark mengatakan tidak ada sepeda, model dianggap salah. Tapi jika sepeda jelas terlihat dalam gambar, dan hanya terlewatkan selama anotasi, maka jawaban model benar, dan benchmark telah gagal. Kesalahan seperti ini dapat menumpuk di seluruh dataset, memberikan gambaran yang salah tentang model mana yang akurat dan mana yang rentan terhadap halusinasi.

Dengan demikian, ketika anotasi yang salah atau ambigu dianggap sebagai kebenaran, model mungkin tampak mengalami halusinasi ketika mereka benar, atau tampak akurat ketika mereka tidak, mengganggu baik pengukuran halusinasi dan peringkat kinerja model, serta membuatnya lebih sulit untuk mendiagnosa atau mengatasi masalah dengan kepastian.

Makalah baru ini mengunjungi kembali benchmark yang banyak digunakan yang disebut Polling-based Object Probing Evaluation (POPE), yang menguji apakah model bahasa-visi dapat dengan benar mengatakan apa yang ada atau tidak ada dalam sebuah gambar.

POPE didasarkan pada label dari dataset Microsoft COCO: Common Objects in Context (MSCOCO) yang berpengaruh, sebuah koleksi gambar yang telah lama dianggap menawarkan tingkat akurasi anotasi yang baik.

POPE mengevaluasi halusinasi objek dalam model bahasa-visi besar dengan mengubah masalah menjadi tugas klasifikasi biner. Alih-alih menganalisis caption yang dihasilkan, sistem mengajukan pertanyaan ya/tidak sederhana kepada model tentang apakah objek tertentu ada dalam gambar, menggunakan templat seperti ‘Apakah ada <objek> dalam gambar?’.

Contoh halusinasi objek dalam model bahasa-visi. Label tebal menunjukkan objek yang ditandai sebagai hadir dalam anotasi asli, sedangkan label merah menunjukkan objek yang dihalusinasi oleh model. Contoh kiri mencerminkan evaluasi instruksi tradisional, sedangkan tiga contoh di sebelah kanan diambil dari varian benchmark POPE yang berbeda. Sumber: https://aclanthology.org/2023.emnlp-main.20.pdf

Objek yang sebenarnya (jawaban: Ya) dipasangkan dengan objek yang tidak ada (jawaban: Tidak), dipilih melalui strategi acak, sering (populer), atau berdasarkan ko-oksistensi (adversarial). Pengaturan ini memungkinkan evaluasi halusinasi yang lebih stabil dan tidak bergantung pada analisis caption yang kompleks.

Penulis makalah baru – berjudul RePOPE: Dampak Kesalahan Anotasi pada Benchmark POPE – menantang akurasi yang diasumsikan dari POPE dengan memeriksa kembali label pada gambar benchmark (yaitu, MSCOCO) – dan menemukan bahwa sejumlah besar label tersebut salah atau tidak jelas.

Contoh dari dataset MSCOCO 2014. Sumber: https://arxiv.org/pdf/1405.0312

Kesalahan ini mengubah cara model dinilai, dengan beberapa model yang awalnya berkinerja baik jatuh di belakang ketika dihakimi melawan label yang telah diperbaiki.

Dalam tes, penulis mengevaluasi berbagai model bahasa-visi terbuka pada benchmark POPE asli dan versi RePOPE yang telah diperbaiki.

Menurut makalah, anotasi yang telah diperbaiki menyebabkan perubahan yang signifikan dalam peringkat model, terutama dalam skor F1, dengan beberapa model yang berkinerja tinggi di POPE jatuh di peringkat di bawah RePOPE.

Penulis berpendapat bahwa pergeseran ini menggambarkan seberapa besar kesalahan anotasi dapat mengaburkan perilaku halusinasi model yang sebenarnya, dan mereka menyajikan RePOPE sebagai alat yang lebih andal untuk menilai kerentanan halusinasi.

Dalam contoh lain dari makalah baru, kita melihat bagaimana caption asli POPE gagal untuk mengenali objek halus, seperti orang yang duduk di sebelah kabin trem di foto paling kanan, atau kursi yang tertutup oleh pemain tenis di foto kedua dari kiri.

Metode dan Tes

Peneliti menganotasi ulang semua anotasi dalam dataset MSCOCO asli, dengan dua pengannotator manusia yang ditugaskan untuk setiap contoh data. Di mana ambigu tentang kualitas label asli muncul (seperti dalam contoh di bawah), hasil tersebut disisihkan dari putaran pengujian.

Kasus ambigu, di mana inkonsistensi label dalam POPE mencerminkan batasan kategori yang tidak jelas. Sebagai contoh, beruang mainan yang dilabeli sebagai beruang, sepeda motor sebagai sepeda, atau kendaraan bandara sebagai mobil. Kasus-kasus ini dikecualikan dari RePOPE karena sifat subjektif dari klasifikasi tersebut, serta inkonsistensi dalam label asli MSCOCO.

Makalah tersebut menyatakan:

‘Pengannotator asli melewatkan orang di latar belakang atau di balik kaca, pemain tenis menghalangi ‘kursi’ di latar belakang dan kohlslaw hanya mengandung garis kecil yang terlihat dari wortel.

‘Untuk beberapa objek, anotasi COCO sangat tidak konsisten, kemungkinan karena definisi objek yang berbeda yang digunakan oleh pengannotator asli. Klasifikasi ‘beruang mainan’ sebagai ‘beruang’, sepeda motor sebagai sepeda bermotor ‘sepeda’, atau kendaraan bandara sebagai ‘mobil’ tergantung pada definisi spesifik, menyebabkan inkonsistensi dalam anotasi kebenaran POPE. Oleh karena itu, kami menandai pasangan gambar-pertanyaan yang sesuai sebagai ‘ambigu’.’

Hasil pengannotasian ulang: pertanyaan positif dibagikan di semua varian POPE. Di antara yang dilabeli ‘Ya’ di POPE, 9,3 persen ditemukan salah dan 13,8 persen diklasifikasikan sebagai ambigu. Untuk pertanyaan ‘Tidak’, 1,7 persen dilabeli salah dan 4,3 persen ambigu.

Penulis mengevaluasi berbagai model terbuka pada POPE dan RePOPE, di seluruh arsitektur dan ukuran model yang beragam. Model yang dipilih termasuk beberapa arsitektur terkemuka di papan peringkat OpenVLM: InternVL2.5 (8B/26B/38B/78B dan 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; dan PaliGemma2 (3B/10B).

Hasil awal: tingkat kesalahan yang tinggi dalam label positif asli menyebabkan penurunan tajam dalam true positif di semua model. False positif bervariasi di seluruh subset, hampir dua kali lipat pada subset acak, tetapi tetap tidak berubah pada subset populer, dan menunjukkan penurunan kecil pada subset adversarial. Pemberian label ulang memiliki efek besar pada peringkat berdasarkan F1. Model seperti Ovis2-4B dan Ovis2-8B, yang berkinerja baik pada subset populer dan adversarial di POPE, juga naik ke atas pada subset acak di bawah RePOPE. Silakan merujuk ke PDF sumber untuk resolusi yang lebih baik.

Grafik hasil di atas menggambarkan bagaimana jumlah true positif dan false positif berubah setelah memperbaiki label dalam benchmark.

True positif menurun di semua model, menunjukkan bahwa mereka sering diberi kredit untuk jawaban yang benar ketika jawaban tersebut hanya benar di bawah label yang salah, sementara false positif mengikuti pola yang lebih bervariasi.

Pada ‘random’ versi POPE, false positif hampir dua kali lipat untuk banyak model, menunjukkan bahwa sejumlah besar objek yang ditandai sebagai halusinasi sebenarnya ada dalam gambar tetapi terlewatkan dalam anotasi asli. Dalam kasus ini, banyak kesalahan model yang diasumsikan sebenarnya adalah kesalahan labeling dataset.

Untuk ‘adversarial’ versi POPE, di mana pertanyaan didasarkan pada objek yang sering terjadi bersamaan, false positif menurun. Ini kemungkinan mencerminkan kemungkinan yang lebih tinggi bahwa objek yang seharusnya tidak ada sebenarnya ada dalam gambar tetapi tidak dilabeli.

Meskipun pergeseran ini memengaruhi presisi dan recall, peringkat model tetap relatif stabil untuk kedua metrik.

Skor F1 – ukuran evaluasi utama POPE – jauh lebih sensitif terhadap koreksi label. Pada subset acak, model yang berperingkat dekat dengan atas di bawah label asli, seperti InternVL2.5-8B dan -26B, jatuh ke bawah ketika dinilai dengan RePOPE. Yang lain, seperti Ovis2-4B dan -8B, naik ke atas.

Polanya yang sama muncul dalam skor akurasi, meskipun penulis mencatat bahwa skor ini mungkin sekarang bias, karena dataset yang diperbaiki mengandung jumlah positif dan negatif yang tidak seimbang.

Penulis berpendapat bahwa dampak kuat dari kesalahan anotasi pada hasil benchmark menekankan kebutuhan akan data berkualitas tinggi. Untuk mendukung evaluasi yang lebih andal dari halusinasi objek, mereka telah merilis label yang diperbaiki di GitHub.

Namun, mereka mencatat bahwa pemberian label ulang ini tidak sepenuhnya mengatasi kejenuhan benchmark, karena banyak model masih mencapai tingkat true positif dan true negatif di atas 90%. Mereka menyarankan bahwa benchmark tambahan, seperti DASH-B, yang menggunakan contoh negatif yang lebih menantang, harus digunakan bersama dengan RePOPE.

Kesimpulan

Eksperimen ini memungkinkan karena skala dataset yang sangat kecil. Membuktikan hipotesis yang sama pada dataset hiperskala akan melibatkan bekerja pada fragmen data yang sangat terbatas; dalam dataset besar yang sangat beragam, mungkin hampir mustahil untuk mengisolasi kelompok yang representatif secara statistik dan kohern dalam semantik – potensial mengganggu hasilnya.

Bahkan jika memungkinkan, apa yang akan menjadi solusinya di bawah keadaan seni saat ini? Argumen kembali tak terhindarkan ke kebutuhan akan anotasi manusia yang lebih baik dan lebih banyak.

Dalam hal ini, ‘lebih baik’ dan ‘lebih banyak’ ada sebagai masalah yang terpisah, karena satu dapat memperoleh volume anotasi yang lebih besar melalui ekonomi yang berlomba ke bawah seperti Amazon Mechanical Turk (AMT). Jelas, sub-ekonomi ini potensial eksploitatif sering menghasilkan hasil yang lebih rendah.

Alternatifnya, satu bisa mengalihdayakan tugas anotasi ke wilayah ekonomi di mana pengeluaran yang sama akan menghasilkan jumlah anotasi yang lebih besar. Namun, semakin jauh pengannotator dari kasus penggunaan yang dimaksudkan dari model yang akan dibentuk oleh label mereka, semakin kecil kemungkinan bahwa model yang dihasilkan akan sesuai dengan kebutuhan atau harapan domain target.

Oleh karena itu, ini tetap menjadi salah satu tantangan paling persisten dan belum terpecahkan dalam ekonomi pengembangan pembelajaran mesin.

Pertama dipublikasikan pada Rabu, 23 April 2025