Kecerdasan buatan

Mengevaluasi Akurasi Historis ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Sebuah studi baru dari Google Research dan UC Berkeley menambahkan kritik lama mengenai sektor penelitian computer vision (CV) yang bergantung pada dataset ImageNet yang terhormat, dan banyak turunannya. Setelah melakukan evaluasi manual yang sangat melelahkan, penulis menyimpulkan bahwa hampir 50% dari kesalahan yang dilakukan model terbaik pada subset evaluasi multi-label ImageNet (di mana model terbaik saat ini mencapai akurasi top-1 lebih dari 97%) sebenarnya tidak salah.

Dari makalah:

‘Analisis kami mengungkapkan bahwa hampir setengah dari kesalahan yang diasumsikan tidak benar-benar salah, dan kami menemukan label multi-label baru yang valid, menunjukkan bahwa, tanpa tinjauan yang cermat, kami secara signifikan meremehkan kinerja model ini.

‘Di sisi lain, kami juga menemukan bahwa model terbaik saat ini masih membuat sejumlah besar kesalahan (40%) yang jelas salah bagi peninjau manusia.’

Sejauh mana penandaan dataset yang salah – terutama oleh pekerja crowdsourced yang tidak terampil – dapat memengaruhi sektor ini, terungkap oleh pendekatan penelitian yang teliti dalam evaluasi pasangan gambar/teks di seluruh sejarah ImageNet.

Pada baris atas, contoh Keparahan Kesalahan: pada dua contoh pertama, model baru hanya salah memprediksi label; pada contoh ketiga, model baru mengidentifikasi label multi-label yang hilang sebelumnya (label yang menangani kategorisasi baru dari gambar); pada gambar terakhir di baris atas, prediksi model ambigu, karena gambar itu adalah lalat-lebah dan bukan lalat. Namun, lebah rata-rata termasuk dalam ordo serangga Diptera, sehingga pengecualian ini hampir mustahil untuk ditemukan, bahkan oleh annotator ahli. Pada baris di bawah adalah empat kategori kesalahan, dengan contoh. Sumber: https://arxiv.org/pdf/2205.04596.pdf

Peneliti menggunakan sejumlah kecil evaluator yang didedikasikan untuk meninjau catatan kesalahan historis dalam evaluasi dataset ImageNet, menemukan bahwa banyak dari keputusan kesalahan itu sendiri salah – sebuah temuan yang berpotensi merevisi beberapa skor yang buruk yang banyak proyek dapatkan pada benchmark ImageNet selama bertahun-tahun.

Saat ImageNet semakin mapan dalam budaya CV, peneliti berpendapat bahwa perbaikan akurasi dianggap menghasilkan hasil yang menurun, dan model baru yang melangkah melewati akurasi label yang ada, dan yang menyarankan label baru (yaitu tambahan) mungkin dihukum, secara efektif, karena non-konformitas.

‘Misalnya,’ penulis mengamati. ‘Apakah kita harus menghukum model untuk menjadi yang pertama memprediksi bahwa bagel yang dipanggang sebelumnya mungkin merupakan bagel, seperti yang dilakukan oleh salah satu model yang kita tinjau dalam pekerjaan ini?’

Dari makalah, model baru menentang prediksi sebelumnya bahwa objek dalam foto adalah adonan, dan menyarankan bahwa objek itu sebenarnya sudah menjadi bagel).

Dari sudut pandang pekerja crowdsourced yang ditugaskan untuk mengidentifikasi objek seperti itu, ini adalah dilemma semantik dan bahkan filosofis yang hanya dapat diselesaikan dengan multi-labeling (seperti yang sering terjadi pada subset dan iterasi berikutnya dari ImageNet);

Kesalahan besar (atas) dan kecil (bawah) yang muncul saat menguji model kustom dalam penelitian. Label ImageNet asli adalah gambar pertama di sebelah kiri.

Dua solusi yang jelas adalah untuk mengalokasikan lebih banyak sumber daya untuk pelabelan (yang merupakan tantangan, dalam batasan anggaran sebagian besar proyek penelitian visi komputer); dan, seperti yang ditekankan oleh penulis, untuk secara teratur memperbarui dataset dan subset evaluasi label (yang, di antara hambatan lain, berisiko memutuskan kontinuitas historis benchmark ‘seperti untuk seperti’, dan untuk membuang kertas penelitian baru dengan kualifikasi dan penafian mengenai kesetaraan).

Sebagai langkah untuk memperbaiki situasi, peneliti telah mengembangkan sub-dataset ImageNet baru yang disebut ImageNet-Major (ImageNet-M), yang mereka deskripsikan sebagai ’68-contoh “kesalahan besar” iris dari kesalahan yang jelas dilakukan oleh model terbaik saat ini – iris di mana model harus mencapai kesempurnaan, tetapi saat ini jauh dari melakukannya.’

Makalah ini berjudul Kapan adonan menjadi bagel? Menganalisis kesalahan yang tersisa pada ImageNet, dan ditulis oleh empat penulis dari Google Research, bersama dengan Sara Fridovich-Keil dari UC Berkeley.

Utang Teknis

Temuan ini penting karena kesalahan yang tersisa yang diidentifikasi (atau salah diidentifikasi) dalam ImageNet, dalam 16 tahun sejak pembuatannya, studi pusat penelitian, dapat mewakili perbedaan antara model yang dapat diterapkan dan yang cukup rentan kesalahan sehingga tidak dapat dilepaskan pada data langsung. Seperti biasa, mil terakhir sangat kritis.

Sektor penelitian visi komputer dan sintesis gambar secara efektif ‘mengatur sendiri’ ImageNet sebagai metrik benchmark, karena sejumlah alasan – tidak hanya karena sejumlah pengadopsi awal, pada saat dataset volume tinggi dan terlabel dengan baik lebih jarang daripada sekarang, menghasilkan banyak inisiatif penelitian yang pengujian melawan ImageNet dengan cepat menjadi satu-satunya ‘standar’ historis yang luas untuk benchmarking kerangka kerja baru.

Metode

Mencari ‘kesalahan yang tersisa’ dalam ImageNet, peneliti menggunakan model ViT standar (yang dapat mencapai akurasi 89,5%) dengan 3 miliar parameter, Vit-3B, yang telah dipratinjau pada JFT-3B dan disempurnakan pada ImageNet-1K.

Menggunakan dataset ImageNet2012_multilabel, peneliti merekam akurasi multi-label awal (MLA) ViT-3B sebagai 96,3%, selama model membuat 676 kesalahan yang tampak. Ini adalah kesalahan (dan juga kesalahan yang dihasilkan oleh model Greedy Soups) yang penulis ingin menyelidiki.

Untuk mengevaluasi 676 kesalahan yang tersisa, penulis menghindari pekerja crowdsourced, mengamati bahwa kesalahan jenis ini dapat sulit untuk annotator rata-rata untuk menemukan, tetapi mengumpulkan panel lima peninjau ahli, dan membuat alat khusus untuk memungkinkan setiap peninjau untuk melihat sekilas kelas yang diprediksi; skor yang diprediksi; label benar; dan gambar itu sendiri.

UI yang dibangun untuk proyek.

Dalam beberapa kasus, penelitian lebih lanjut diperlukan untuk menyelesaikan sengketa di antara panel, dan Google Image search digunakan sebagai alat tambahan.

‘[Dalam] satu kasus menarik tetapi tidak terisolasi, prediksi taksi (tanpa indikator taksi yang jelas di luar warna kuning) ada dalam gambar; kami menentukan prediksi itu benar-benar taksi dan bukan hanya kendaraan standar dengan mengidentifikasi jembatan landmark di latar belakang untuk memperjelas kota, dan pencarian gambar berikutnya untuk taksi di kota itu menghasilkan gambar taksi dengan model dan desain pelat nomor yang sama, memvalidasi prediksi model yang sebenarnya benar.’

Setelah tinjauan awal kesalahan yang ditemukan selama beberapa fase penelitian, penulis merumuskan empat jenis kesalahan baru: kesalahan halus, di mana kelas yang diprediksi mirip dengan label benar; kesalahan halus dengan out-of-vocabulary (OOV), di mana model mengidentifikasi objek yang kelasnya benar tetapi tidak ada dalam ImageNet; kesalahan korelasi semu, di mana label yang diprediksi dibaca di luar konteks gambar; dan non-prototipe, di mana objek benar adalah contoh yang meragukan dari kelas yang menyerupai label yang diprediksi.

Dalam beberapa kasus, label benar itu sendiri tidak ‘benar’:

‘Setelah meninjau 676 kesalahan asli [ditemukan dalam ImageNet], kami menemukan bahwa 298 benar atau tidak jelas, atau menentukan label benar asli salah atau bermasalah.’

Setelah putaran eksperimen yang panjang dan kompleks di seluruh dataset, subset, dan set validasi, penulis menemukan bahwa dua model yang dipelajari sebenarnya dianggap benar (oleh peninjau manusia) untuk setengah dari ‘kesalahan’ yang mereka buat dengan teknik konvensional.

Makalah ini menyimpulkan:

‘Dalam makalah ini, kami menganalisis setiap kesalahan yang tersisa yang dilakukan oleh model ViT-3B dan Greedy Soups pada subset validasi multi-label ImageNet.

‘Secara keseluruhan, kami menemukan bahwa: 1) ketika model besar dengan akurasi tinggi membuat prediksi baru yang tidak dibuat oleh model lain, itu berakhir menjadi label multi-label baru yang benar hampir setengah waktu; 2) model dengan akurasi lebih tinggi tidak menunjukkan pola yang jelas dalam kategori dan tingkat kesalahan yang mereka selesaikan; 3) model SOTA saat ini sebagian besar mencocokkan atau mengalahkan kinerja ahli manusia terbaik pada subset multi-label yang dievaluasi oleh manusia; 4) data pelatihan yang bising dan kelas yang tidak terdefinisi dengan baik mungkin merupakan faktor yang membatasi pengukuran perbaikan dalam klasifikasi gambar.’

Dipublikasikan pertama kali pada 15 Mei 2022.