potongan Model Deep Learning Mungkin Sulit Mengenali Gambar yang Dihasilkan AI - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Model Deep Learning Mungkin Sulit Mengenali Gambar yang Dihasilkan AI

mm
Updated on

Temuan dari makalah baru menunjukkan bahwa AI yang canggih secara signifikan kurang mampu mengenali dan menafsirkan gambar yang disintesis AI dibandingkan manusia, yang mungkin menjadi perhatian dalam iklim mendatang di mana model pembelajaran mesin semakin banyak dilatih pada data sintetis. dan dimana belum tentu dapat diketahui apakah data tersebut 'nyata' atau tidak.

Di sini kita melihat model prediksi resnext101_32x8d_wsl berjuang dalam kategori 'bagel'. Dalam pengujian, kegagalan pengenalan dianggap terjadi jika kata target inti (dalam hal ini 'bagel') tidak ditampilkan dalam lima hasil prediksi teratas. Sumber: https://arxiv.org/pdf/2208.10760.pdf

Di sini kita melihat model prediksi resnext101_32x8d_wsl berjuang dalam kategori 'bagel'. Dalam pengujian, kegagalan pengenalan dianggap terjadi jika kata target inti (dalam hal ini 'bagel') tidak ditampilkan dalam lima hasil prediksi teratas. Sumber: https://arxiv.org/pdf/2208.10760.pdf

Penelitian baru ini menguji dua kategori kerangka pengenalan berbasis visi komputer: pengenalan objek, dan menjawab pertanyaan visual (VQA).

Di sebelah kiri, keberhasilan dan kegagalan inferensi dari sistem pengenalan objek; di sebelah kanan, tugas VQA dirancang untuk menyelidiki pemahaman AI tentang pemandangan dan gambar dengan cara yang lebih eksploratif dan signifikan. Sumber: https://arxiv.org/pdf/2105.05312.pdf dan https://arxiv.org/pdf/1505.00468.pdf

Di sebelah kiri, keberhasilan dan kegagalan inferensi dari sistem pengenalan objek; di sebelah kanan, tugas VQA dirancang untuk menyelidiki pemahaman AI tentang pemandangan dan gambar dengan cara yang lebih eksploratif dan signifikan. Sumber: https://arxiv.org/pdf/2105.05312.pdf dan https://arxiv.org/pdf/1505.00468.pdf

Dari sepuluh model canggih yang diuji pada kumpulan data pilihan yang dihasilkan oleh kerangka kerja sintesis gambar DALL-E2 dan tengah perjalanan, model dengan performa terbaik hanya mampu mencapai 60% dan 80% akurasi top-5 di kedua jenis pengujian, sedangkan Gambar Net, dilatih pada data dunia nyata non-sintetik, masing-masing dapat mencapai 91% dan 99% dalam kategori yang sama, sementara kinerja manusia biasanya jauh lebih tinggi.

Mengatasi masalah sekitar pergeseran distribusi (alias 'Model Drift', di mana model prediksi mengalami penurunan kapasitas prediksi saat dipindahkan dari data pelatihan ke data 'nyata'), makalah tersebut menyatakan:

'Manusia dapat mengenali gambar yang dihasilkan dan menjawab pertanyaan dengan mudah. Kami menyimpulkan bahwa a) model yang dalam berjuang untuk memahami konten yang dihasilkan, dan mungkin bekerja lebih baik setelah penyempurnaan, dan b) ada pergeseran distribusi yang besar antara gambar yang dihasilkan dan foto asli. Pergeseran distribusi tampaknya bergantung pada kategori.'

Mengingat volume gambar sintetik sudah membanjiri internet setelah minggu lalu sumber terbuka yang sensasional dari yang berkuasa Difusi Stabil model sintesis difusi laten, kemungkinan secara alami muncul ketika gambar 'palsu' membanjiri kumpulan data standar industri seperti Perayapan Umum, variasi akurasi selama bertahun-tahun dapat dipengaruhi secara signifikan oleh gambar 'tidak nyata'.

Padahal data sintetik telah digembar-gemborkan sebagai penyelamat potensial dari sektor penelitian visi komputer yang kekurangan data, yang seringkali kekurangan sumber daya dan anggaran untuk kurasi hiperskala, semburan baru gambar Difusi Stabil (bersama dengan peningkatan umum dalam gambar sintetik sejak munculnya dan komersialisasi of DALL-E2) tidak mungkin semuanya dilengkapi dengan label, anotasi, dan tagar praktis yang membedakannya sebagai 'palsu' pada saat sistem visi mesin yang serakah menghapusnya dari internet.

Kecepatan pengembangan kerangka kerja sintesis gambar sumber terbuka telah melampaui kemampuan kami untuk mengkategorikan gambar dari sistem ini, yang mengarah ke meningkatnya minat dalam deteksi 'gambar palsu' sistem, mirip dengan deteksi deepfake sistem, tetapi bertugas mengevaluasi keseluruhan gambar daripada bagian wajah.

Grafik kertas baru berjudul Seberapa dalam model dalam memahami gambar yang dihasilkan?, dan berasal dari Ali Borji dari startup pembelajaran mesin San Francisco, Quintic AI.

Data

Studi ini mendahului rilis Difusi Stabil, dan eksperimen menggunakan data yang dihasilkan oleh DALL-E 2 dan Midjourney di 17 kategori, termasuk gajah, jamur, pizza, pretzel, traktor dan kelinci.

Contoh gambar dari mana pengenalan yang diuji dan sistem VQA ditantang untuk mengidentifikasi konsep kunci yang paling penting.

Contoh gambar dari mana pengenalan yang diuji dan sistem VQA ditantang untuk mengidentifikasi konsep kunci yang paling penting.

Gambar diperoleh melalui pencarian web dan melalui Twitter, dan, sesuai dengan kebijakan DALL-E 2 (setidaknya, pada saat itu), tidak menyertakan gambar apa pun yang menampilkan wajah manusia. Hanya gambar berkualitas baik, yang dapat dikenali oleh manusia, yang dipilih.

Dua set gambar dikuratori, masing-masing untuk pengenalan objek dan tugas VQA.

Jumlah gambar yang ada di setiap kategori yang diuji untuk pengenalan objek.

Jumlah gambar yang ada di setiap kategori yang diuji untuk pengenalan objek.

Menguji Pengenalan Objek

Untuk tes pengenalan objek, sepuluh model, semuanya dilatih di ImageNet, diuji: AlexNet, ResNet152, MobileNetV2, Jaringan Padat, ResSelanjutnya, GoogleNet, ResNet101, Awal_V3, Dewa, dan ResNext_WSL.

Beberapa kelas dalam sistem yang diuji lebih terperinci daripada yang lain, sehingga memerlukan penerapan pendekatan rata-rata. Misalnya, ImageNet berisi tiga kelas yang mempertahankan 'jam', dan perlu untuk mendefinisikan beberapa jenis metrik arbitrasional, di mana penyertaan 'jam' apa pun dari jenis apa pun dalam lima label teratas yang diperoleh untuk gambar apa pun dianggap berhasil. dalam hal itu.

Performa per model di 17 kategori.

Performa per model di 17 kategori.

Model berperforma terbaik dalam putaran ini adalah resnext101_32x8d_ws, mencapai hampir 60% untuk top-1 (yaitu, waktu di mana prediksi pilihannya dari lima tebakan adalah konsep yang benar yang terkandung dalam gambar), dan 80% untuk top-five ( yaitu konsep yang diinginkan setidaknya tercantum di suatu tempat di lima tebakan model tentang gambar).

Penulis menyarankan bahwa kinerja yang baik dari model ini adalah karena model ini dilatih untuk prediksi tagar yang diawasi dengan lemah di platform media sosial. Namun, hasil utama ini, catat penulis, berada di bawah apa yang dapat dicapai ImageNet pada data nyata, yaitu 91% dan 99%. Dia menyarankan bahwa ini disebabkan oleh perbedaan besar antara distribusi gambar ImageNet (yang juga diambil dari web) dan gambar yang dihasilkan.

Lima kategori tersulit untuk sistem, berdasarkan tingkat kesulitannya, adalah layang-layang, penyu, tupai, kacamata hitam dan ketopong. Kertas mencatat bahwa layang-layang kelas sering bingung dengan balon, parasut dan payung, meskipun perbedaan-perbedaan ini sangat mudah bagi pengamat manusia untuk membedakannya.

Kategori tertentu, termasuk layang-layang dan penyu, menyebabkan kegagalan universal di semua model, sementara yang lain (terutama pretzel dan traktor) menghasilkan kesuksesan yang hampir universal di seluruh model yang diuji.

Kategori polarisasi: beberapa kategori target dipilih baik mengubah semua model, atau yang lain cukup mudah untuk diidentifikasi oleh semua model.

Kategori polarisasi: beberapa kategori target dipilih baik mengubah semua model, atau yang lain cukup mudah untuk diidentifikasi oleh semua model.

Penulis mendalilkan bahwa temuan ini menunjukkan bahwa semua model pengenalan objek mungkin memiliki kekuatan dan kelemahan yang sama.

Pengujian Visual Question Answering

Selanjutnya, penulis menguji model VQA pada VQA open-ended dan free-form, dengan pertanyaan biner (yaitu pertanyaan yang jawabannya hanya bisa 'ya' atau 'tidak'). Makalah ini mencatat bahwa model VQA mutakhir mampu mencapai akurasi 95% pada kumpulan data VQA-v2.

Untuk tahap pengujian ini, penulis mengkurasi 50 gambar dan merumuskan 241 pertanyaan di sekitarnya, 132 di antaranya memiliki jawaban positif, dan 109 negatif. Panjang pertanyaan rata-rata adalah 5.12 kata.

Babak ini menggunakan Model OFA, kerangka tugas-agnostik dan modalitas-agnostik untuk menguji kelengkapan tugas, dan baru-baru ini menjadi pencetak gol terbanyak di Perangkat tes-std VQA-v2. OFA mencetak akurasi 77.27% pada gambar yang dihasilkan, dibandingkan dengan skor 94.7% miliknya sendiri pada set tes-std VQA-v2.

Contoh pertanyaan dan hasil dari bagian tes VQA. 'GT' adalah 'Ground Truth', yaitu jawaban yang benar.

Contoh pertanyaan dan hasil dari bagian tes VQA. 'GT” adalah 'Ground Truth', yaitu jawaban yang benar.

Penulis makalah menyarankan bahwa sebagian alasannya mungkin karena gambar yang dihasilkan mengandung konsep semantik yang tidak ada dalam kumpulan data VQA-v2, dan bahwa pertanyaan yang ditulis untuk tes VQA mungkin lebih menantang standar umum pertanyaan VQA-v2, meskipun dia percaya bahwa alasan pertama lebih mungkin.

LSD dalam Aliran Data?

Pendapat Proliferasi baru citra yang disintesis AI, yang dapat menghadirkan konjungsi instan dan abstraksi konsep inti yang tidak ada di alam, dan yang akan memakan waktu lama untuk diproduksi melalui metode konvensional, dapat menghadirkan masalah khusus untuk data yang diawasi dengan lemah- sistem pengumpulan, yang mungkin tidak dapat gagal secara baik – sebagian besar karena mereka tidak dirancang untuk menangani volume tinggi, data sintetik tanpa label.

Dalam kasus seperti itu, mungkin ada risiko bahwa sistem ini akan memasukkan persentase gambar sintetik 'aneh' ke dalam kelas yang salah hanya karena gambar tersebut menampilkan objek berbeda yang sebenarnya bukan milik bersama.

'Astronot menunggang kuda' mungkin telah menjadi visual yang paling simbolis untuk generasi baru sistem sintesis gambar - tetapi hubungan 'tidak nyata' ini dapat memasuki sistem deteksi nyata kecuali jika dilakukan dengan hati-hati. Sumber: https://twitter.com/openai/status/1511714545529614338?lang=en

'Astronot menunggang kuda' mungkin telah menjadi visual yang paling simbolis untuk generasi baru sistem sintesis gambar - tetapi hubungan 'tidak nyata' ini dapat memasuki sistem deteksi nyata kecuali jika dilakukan dengan hati-hati. Sumber: https://twitter.com/openai/status/1511714545529614338?lang=en

Kecuali jika hal ini dapat dicegah pada tahap prapemrosesan sebelum pelatihan, pipeline otomatis semacam itu dapat menyebabkan asosiasi yang mustahil atau bahkan aneh dilatih ke dalam sistem pembelajaran mesin, menurunkan efektivitasnya, dan berisiko meneruskan asosiasi tingkat tinggi ke sistem hilir dan sub-kelas dan kategori.

Atau, gambar sintetik yang terputus-putus dapat memiliki 'efek dingin' pada keakuratan sistem selanjutnya, dalam kemungkinan bahwa arsitektur baru atau yang diubah akan muncul yang mencoba untuk memperhitungkan ad hoc citra sintetis, dan melemparkan jaring yang terlalu lebar.

Bagaimanapun, citra sintetik di era pasca Difusi Stabil dapat terbukti memusingkan sektor penelitian visi komputer yang upayanya membuat kreasi dan kemampuan aneh ini menjadi mungkin – paling tidak karena hal itu membahayakan harapan sektor tersebut bahwa pengumpulan dan kurasi data dapat dilakukan. akhirnya jauh lebih otomatis daripada saat ini, dan jauh lebih murah dan memakan waktu.

 

Pertama kali diterbitkan 1 September 2022.