Kecerdasan buatan

Mengajar AI untuk Memahami dan Menggunakan Gambar dalam Dialog

Published July 21, 2021

Updated April 26, 2026

Martin Anderson

Peneliti dari Korea Selatan telah mengembangkan dataset yang dirancang untuk membantu penelitian tentang pemahaman AI tentang cara manusia menggunakan gambar dalam dialog, dan untuk membantu model bahasa alami berpartisipasi dalam perkembangan terbaru dalam komunikasi manusia.

Paper, dari KAIST di Daedeok Innopolis, mencatat bahwa penelitian tentang sistem dialog multi-modal selama sepuluh tahun terakhir telah terhambat oleh dataset dan metodologi yang berfokus pada disiplin yang tidak terkait langsung dengan topik, seperti visual question answering dan image captioning.

Dalam pendekatan lama, gambar dievaluasi di luar konteks leksikal dari percakapan, tanpa memahami cara dialog ditingkatkan dan dikembangkan oleh respons gambar, dan tidak ada skema antar-domain untuk mendekode kontribusi kontribusi visual pada wacana.

Gambar sebagai Faset Pertama dari Dialog

Banyak pendekatan yang disebutkan sebelumnya telah menjadi inisiatif atau pengembangan dari lengan penelitian AI Microsoft, yang pada 2017 juga meneliti topik percakapan multi-modal yang dimulai oleh gambar, bukan menggunakan gambar secara bebas sebagai komponen dialog.

Untuk mengatasi kekurangan data penelitian, peneliti Korea Selatan telah mengembangkan dataset 45.000 contoh dialog yang melibatkan penggunaan gambar ad hoc, tanpa fokus pada gambar ‘meme’ viral; yang terakhir, meskipun merupakan area minat dalam penelitian bahasa, secara argumen kurang menantang, karena makna gambar meme dapat ditebak lebih mudah melalui ribuan penggunaan dalam konteks pada platform media sosial.

Mengembangkan Ilustrasi sebagai Pengganti Teks

Untuk mengembangkan metode untuk transliterasi bilateral kata/frasa> gambar, peneliti Korea Selatan telah melatih sistem pembelajaran mesin untuk menggantikan bagian dari percakapan berbasis teks menjadi konten gambar yang relevan secara semantik.

Arsitektur sistem Korea untuk menghasilkan dataset untuk penelitian dialog multi-modal. Sumber: https://arxiv.org/pdf/2107.08685.pdf

Pra-pengolahan frasa target melibatkan penghapusan kata berhenti yang mungkin menghambat prediksi sally berikutnya dalam percakapan, dan pemangkasan pertukaran kualitas rendah melalui filter kesamaan kontekstual.

Untuk menguji utilitas dataset, peneliti menetapkan modul untuk memprediksi putaran berikutnya dalam dialog sambil mempertimbangkan konteks percakapan dan gambar yang terlibat.

GUI evaluasi manusia yang digunakan dalam penelitian.

Lima dataset eksternal digunakan sebagai bahan dasar untuk dataset 45k (yang tersedia di GitHub). Tiga adalah elemen berbasis teks: DailyDialog, sebuah set teks berbasis multi-giliran yang dianotasi secara manual dari 2017; dan Facebook’s EmpatheticDialogues dan PersonaChat, keduanya dari 2018. Dua dataset berbasis gambar yang digunakan adalah MS-COCO dan Flicker30k.

Pasangan gambar/teks – skema JSON dari frasa dalam dataset, terkait dengan gambar (dalam contoh ini) dari database gambar Microsoft’s COCO.

Penggantian teks ke gambar untuk sistem ini ditenagai oleh jaringan Visual Semantic Reasoning Network (VSRN) pra-dilatih, yang dikembangkan pada 2019 dari Universitas Northeastern di Boston. VSRN diatur untuk beroperasi pada frasa yang dipilih secara manual dari dataset teks yang berkontribusi.

Mengatur Kesan

Kesan dari dataset sumber diatur dengan mengembangkan enam kombinasi dari setiap dataset dialog, terkait dengan contoh dalam setiap dataset gambar, dan dievaluasi selama beberapa putaran oleh manusia.

Penilaian manusia didasarkan pada tiga kriteria: konsistensi dengan konteks pertukaran; relevansi gambar dengan konsep inti yang gambar coba ungkapkan; dan seberapa besar gambar mengandung objek kunci dari kalimat target.

Mengingat kriteria terakhir, dapat ditebak bahwa skema yang dipilih oleh peneliti telah sebagian besar mengabaikan kemungkinan kemungkinan makna semantik gambar yang humoris, sarkastis, abstrak, atau metafisik yang mungkin disuntikkan ke dalam percakapan teks.

Namun, ini adalah pekerjaan seminal, dan harus dimulai dari suatu tempat, sementara upaya yang signifikan sedang dilakukan di tempat lain di sektor Pemrosesan Bahasa Alami (NLP) untuk memetakan contoh sarkasme, antara lain contoh yang kurang nyata dari hubungan gambar/teks.

Pengujian

Untuk menguji kerangka kerja generasi data, peneliti menggunakan model pemulihan tiga bagian berdasarkan penelitian Image-Chat Facebook 2020. Modul ini terdiri dari Resnext-101 sebagai pengkode gambar; Google’s BERT untuk pengkode teks; dan modul fusi kustom untuk keduanya.

Sistem ini mencapai 50,35 dan 14,38 pada tugas prediksi kalimat saat ini dan berikutnya, meningkatkan baseline untuk setiap tugas.

Kemudian, dua peneliti ditugaskan untuk membuat 100 dialog multi-modal dengan menyisipkan gambar ke dalam percakapan secara manual, dan menjalankan sistem melawan contoh ‘organik’ dialog multi-modal ini. Sistem ini dapat memprediksi pertukaran saat ini dan berikutnya dengan kesadaran konteks yang tinggi bahkan untuk contoh ad hoc ini.

Hasil pengujian untuk sistem generasi dataset multi-modal Korea, menunjukkan korelasi yang konsisten tinggi antara kesamaan teks-ke-gambar dan skor pertanyaan berbasis manusia pada data yang sama.