Kecerdasan buatan
Bahkan Model Bahasa Canggih Struggle untuk Memahami Logika Temporal

Memprediksi keadaan masa depan adalah misi kritis dalam penelitian penglihatan komputer – tidak hanya dalam robotika, di mana situasi dunia nyata harus dipertimbangkan. Sistem pembelajaran mesin yang dipercaya dengan tugas-tugas kritis misi therefore perlu memiliki pemahaman yang memadai tentang dunia fisik.
Namun, dalam beberapa kasus, pengetahuan yang tampaknya mengesankan tentang kenyataan temporal dapat menipu: sebuah makalah baru dari Uni Emirat Arab telah menemukan bahwa model bahasa besar multimodal (MLLMs) canggih, termasuk pemimpin sektor GPT-4o dan Google Gemini, gagal ketika datang untuk menafsirkan bagaimana waktu direpresentasikan dalam gambar.
Contoh pasangan urutan (lihat gambar di bawah), yang akan tidak menantang bagi manusia bahkan ketika ditempatkan dalam urutan yang salah, dapat mengelabui MLLMs canggih ketika disajikan dalam konteks atau konfigurasi yang tidak terduga (seperti gambar kedua pertama, digabungkan menjadi gambar tunggal, gambar urutan berganda yang mungkin atau tidak mewakili urutan temporal yang benar, dan sebagainya.).

Samples dari satu set data yang dikompilasi untuk studi baru, yang menunjukkan peristiwa urutan dalam bentuk ‘sebelum dan sesudah’ gambar. Peneliti telah membuat data ini tersedia di https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Peneliti menugaskan model dengan tantangan penalaran temporal dasar, seperti menentukan urutan peristiwa atau memperkirakan celah waktu, dan menemukan bahwa tujuh MLLMs yang diuji memiliki performa yang jauh di bawah akurasi manusia:
‘Secara keseluruhan, [hasil] menunjukkan bahwa semua MLLMs saat ini, termasuk GPT-4o – model paling canggih dalam evaluasi kami – bergelut dengan benchmark yang diusulkan. Meskipun GPT-4o memiliki performa yang unggul relatif terhadap model lain, ia gagal untuk secara konsisten menunjukkan penalaran temporal yang akurat di berbagai pengaturan.
‘Skor akurasi yang konsisten sangat rendah untuk semua model, menunjukkan keterbatasan yang signifikan dalam kemampuan mereka untuk memahami dan menafsirkan urutan temporal dari input visual. Kekurangan ini jelas bahkan ketika model diberikan input multi-gambar atau prompt yang dioptimalkan, menunjukkan bahwa arsitektur dan metode pelatihan saat ini tidak cukup untuk pemahaman urutan temporal yang kuat.’
Sistem pembelajaran mesin dirancang untuk mengoptimalkan hasil yang paling akurat, tetapi juga yang paling efisien dan menyenangkan bagi orang. Karena mereka tidak mengungkapkan penalaran mereka secara eksplisit, dapat menjadi sulit untuk mengetahui kapan mereka menipu, atau menggunakan ‘jalan pintas’.
Dalam kasus seperti itu, MLLM mungkin mencapai jawaban yang benar dengan metode yang salah. Fakta bahwa jawaban seperti itu dapat benar dapat menginspirasi kepercayaan diri yang salah pada model, yang dapat menghasilkan hasil yang tidak benar dengan metode yang sama dalam tugas-tugas yang disajikan kemudian.
Lebih parah lagi, kesalahpahaman ini dapat menjadi lebih dalam dalam rantai pengembangan jika manusia terkesan olehnya, dan memberikan umpan balik positif dalam sesi uji coba dan anotasi yang mungkin berkontribusi pada arah yang diambil data dan/atau model.
Dalam kasus ini, saran bahwa MLLMs ‘memalsukan’ pemahaman yang sebenarnya tentang kronologi dan fenomena temporal, dengan mengamati dan mengaitkan pada indikator sekunder (seperti cap waktu, misalnya, dalam data video, urutan gambar dalam tata letak, atau bahkan – potensial – nama file yang bernomor urut).
Hal ini lebih lanjut menunjukkan bahwa MLLMs saat ini gagal memenuhi definisi yang sebenarnya tentang memiliki generalisasi konsep fenomena temporal – setidaknya, sejauh yang dapat dilakukan oleh manusia.
Makalah baru ini berjudul Apakah Multimodal MLLMs Dapat Memahami dan Menalar Waktu Visual? Jawabannya adalah Tidak!, dan berasal dari tiga peneliti di Universitas Kecerdasan Buatan Mohamed bin Zayed dan Alibaba International Digital Commerce.
Data dan Tes
Penulis mencatat bahwa benchmark dan studi sebelumnya, seperti MMMU dan TemporalBench, berkonsentrasi pada input gambar tunggal atau merumuskan pertanyaan untuk MLLMs yang mungkin terlalu mudah untuk dijawab, dan mungkin tidak mengungkapkan kecenderungan untuk perilaku jalan pintas.
Oleh karena itu, penulis menawarkan dua pendekatan yang diperbarui: Pemahaman Urutan Temporal (TOU) dan Estimasi Waktu (TLE). Pendekatan TOU menguji model pada kemampuan mereka untuk menentukan urutan peristiwa yang benar dari pasangan bingkai video; metode TLE mengevaluasi kemampuan MLLM untuk memperkirakan perbedaan waktu antara dua gambar, mulai dari detik hingga tahun.

Dari makalah, dua tugas utama dari benchmark TemporalVQA: dalam Pemahaman Urutan Temporal, model memutuskan gambar mana yang menunjukkan peristiwa yang terjadi pertama; dalam Estimasi Waktu, model memperkirakan berapa waktu yang telah berlalu antara dua gambar, memilih dari opsi termasuk detik, menit, hari, atau tahun. Tugas-tugas ini bertujuan untuk menguji seberapa baik MLLMs dapat menalar tentang waktu dan urutan peristiwa visual. Sumber: https://arxiv.org/pdf/2501.10674
Peneliti mengumpulkan 360 pasangan gambar untuk benchmark TOU, menggunakan video sumber terbuka dari Pixabay dan Pexels, sehingga dataset dapat dibuat tersedia melalui antarmuka pengguna.
Video tersebut mencakup berbagai subjek, dari orang dalam kegiatan sehari-hari hingga konten non-manusia seperti hewan dan tanaman. Dari ini, pasangan bingkai dipilih untuk menggambarkan urutan peristiwa dengan variasi yang cukup untuk membuat bingkai awal ‘jelas’.
Pemilihan manusia digunakan untuk memastikan bahwa bingkai dapat dipesan secara pasti. Misalnya, salah satu pasangan yang dikumpulkan menunjukkan cangkir teh yang sebagian terisi dalam satu bingkai, dan cangkir yang sama terisi penuh dengan teh dalam bingkai berikutnya, membuat logika urutan mudah untuk diidentifikasi.

Logika temporal dari dua gambar ini tidak dapat dihindari, karena teh tidak mungkin disedot kembali ke dalam teko.
Dengan cara ini, 360 pasangan gambar diperoleh.
Untuk pendekatan TLE, gambar bebas hak cipta dipilih dari Google dan Flickr, serta bingkai yang dipilih dari video bebas hak cipta di YouTube. Subjek video ini menampilkan adegan atau objek yang perubahan intervalnya berkisar dari detik hingga hari hingga musim – misalnya, buah yang matang, atau perubahan musim di lanskap.
Dengan demikian, 125 pasangan gambar dikumpulkan untuk metode TLE.
Tidak semua MLLMs yang diuji dapat memproses gambar berganda; oleh karena itu, tes berbeda untuk menyesuaikan kemampuan masing-masing model.
Beberapa versi dataset yang dikumpulkan dibuat, di mana beberapa pasangan digabungkan secara vertikal, dan yang lain secara horizontal. Variasi lain menukar urutan temporal yang benar dari pasangan.
Dua jenis prompt dikembangkan. Yang pertama mengikuti template:
Apakah peristiwa dalam gambar (kiri / atas / pertama) terjadi sebelum peristiwa dalam gambar (kanan / bawah / kedua)? Nyatakan benar atau salah dengan alasan.
Yang kedua mengikuti skema:
Antara dua gambar ini, gambar mana yang menunjukkan peristiwa yang terjadi pertama? Nyatakan (kiri atau kanan / atas atau bawah / pertama atau kedua) dengan alasan.
Untuk TLE, pertanyaan merupakan pilihan ganda, meminta model untuk mengevaluasi waktu antara dua gambar yang disajikan, dengan detik, jam, menit, hari, bulan, dan tahun tersedia sebagai satuan waktu. Dalam konfigurasi ini, gambar terbaru disajikan di sebelah kanan.
Prompt yang digunakan di sini adalah:
Di gambar yang diberikan, perkirakan waktu yang telah berlalu antara gambar pertama (kiri) dan gambar kedua (kanan).
Pilih salah satu opsi berikut:
-
Kurang dari 15 detik
B. Antara 2 menit hingga 15 menit
C. Antara 1 jam hingga 12 jam
D. Antara 2 hari hingga 30 hari
E. Antara 4 bulan hingga 12 bulan
F. Lebih dari 3 tahun
MLLMs yang diuji adalah ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; dan LLaVA-CoT.
Pemahaman Urutan Temporal: Hasil

Hasil Pemahaman Urutan Temporal di berbagai model dan tata letak input, menunjukkan akurasi dan konsistensi untuk berbagai pengaturan dan prompt.
Mengenai hasil yang ditunjukkan di atas, penulis menemukan bahwa semua MLLMs yang diuji, termasuk GPT-4o (yang menunjukkan performa terbaik secara keseluruhan), bergelut secara signifikan dengan benchmark TemporalVQA – dan bahkan GPT-4o gagal untuk secara konsisten menunjukkan penalaran temporal yang dapat diandalkan di berbagai konfigurasi.
Penulis berpendapat bahwa skor akurasi yang konsisten rendah di semua LLMs menunjukkan kekurangan yang signifikan dalam kemampuan model untuk menafsirkan dan menalar tentang urutan temporal dari data visual. Peneliti mencatat bahwa tantangan ini berlanjut bahkan dengan penggunaan input multi-gambar dan prompt yang dioptimalkan, menunjukkan keterbatasan fundamental dalam arsitektur model dan metode pelatihan saat ini.
Tes menunjukkan variasi yang signifikan dalam performa di seluruh strategi prompt. Sementara GPT-4o meningkat dengan prompt yang dioptimalkan (mencapai 4% dalam pengaturan gambar tunggal dan 65,3% dalam pengaturan multi-gambar), performa tetap di bawah tingkat yang dapat diterima.
Model seperti LLaVA-NeXT dan Qwen-VL bahkan lebih sensitif, dengan performa yang menurun ketika prompt alternatif digunakan, menunjukkan bahwa teknik prompt saja tidak dapat mengatasi keterbatasan MLLMs dalam hal penalaran temporal.
Tes juga menunjukkan bahwa tata letak gambar (yaitu, vertikal vs. horizontal) secara signifikan mempengaruhi performa model. GPT-4o meningkatkan konsistensinya dengan pengaturan vertikal, naik dari 39,2% hingga 52,8%; namun, model lain, termasuk strain LLaVA, menunjukkan bias arah yang kuat, unggul dalam satu orientasi tetapi gagal dalam yang lain.
Makalah ini menunjukkan bahwa inkonsistensi ini menunjukkan ketergantungan pada petunjuk spasial, bukan penalaran temporal yang sebenarnya, dengan MLLMs tidak menganalisis urutan peristiwa atau memahami perkembangan waktu. Sebaliknya, mereka tampaknya bergantung pada pola atau fitur visual yang terkait dengan tata letak gambar, seperti posisi atau perbarisan, untuk membuat keputusan.

Tes kualitatif menyoroti prediksi GPT-4o ketika dihadapkan pada urutan input yang berbeda. Dalam urutan pertama, pasangan gambar disajikan dalam urutan aslinya, sementara dalam urutan kedua, urutan dibalik. Klasifikasi yang benar ditandai dengan hijau, misklasifikasi murni dengan merah, alasan khayalan dengan oranye, dan alasan yang tidak masuk akal atau ‘tidak valid’ dengan coklat, menunjukkan inkonsistensi model di berbagai konfigurasi input.
Perbandingan tes antara input gambar tunggal dan multi-gambar menunjukkan perbaikan terbatas, dengan GPT-4o yang sedikit lebih baik pada input multi-gambar, naik dari 31,0% hingga 43,6% (dengan P1) dan 46,0% hingga 65,3% (dengan P2).
Model lain, seperti InternVL, menunjukkan akurasi yang stabil tetapi rendah, sementara Qwen-VL melihat keuntungan kecil. Penulis menyimpulkan bahwa hasil ini menunjukkan bahwa konteks visual tambahan tidak secara substansial meningkatkan kemampuan penalaran temporal, karena model bergelut untuk mengintegrasikan informasi temporal secara efektif.
Studi Manusia
Dalam sebuah studi manusia, tiga survei dilakukan untuk menilai seberapa dekat multimodal MLLM terbaik berperforma dibandingkan dengan estimasi manusia.
Manusia mencapai akurasi 90,3%, mengungguli GPT-4o sebesar 65,3% dengan 25%. Dataset terbukti dapat diandalkan, dengan kesalahan manusia minimal dan kesepakatan yang konsisten pada jawaban yang benar.

Hasil dari studi pengguna manusia untuk putaran tes pertama.
Estimasi Waktu: Hasil

Hasil untuk TLE: estimasi waktu mengevaluasi akurasi model dalam mengidentifikasi interval antara pasangan gambar, di seluruh skala dari detik hingga tahun. Tugas ini menilai kemampuan model untuk memilih skala waktu yang benar untuk celah temporal.
Dalam tes ini, MLLMs hanya berperforma cukup baik pada estimasi waktu: GPT-4o mencapai akurasi 70%, tetapi model lain berperforma jauh lebih buruk (lihat tabel di atas), dan performa juga bervariasi secara signifikan di seluruh skala waktu yang berbeda.
Penulis mengomentari:
‘Tugas estimasi waktu mengetes kemampuan MLLMs untuk menginfer interval temporal antara pasangan gambar. [Semua] MLLMs, termasuk pemimpin seperti GPT-4o dan Gemini1.5-Pro, bergelut dengan tugas ini, mencapai akurasi moderat sebesar 60-70%. GPT-4o menunjukkan performa yang tidak konsisten, dengan performa yang kuat dalam Detik dan Tahun tetapi underperform dalam Jam.
‘Demikian pula, LLaVA-CoT menunjukkan performa yang luar biasa dalam interval waktu Detik dan Hari, tetapi menunjukkan performa yang sangat buruk dalam interval waktu lainnya.’
Studi Manusia
Dalam studi manusia untuk TLE, performa manusia rata-rata meningkat dibandingkan dengan GPT-4o (model terbaik dalam kategori ini) sebesar 12,3%.
Penulis mencatat bahwa beberapa tantangan sangat menantang, dan bahwa dalam satu kasus semua partisipan manusia kembali dengan jawaban yang salah, bersama dengan semua partisipan AI.
Penulis menyimpulkan bahwa GPT-4o menunjukkan ‘kemampuan penalaran yang cukup kuat, meskipun urutan gambar yang disajikan.
Kesimpulan
Jika MLLMs akhirnya mengumpulkan dan menyerap cukup ‘jalan pintas’ data untuk menutupi bahkan tantangan paling sulit dari jenis yang disajikan oleh penulis dalam studi ini, apakah mereka dapat dikatakan telah mengembangkan kemampuan generalisasi gaya manusia dalam domain ini dapat menjadi titik yang tidak relevan.
Tidak juga diketahui secara pasti bagaimana kita memperoleh kemampuan kita sendiri dalam penalaran temporal – apakah kita juga ‘menipu’ sampai jumlah pengalaman yang dipelajari mengungkapkan pola yang berfungsi sebagai ‘insting’ dalam hal tes jenis ini?
* Dari sudut pandang bahwa model semakin dioptimalkan dengan fungsi kerugian yang telah berkontribusi pada umpan balik manusia, dan secara efektif dioptimalkan oleh uji coba manusia dan triage selanjutnya.
Pertama kali diterbitkan pada hari Senin, 27 Januari 2025












