Sudut Anderson

AI Lebih Memilih Membaca Buku Daripada Menonton Film

Published October 31, 2025

Updated April 25, 2026

Martin Anderson

AI-generated image of an industrial robot seated in an armchair and reading a book, while ignoring a movie playing on TV. ChatGPT-o4, Nano-Banana; Firefly.

Sangat mengejutkan bahwa model AI sulit untuk menonton dan mengomentari konten video yang sebenarnya, bahkan jika mereka dibuat untuk tugas tersebut. Mereka lebih tertarik pada kata-kata yang tertulis.

Jika Anda pernah mencoba mengunggah klip video kecil ke ChatGPT, atau ke model visi/bahasa populer yang serupa, Anda mungkin terkejut menyadari bahwa mereka tidak dapat benar-benar memparse video. Meskipun model seperti ChatGPT-4o+ dapat menganalisis bingkai individu – dalam bentuk gambar, seperti JPEG dan PNG – mereka lebih suka pengguna mengekstrak bingkai mereka sendiri dan mengunggahnya sebagai gambar (yang mereka siap untuk dikomentari).

Dalam kasus seri GPT OpenAI, seseorang dapat, dengan cukup melelahkan, mengekstrak rangkaian lengkap bingkai dari klip video dan memberikannya kepada ChatGPT, untuk tujuan, misalnya, menghasilkan trek narasi yang dibuat AI untuk video:

Gambar dan kode dari tutorial OpenAI tentang parsing bingkai yang diekstrak untuk tujuan mengembangkan komentar yang dibuat AI untuk klip video. Sumber

Tetapi jatuh pada pengguna untuk membuat konversi dari video ke bingkai, baik dengan memanggil fungsi dalam rutinitas yang lebih besar, seperti contoh di atas, atau mengekstrak bingkai dengan FFMPEG atau berbagai solusi pengeditan video gratis dan berbayar.

Sejauh tertentu, mungkin bahkan sejauh besar, keterbatasan analisis video dalam produk skala besar seperti ChatGPT bergantung pada penggunaan sumber daya: hanya dengan memasang satu instance AI dengan sejumlah codec video paling populer, dan mengkomit sumber daya komputasi untuk proses ekstraksi yang berat disk dan CPU-throttling, bukanlah pertimbangan kecil, jika ratusan juta pengguna memutuskan untuk mulai menggunakan fasilitas ini setiap hari.

Selain itu, analisis temporal dapat menggambarkan gambaran yang sangat berbeda daripada satu bingkai (bayangkan seseorang memasuki rumah dengan mood bahagia dan kemudian menemukan mayat); oleh karena itu, mempertimbangkan seluruh ‘checksum’ temporal dari klip video pendek saja merupakan tugas yang menantang dan intensif sumber daya – serta area literatur penelitian yang berspesialisasi, misalnya dengan pengembangan kerangka kerja seperti Optical Flow – yang pada dasarnya ‘membuka’ panjang video sehingga dapat dianggap dan diaktifkan sebagai jika itu adalah dokumen statis:

Diagram aliran optik menyoroti bagaimana gerakan dilacak di seluruh bingkai dalam urutan video, dengan vektor hijau menunjukkan arah dan intensitas gerakan. Pemetaan ini menyediakan kontinuitas temporal yang diperlukan untuk VLM dan juga dapat berfungsi sebagai panduan struktural dalam alur kerja VFX. Sumber

Settling for the Cliff’s Notes

Namun, karena model seperti Google’s Notebook LM dan entri ChatGPT yang lebih baru dapat membaca metadata yang terkait (yaitu, konten teks yang memungkinkan konteks video dengan beberapa cara), mereka tidak melarang pengunggahan file video; dan terkadang, mereka bahkan akan berusaha untuk menafsirkan video yang tidak memiliki data tersebut.

Dalam kasus berikut, saya mengunggah klip acak 6 detik dari film Italia The Hand of God (2021) ke NotebookLM, memastikan bahwa klip tersebut tidak mengandung teks yang berguna, baik dalam metadata atau dalam nama file.

NotebookLM kemudian melanjutkan untuk menghaluskan materi yang tidak terkait dengan video*, lengkap dengan podcast nonsensikal dan tidak terkait lima menit:

Saat biasa dalam klip enam detik dari film Italia adalah salah tafsir oleh NotebookLM. Sumber: Google NotebookLM

Meskipun Notebook, seperti ChatGPT, akan menerima video YouTube sebagai input, mereka hanya akan melakukannya jika video tersebut memiliki lapisan teks yang dapat diinterpretasikan dan/atau subtitle (bukan subtitle yang dirasterkan yang dibakar ke dalam video).

Dengan cara ini, pekerjaan yang sebenarnya melihat dan menonton konten video dan melakukan interpretasi semantik (kebutuhan hukum untuk YouTube, karena langkah-langkah perlindungan hak cipta, dan sistem perlindungan identitas yang akan datang), telah dilakukan dengan santai setelah pengunggahan pengguna, dan ketika klip dapat diberi sumber daya pemrosesan yang diperlukan.

Interpretasi video yang sebenarnya sangat mahal dan melelahkan, dan, ternyata, bahkan model yang telah dilatih secara khusus untuk melakukan tugas ini lebih suka membaca teks daripada benar-benar menonton video.

TL;DW

Ini, menurut makalah baru dari Universitas Bristol di Inggris, berjudul Sebuah Video Tidak Setara dengan Seribu Kata, di mana dua penulis menyimpulkan bahwa model bahasa visi (VLM) saat ini – model yang dimaksudkan untuk dapat menganalisis video dengan cara yang lebih berusaha, dan untuk berpartisipasi dalam pembuatan pertanyaan video (VQA) – juga default ke informasi berbasis teks kapan pun mereka bisa.

Ketika diberikan gambar bergerak dan pertanyaan teks serta jawaban pilihan ganda, penulis makalah menemukan bahwa model biasanya berdasarkan pilihan mereka pada pola dalam teks, bukan pada apa yang terjadi di layar – dalam banyak kasus, mereka melakukan dengan baik bahkan ketika pertanyaan diambil secara keseluruhan.

Dalam apa yang tampaknya menjadi bentuk pemotongan jalan atau kecurangan, apa yang paling penting bagi sebagian besar model adalah dapat menemukan pola dalam jawaban yang mungkin; hanya ketika tugas tersebut dibuat lebih sulit, dengan menambahkan lebih banyak pilihan jawaban, AI mulai memperhatikan video dengan lebih dekat.

Penulis memberikan tes VQA di bawah berbagai kondisi kepada enam model VLM dengan berbagai panjang konteks, pada empat dataset yang sesuai; dan menemukan bahwa hasilnya menunjukkan ketergantungan model pada teks daripada konten video.

Contoh dari studi yang menunjukkan bagaimana model analisis video menimbang apa yang dilihat versus apa yang dibaca. Klip tersebut menunjukkan seseorang menenun bambu, namun model memberikan lebih banyak perhatian pada pertanyaan dan teks jawaban daripada bingkai video itu sendiri. Sorotan biru menandai elemen yang mendukung jawaban yang dipilih, sementara sorotan merah menunjukkan elemen yang menariknya ke arah yang berlawanan, menggambarkan bagaimana penalaran model berpusat pada kata-kata daripada gambar bergerak. Sumber