Sudut Anderson
Tantangan Membuat Keterangan Video Lebih dari 1fps

Kemampuan sistem pembelajaran mesin untuk mengenali peristiwa yang terjadi di dalam video sangat penting untuk masa depan generasi video berbasis AI – tidak hanya karena dataset video memerlukan keterangan yang akurat untuk menghasilkan model yang sesuai dengan permintaan pengguna, dan tidak berlebihan mengalami halusinasi.

Contoh skema keterangan dari proyek VidReCap Google. Sumber: https://sites.google.com/view/vidrecap
Membuat keterangan video secara manual dengan skala yang dibutuhkan untuk dataset pelatihan yang efektif adalah prospek yang tidak masuk akal. Meskipun memungkinkan untuk melatih sistem AI untuk membuat keterangan video otomatis, masih dibutuhkan banyak contoh yang dibuat manusia sebagai kebenaran, untuk keragaman dan cakupan.
Lebih penting lagi, hampir semua model keterangan video berbasis AI saat ini beroperasi pada 1fps, yang tidak cukup untuk menangkap variasi dalam banyak skenario: perubahan mikro-ekspresi yang tiba-tiba untuk sistem pengenalan emosi; peristiwa cepat dalam olahraga seperti bola basket; gerakan kekerasan; potongan cepat dalam film drama, di mana sistem seperti PySceneDetect mungkin gagal mengidentifikasi mereka (atau tidak digunakan); dan banyak skenario lain di mana jendela perhatian jelas perlu lebih intens.
Klik untuk memutar. Tindakan cepat tetapi berubah hidup dalam apa yang biasanya menjadi salah satu olahraga terlambat di dunia, ketika Alex Higgins memenangkan kejuaraan dunia melawan Ray Reardon pada 1982. Sumber: https://www.youtube.com/watch?v=_1PuqKno_Ok
Pindah Cepat dan Rusak Logika
Laju rendah ini adalah standar untuk berbagai alasan logistik. Pertama, keterangan video adalah kegiatan yang intensif sumber daya, apakah sistem tersebut mempelajari satu bingkai berurutan pada satu waktu, atau menggunakan metode untuk mengkoherenkan semantik string bingkai menjadi urutan keterangan yang dapat diinterpretasikan. Dalam kedua kasus, jendela konteks secara tidak dapat dihindari dibatasi oleh keterbatasan perangkat keras.
Alasan lain untuk 1fps menjadi standar saat ini adalah bahwa video tidak umumnya dipenuhi dengan peristiwa cepat; oleh karena itu, redundan untuk memberikan 300 bingkai meja snooker statis dengan perhatian yang sama seperti detik di mana bola hitam yang dipasang memenangkan kejuaraan (lihat contoh di atas).
Memungkinkan untuk menggunakan petunjuk sekunder yang lebih luas untuk mengidentifikasi momen penting dalam video olahraga, seperti reaksi penonton yang berkelanjutan terhadap slam-dunk cepat dalam pertandingan bola basket. Namun, petunjuk seperti itu mungkin terjadi karena alasan lain (seperti cedera pemain yang tidak terduga), dan tidak dapat diandalkan. Ini adalah salah satu contoh bagaimana dataset video yang salah dapat menyebabkan model video generatif yang mengalami halusinasi atau salah menafsirkan instruksi, yaitu karena model mungkin menampilkan cedera pemain ketika diminta untuk menghasilkan slam-dunk (karena ‘petunjuk sekunder’ dari kegembiraan penonton tidak eksklusif untuk satu jenis peristiwa tertentu).
Ini sebagian besar adalah masalah ‘anggaran’, dan sebagian lagi adalah masalah prosedural. Kerangka kerja hingga saat ini telah beroperasi pada prinsip bahwa bingkai kunci yang jarang dapat secara efektif menangkap informasi penting, tetapi ini lebih efektif dalam menetapkan genre dan aspek lain dari subjek video, karena bukti, dalam hal ini, bertahan selama beberapa bingkai.
F-16
Makalah baru dari Cina menawarkan solusi, dalam bentuk multimodal besar bahasa model (MLLM, atau hanya LLM) yang dapat menganalisis video 16fps bukan standar 1fps, sambil menghindari jebakan besar dari meningkatkan laju analisis.
Dalam tes, penulis mengklaim bahwa sistem baru, berjudul F-16, outperforms model proprietary state-of-the-art seperti GPT-4o dan Google’s Gemini-1.5 pro. Meskipun model lain saat ini dapat mencocokkan atau melebihi hasil F-16 dalam percobaan, model yang bersaing jauh lebih besar dan tidak praktis.
Meskipun F-16 dilatih pada perangkat keras yang serius (seperti yang akan kami pelajari segera), inferensi biasanya jauh kurang menuntut daripada pelatihan. Oleh karena itu, kita dapat berharap bahwa kode (yang dijanjikan untuk rilis dekat) akan dapat dijalankan pada GPU domestik tingkat menengah atau tinggi.
Apa yang dibutuhkan untuk kelangsungan hidup adegan hobiis (dan itu termasuk adegan VFX profesional, sebagian besar waktu) adalah model keterangan video seperti ini yang dapat beroperasi, mungkin kuantisasi, pada sistem konsumen, sehingga seluruh adegan video generatif tidak bermigrasi ke sistem komersial berbasis API, atau memaksa konsumen untuk menghubungkan kerangka kerja lokal ke layanan GPU komersial online.
Di Luar Penskalaan
Penulis mengamati bahwa pendekatan ini adalah alternatif praktis untuk penskalaan dataset. Dapat disimpulkan juga bahwa jika Anda akan melemparkan lebih banyak data ke masalah, ini masih pendekatan yang dapat disukai, karena sistem baru membedakan peristiwa dengan cara yang lebih granular.
Mereka menyatakan:
‘Pengambilan sampel laju bingkai rendah dapat mengakibatkan kehilangan informasi visual kritis, terutama dalam video dengan adegan yang berubah cepat, detail yang rumit, atau gerakan cepat. Selain itu, jika bingkai kunci dilewatkan, namun model dilatih pada label yang bergantung pada informasi bingkai kunci, maka model mungkin mengalami kesulitan untuk menyelaraskan prediksinya dengan konten yang diharapkan, sehingga berpotensi menyebabkan halusinasi dan kinerja yang buruk…
‘… F-16 mencapai kinerja SOTA dalam QA video umum di antara model seukuran dan menunjukkan keunggulan yang jelas dalam pemahaman video laju bingkai tinggi, mengungguli model komersial seperti GPT-4o. Pekerjaan ini membuka arah baru untuk meningkatkan pemahaman video laju bingkai tinggi dalam penelitian LLM multimodal.’
Makalah baru ini berjudul Meningkatkan Pemahaman Video LLM dengan 16 Bingkai Per Detik, dan berasal dari delapan penulis di Tsinghua University dan ByteDance.
Metode
Karena bingkai berurutan sering mengandung informasi yang redundan, F-16 menerapkan pengatur laju bingkai tinggi untuk mengompresi dan mengkodekan detail gerakan kunci sambil mempertahankan semantik visual. Setiap bingkai pertama kali diproses oleh pengkode gambar pra-dilatih, mengekstrak representasi fitur sebelum dilewatkan ke pengatur berdasarkan Gaussian Error Linear Units (GELUs).

Arsitektur F-16 memproses video pada 16 FPS, menangkap lebih banyak bingkai daripada model laju bingkai rendah tradisional, dan pengatur laju bingkai tingginya mempertahankan semantik visual sambil mengkodekan dinamika gerakan secara efisien tanpa menambahkan token visual ekstra. Sumber: https://arxiv.org/pdf/2503.13956
Untuk menangani peningkatan jumlah bingkai secara efisien, F-16 mengelompokkan bingkai menjadi jendela pemrosesan kecil, menggabungkan fitur visual menggunakan tiga lapis Multi-Layer Perceptron (MLP), membantu mempertahankan hanya detail gerakan yang paling relevan, dan mengurangi duplikasi yang tidak perlu, sambil mempertahankan aliran temporal tindakan. Lapis max-pooling spasial lebih lanjut mengompresi jumlah token, menjaga biaya komputasi dalam batas.
Token video yang diproses kemudian dimasukkan ke dalam Qwen2-7B LLM, yang menghasilkan respons teks berdasarkan fitur visual yang diekstrak dan prompt pengguna yang diberikan.
Dengan membangun input video dengan cara ini, F-16 memungkinkan, menurut penulis, pengenalan peristiwa yang lebih presisi dalam adegan dinamis, sambil tetap mempertahankan efisiensi.
Versi Singkat
F-16 memperluas LLM gambar pra-dilatih, LLaVA-OneVision, untuk memproses video dengan mengubah pipa input visualnya. Sementara LLM gambar standar menangani bingkai yang terisolasi, pengatur laju bingkai tinggi F-16 mengubah beberapa bingkai menjadi bentuk yang dapat diproses model dengan lebih efisien; ini menghindari membanjiri sistem dengan informasi redundan sambil mempertahankan petunjuk gerakan kunci yang diperlukan untuk pemahaman video yang akurat.
Untuk memastikan kompatibilitas dengan fondasi gambar, F-16 menggunakannya kembali parameter pra-dilatih dengan mengubah pengatur menjadi sub-matriks. Pendekatan ini memungkinkan untuk mengintegrasikan pengetahuan dari model bingkai tunggal sambil beradaptasi dengan input video berurutan.
Pengatur pertama kali mengompresi urutan bingkai menjadi format yang dioptimalkan untuk LLM, mempertahankan fitur paling informatif sambil membuang detail yang tidak perlu. Desain arsitektur memungkinkan sistem untuk memproses video laju bingkai tinggi sambil menjaga tuntutan komputasi dalam kontrol, yang penulis anggap sebagai bukti bahwa penskalaan bukan satu-satunya (atau yang terbaik) cara maju untuk keterangan video.
Mengubah Kecepatan
Karena memproses video pada 16 FPS meningkatkan pemahaman gerakan tetapi meningkatkan biaya komputasi, terutama selama inferensi, F-16 memperkenalkan metode dekoding laju bingkai variabel, yang memungkinkan untuk menyesuaikan laju bingkai secara dinamis tanpa pelatihan ulang.

Pengatur bingkai tunggal dan laju bingkai tinggi yang tersedia untuk F-16.
Fleksibilitas ini memungkinkan model untuk beroperasi secara efisien pada laju bingkai yang lebih rendah ketika presisi tinggi tidak diperlukan, dan mengurangi overhead komputasi.
Pada waktu tes, ketika laju bingkai yang lebih rendah dipilih, F-16 menggunakannya kembali parameter pengatur yang telah dilatih sebelumnya dengan mengulangi bingkai input untuk mencocokkan dimensi yang diharapkan. Ini memastikan model masih dapat memproses video secara efektif tanpa memodifikasi arsitektur.
Tidak seperti pengambilan sampel naif (yaitu, hanya menghapus bingkai), yang berisiko kehilangan detail gerakan kritis, metode ini mempertahankan representasi gerakan yang dipelajari oleh pengatur, mempertahankan akurasi bahkan pada laju bingkai yang berkurang.
Data dan Tes
Dibangun di atas Qwen2-7B, FP-16 memperluas LLaVA-OneVision menggunakan SigLIP sebagai pengkode gambar. Dengan bingkai video yang diambil sampel pada 16 FPS, hingga 1.760 bingkai dapat diperoleh dari setiap video. Untuk klip video yang lebih panjang, bingkai diambil sampel secara seragam (yaitu, lebih jarang).
Untuk pelatihan, F-16 menggunakan dataset video umum yang sama dengan LLaVA-Video, termasuk LLaVA-Video-178K, NExT-QA, ActivityNet-QA, dan PerceptionTest.
F-16 juga diperhalus pada dataset olahraga kecepatan tinggi FineGym, Diving48, dan SoccerNet. Penulis juga mengumpulkan koleksi 276 pertandingan NBA yang dimainkan antara 13 November dan 25 November 2024, fokus pada apakah tembakan berhasil (tugas yang memerlukan pemrosesan laju bingkai tinggi).
Model dievaluasi menggunakan set tes NSVA, dengan kinerja diukur oleh F1 score.
Model gimnastik dan selam dievaluasi berdasarkan akurasi pengenalan peristiwa, sementara model sepak bola dan bola basket melacak operan dan hasil tembakan.
Model dilatih selama 1 epoch menggunakan 128 NVIDIA H100 GPUs (dan pada 80GB VRAM standar per GPU, ini memerlukan penggunaan 10,24 terabyte memori GPU; bahkan menurut standar saat ini, ini adalah klaster GPU dengan spesifikasi tertinggi yang pernah saya temui dalam memantau literatur penelitian visi komputer). Tingkat pembelajaran 2×10⁻⁵ digunakan selama pelatihan.
Selain itu, LoRA diperhalus pada data olahraga menggunakan adapter LoRA dengan 64 GPU selama 5 epoch. Di sini, hanya LLM yang dilatih, meninggalkan pengkode gambar dibekukan.
Kerangka kerja yang bersaing diuji dalam putaran awal untuk ‘pemahaman video umum’ adalah GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; dan NVILA-7B;
Model dievaluasi pada Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; dan LongVideoBench.

Perbandingan hasil QA video di seluruh model, menunjukkan batas FPS dan kinerja pada beberapa benchmark. F-16 mencapai SOTA di antara model 7B pada Video-MME, NQA, TPB, dan MB, rivalling model komersial seperti GPT-4o dan Gemini-1.5-Pro.
Dari hasil ini, penulis menyatakan:
‘Pada dataset Video-MME Short, Medium, dan NeXT-QA—masing-masing dirancang untuk pemahaman video pendek—model kami melampaui model SOTA sebelumnya 7B sebesar 3,2%, 1,0%, dan 0,9% dalam akurasi, menyoroti kinerjanya yang kuat pada video pendek.
‘Untuk benchmark yang mengevaluasi pemahaman video panjang, seperti Video-MME Long, LongVideoBench, dan MLVU, tantangannya lebih besar karena sampel bingkai yang lebih jarang, menyebabkan bingkai dalam jendela pemrosesan menunjukkan variasi yang lebih signifikan.
‘Ini meningkatkan kesulitan bagi pengatur modality untuk secara efektif mengkodekan perubahan temporal dalam representasi token yang terbatas. Sebagai hasilnya, F-16 mengalami sedikit penurunan kinerja dibandingkan dengan [LLaVA-Video-7B], yang dilatih pada dataset video yang sama.’
Pemrosesan laju bingkai tinggi F-16 juga menghasilkan perbaikan sebesar 13,5% pada TemporalBench dan keuntungan sebesar 2,5% pada MotionBench, dibandingkan dengan model 7B yang ada, dan berkinerja pada tingkat yang sama dengan model komersial seperti GPT-4o dan Gemini-1.5-Pro.
Pemahaman Video Olahraga Kecepatan Tinggi
F-16 diuji pada dataset FineGym, Diving48, SoccerNet, dan NBA untuk mengevaluasi kemampuannya dalam memahami tindakan olahraga kecepatan tinggi.
Menggunakan 10.000 klip NBA yang dianotasi secara manual, pelatihan fokus pada gerakan bola dan tindakan pemain, dan apakah model dapat secara akurat menentukan apakah tembakan berhasil, menggunakan set tes NSVA yang dievaluasi dengan F1 score.

Hasil analisis video olahraga kecepatan tinggi. F-16 dengan pengatur laju bingkai tinggi berperforma lebih baik daripada rekan laju bingkai rendahnya di semua tugas olahraga. GPT-4o dan Gemini-1.5-Pro juga dievaluasi pada NBA dan SoccerNet QA, di mana pengetahuan pelatihan domain tidak diperlukan.
Pada FineGym, yang mengukur pengenalan tindakan gimnastik, F-16 berperforma 13,8% lebih baik daripada model SOTA 7B sebelumnya, menunjukkan pemahaman gerakan yang lebih halus.
Diving48 memerlukan mengidentifikasi urutan gerakan yang kompleks seperti takeoff, somersault, twist, dan flight fase, dan F-16 menunjukkan akurasi yang lebih tinggi dalam mengenali transisi ini.
Untuk SoccerNet, model menganalisis klip 10 detik, mengidentifikasi operan bola, dan hasil menunjukkan perbaikan dibandingkan dengan model 7B yang ada, menunjukkan bahwa FPS yang lebih tinggi menyumbang pada pelacakan gerakan kecil dan cepat.
Dalam dataset NBA, kemampuan F-16 untuk menentukan hasil tembakan mendekati akurasi model komersial yang lebih besar seperti GPT-4o dan Gemini-1.5-Pro, lebih lanjut menunjukkan bahwa laju bingkai yang lebih tinggi meningkatkan kemampuan untuk memproses gerakan dinamis.
Laju Bingkai Variabel
F-16 diuji pada laju bingkai yang berbeda untuk mengukur kemampuan adaptasinya. Sebagai gantinya untuk melatih ulang, F-16 menangani laju bingkai yang lebih rendah dengan mengulangi bingkai untuk mencocokkan struktur input pengatur. Pendekatan ini mempertahankan lebih banyak kinerja daripada hanya menghapus bingkai (yang rentan menyebabkan kehilangan akurasi).
Hasil menunjukkan bahwa meskipun mengurangi laju bingkai memiliki beberapa dampak pada pengenalan gerakan, F-16 masih berperforma lebih baik daripada model laju bingkai rendah dan mempertahankan hasil yang kuat bahkan di bawah 16 FPS.

Kiri, konsumsi waktu modul F-16 yang berbeda selama inferensi, diukur pada 300 video dari set Video-MME Long pada laju FPS dan panjang urutan yang berbeda. Kanan, perbandingan antara kinerja Video-MME untuk model yang dilatih dan diuji pada laju FPS yang berbeda. Garis padat mewakili model yang dilatih dan diuji pada laju FPS yang sama, sementara garis putus-putus menunjukkan kinerja ketika model yang dilatih pada 16 FPS diuji pada laju bingkai yang lebih rendah.
Pemrosesan laju bingkai tinggi F-16 meningkatkan kebutuhan komputasi, meskipun pengatur membantu mengelola biaya ini dengan mengompresi token visual yang redundan.
Model memerlukan lebih banyak FLOPs per video daripada model laju bingkai rendah, tetapi juga mencapai akurasi yang lebih baik per token, menunjukkan bahwa strategi pemilihan bingkai dan kompresi token membantu mengimbangi peningkatan komputasi.
Kesimpulan
Sangat sulit untuk melebih-lebihkan pentingnya atau tantangan dari jalur penelitian ini – terutama tahun ini, yang akan menjadi tahun pemecahan untuk video generatif, melemparkan kekurangan kurasi dataset video dan kualitas keterangan ke dalam sorotan.
Juga perlu ditekankan bahwa tantangan yang terlibat dalam mendapatkan deskripsi yang akurat dari detail internal video tidak dapat dipecahkan secara eksklusif dengan melemparkan VRAM, waktu, atau ruang disk ke masalah. Metode dengan cara peristiwa diisolasi/diekstrak dari trek video yang panjang dan membosankan (seperti klip video golf atau snooker, misalnya) akan mendapat manfaat dari pemikiran ulang tentang pendekatan semantik dan mekanisme yang saat ini mendominasi solusi SOTA – karena beberapa dari keterbatasan ini ditetapkan pada waktu yang lebih miskin sumber daya.
(secara kebetulan, bahkan jika 16fps tampak seperti laju bingkai yang sangat rendah untuk 2025, menarik untuk dicatat bahwa ini juga merupakan kecepatan pelatihan asli dari klip video yang digunakan dalam model video generatif Wan 2.1 yang sangat populer, dan kecepatan di mana ia beroperasi dengan sedikit masalah. Mudah-mudahan adegan penelitian akan terus memantau ‘entropi standar’ di sini; terkadang keterbatasan yang usang dapat memperkuat standar masa depan)
Dipublikasikan pertama kali pada Rabu, 19 Maret 2025












