Connect with us

Sudut Anderson

Menggunakan AI untuk Memprediksi Film Blokbuster

mm
ChatGPT-4o and Adobe Firefly

Meskipun film dan televisi sering dilihat sebagai industri kreatif dan terbuka, mereka telah lama menghindari risiko. Biaya produksi yang tinggi (yang mungkin segera kehilangan keuntungan dari lokasi luar negeri yang lebih murah, setidaknya untuk proyek AS) dan lanskap produksi yang terfragmentasi membuatnya sulit bagi perusahaan independen untuk menyerap kerugian yang signifikan.

Oleh karena itu, selama dekade terakhir, industri ini telah mengambil minat yang semakin besar dalam mengetahui apakah pembelajaran mesin dapat mendeteksi tren atau pola dalam cara audiens merespons proyek film dan televisi yang diusulkan.

Sumber data utama tetaplah sistem Nielsen (yang menawarkan skala, meskipun akarnya terletak pada TV dan iklan) dan metode berbasis sampel seperti focus group, yang menukar skala untuk demografi yang dikurasi. Kategori terakhir ini juga termasuk umpan balik skor dari pratayang film gratis – namun, pada titik itu, sebagian besar anggaran produksi sudah terpakai.

Teori ‘Hit Besar’

Awalnya, sistem ML menggunakan metode analisis tradisional seperti regresi linier, K-Nearest Neighbors, Stochastic Gradient Descent, Decision Tree dan Hutan, dan Neural Networks, biasanya dalam berbagai kombinasi yang lebih dekat dengan gaya analisis statistik sebelum AI, seperti inisiatif Universitas Central Florida 2019 untuk memprediksi acara TV yang sukses berdasarkan kombinasi aktor dan penulis (di antara faktor lain):

Sebuah studi 2018 menilai kinerja episode berdasarkan kombinasi karakter dan/atau penulis (sebagian besar episode ditulis oleh lebih dari satu orang).

Sebuah studi 2018 menilai kinerja episode berdasarkan kombinasi karakter dan/atau penulis (sebagian besar episode ditulis oleh lebih dari satu orang). Sumber: https://arxiv.org/pdf/1910.12589

Pekerjaan terkait yang paling relevan, setidaknya yang diterapkan di lapangan (meskipun sering dikritik) adalah di bidang sistem rekomendasi:

Sebuah pipa rekomendasi video khas. Video dalam katalog diindeks menggunakan fitur yang mungkin dianotasi secara manual atau diekstrak secara otomatis. Rekomendasi dibuat dalam dua tahap dengan pertama memilih kandidat video dan kemudian menilai mereka sesuai dengan profil pengguna yang diinferensikan dari preferensi tontonan.

Sebuah pipa rekomendasi video khas. Video dalam katalog diindeks menggunakan fitur yang mungkin dianotasi secara manual atau diekstrak secara otomatis. Rekomendasi dibuat dalam dua tahap dengan pertama memilih kandidat video dan kemudian menilai mereka sesuai dengan profil pengguna yang diinferensikan dari preferensi tontonan. Sumber: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Namun, pendekatan semacam itu menganalisis proyek yang sudah sukses. Dalam kasus proyek film dan televisi baru, tidak jelas apa jenis kebenaran dasar yang paling sesuai – tidak hanya karena perubahan selera masyarakat, dikombinasikan dengan perbaikan dan pelengkapan sumber data, berarti bahwa dekade data konsisten biasanya tidak tersedia.

Ini adalah contoh dari masalah cold start, di mana sistem rekomendasi harus mengevaluasi kandidat tanpa data interaksi sebelumnya. Dalam kasus seperti itu, penyaringan kolaboratif tradisional gagal, karena bergantung pada pola perilaku pengguna (seperti menonton, menilai, atau berbagi) untuk menghasilkan prediksi. Masalahnya adalah bahwa dalam kasus sebagian besar film atau acara baru, belum cukup umpan balik audiens untuk mendukung metode ini.

Comcast Memprediksi

Sebuah makalah baru dari Comcast Technology AI, dalam asosiasi dengan Universitas George Washington, mengusulkan solusi untuk masalah ini dengan memicu model bahasa dengan metadata terstruktur tentang film yang belum dirilis.

Inputnya termasuk cast, genre, sinopsis, peringkat konten, suasana hati, dan penghargaan, dengan model mengembalikan daftar peringkat film yang kemungkinan akan menjadi hit di masa depan.

Penulis menggunakan output model sebagai pengganti minat audiens ketika tidak ada data keterlibatan, berharap untuk menghindari bias awal terhadap judul yang sudah terkenal.

Makalah yang sangat singkat (tiga halaman) paper, berjudul Memprediksi Film Hit Sebelum Mereka Terjadi dengan LLMs, berasal dari enam peneliti di Comcast Technology AI, dan satu dari GWU, dan menyatakan:

‘Hasil kami menunjukkan bahwa LLMs, ketika menggunakan metadata film, dapat secara signifikan mengungguli baseline. Pendekatan ini dapat berfungsi sebagai sistem bantu untuk beberapa kasus penggunaan, memungkinkan skoring otomatis volume konten baru yang dirilis setiap hari dan minggu.’

‘Dengan memberikan wawasan awal sebelum tim editorial atau algoritma mengumpulkan data interaksi yang cukup, LLMs dapat menyederhanakan proses tinjauan konten.

‘Dengan perbaikan terus-menerus dalam efisiensi LLM dan munculnya agen rekomendasi, wawasan dari pekerjaan ini sangat berharga dan dapat disesuaikan dengan berbagai domain.’

Jika pendekatan ini terbukti kuat, itu dapat mengurangi ketergantungan industri pada metrik retrospektif dan judul yang dipromosikan secara besar-besaran dengan memperkenalkan cara yang dapat diskalakan untuk mengidentifikasi konten yang menjanjikan sebelum rilis. Dengan demikian, tim editorial dapat menerima ramalan awal tentang minat audiens, berpotensi mendistribusikan eksposur di seluruh rentang rilis baru yang lebih luas.

Metode dan Data

Penulis menguraikan alur kerja empat tahap: konstruksi dataset khusus dari metadata film yang belum dirilis; pembentukan model baseline untuk perbandingan; evaluasi LLM yang sesuai menggunakan alasan bahasa alami dan prediksi berbasis embedding; dan optimasi output melalui teknik prompt dalam mode generatif, menggunakan Meta’s Llama 3.1 dan 3.3 model bahasa.

Karena, menurut penulis, tidak ada dataset yang tersedia secara publik yang menawarkan cara langsung untuk menguji hipotesis mereka (karena sebagian besar koleksi yang ada mendahului LLMs dan kekurangan metadata yang terperinci), mereka membangun dataset benchmark dari platform hiburan Comcast, yang melayani puluhan juta pengguna di seluruh antarmuka langsung dan pihak ketiga.

Dataset ini melacak film yang baru dirilis dan apakah mereka kemudian menjadi populer, dengan popularitas didefinisikan melalui interaksi pengguna.

Koleksi ini fokus pada film daripada serial, dan penulis menyatakan:

‘Kami fokus pada film karena mereka kurang dipengaruhi oleh pengetahuan eksternal daripada serial TV, sehingga meningkatkan keandalan eksperimen.’

Label ditugaskan dengan menganalisis waktu yang dibutuhkan untuk sebuah judul menjadi populer di seluruh jendela waktu dan ukuran daftar yang berbeda. LLM dipicu dengan bidang metadata seperti genre, sinopsis, peringkat, era, cast, crew, suasana hati, penghargaan, dan jenis karakter.

Untuk perbandingan, penulis menggunakan dua baseline: pengaturan acak; dan model Popular Embedding (PE).

Proyek ini menggunakan model bahasa besar sebagai metode peringkat utama, menghasilkan daftar terurut film dengan skor popularitas yang diprediksi dan justifikasi yang menyertainya – dan output ini dibentuk oleh strategi teknik prompt yang dirancang untuk memandu prediksi model menggunakan metadata terstruktur.

Strategi pemancingan membingkai model sebagai ‘asisten editorial’ yang ditugaskan untuk mengidentifikasi film mana yang paling mungkin menjadi populer, berdasarkan metadata terstruktur, dan kemudian meminta untuk mengatur ulang daftar judul tetap tanpa memperkenalkan item baru, dan mengembalikan output dalam format JSON.

Setiap responsis terdiri dari daftar peringkat, skor popularitas yang ditugaskan, justifikasi untuk peringkat, dan referensi ke contoh sebelumnya yang mempengaruhi hasil. Tingkat metadata yang beragam ini dimaksudkan untuk meningkatkan pemahaman kontekstual model dan kemampuannya untuk memprediksi tren audiens di masa depan.

Pengujian

Eksperimen ini mengikuti dua tahap utama: awalnya, penulis menguji beberapa varian model untuk membentuk baseline, yang melibatkan identifikasi versi yang berperforma lebih baik daripada pendekatan pengaturan acak.

Kedua, mereka menguji model bahasa besar dalam mode generatif, dengan membandingkan outputnya dengan baseline yang lebih kuat, bukan peringkat acak, sehingga meningkatkan kesulitan tugas.

Ini berarti model harus berperforma lebih baik daripada sistem yang sudah menunjukkan beberapa kemampuan untuk memprediksi film mana yang akan menjadi populer. Sebagai hasilnya, penulis menyatakan, evaluasi lebih mencerminkan kondisi dunia nyata, di mana tim editorial dan sistem rekomendasi jarang memilih antara model dan kesempatan, tetapi antara sistem yang bersaing dengan kemampuan prediktif yang beragam.

Keuntungan dari Ketidaktahuan

Sebuah konstrain kunci dalam pengaturan ini adalah celah waktu antara batas waktu pengetahuan model dan tanggal rilis sebenarnya dari film. Karena model bahasa dipelajari dari data yang berakhir enam hingga dua belas bulan sebelum film menjadi tersedia, mereka tidak memiliki akses ke informasi pascarilis, memastikan bahwa prediksi didasarkan sepenuhnya pada metadata, dan tidak pada respons audiens yang dipelajari.

Evaluasi Baseline

Untuk membentuk baseline, penulis menghasilkan representasi semantik dari metadata film menggunakan tiga model embedding: BERT V4; Linq-Embed-Mistral 7B; dan Llama 3.3 70B, dikuantisasi ke presisi 8-bit untuk memenuhi konstrain lingkungan eksperimental.

Linq-Embed-Mistral dipilih untuk dimasukkan karena posisinya di papan peringkat MTEB (Massive Text Embedding Benchmark).

Setiap model menghasilkan embedding vektor dari film kandidat, yang kemudian dibandingkan dengan embedding rata-rata dari seratus judul paling populer dari minggu-minggu sebelum rilis film.

Popularitas diinferensikan menggunakan kesamaan kosin antara embedding ini, dengan skor kesamaan yang lebih tinggi menunjukkan daya tarik yang diprediksi lebih tinggi. Akurasi peringkat dari setiap model dievaluasi dengan mengukur kinerja terhadap baseline pengaturan acak.

Peningkatan kinerja model Popular Embedding dibandingkan dengan baseline acak. Setiap model diuji menggunakan empat konfigurasi metadata: V1 hanya mencakup genre; V2 hanya mencakup sinopsis; V3 menggabungkan genre, sinopsis, peringkat konten, jenis karakter, suasana hati, dan era rilis; V4 menambahkan cast, crew, dan penghargaan ke konfigurasi V3. Hasil menunjukkan bagaimana input metadata yang lebih kaya mempengaruhi akurasi peringkat.

Peningkatan kinerja model Popular Embedding dibandingkan dengan baseline acak. Setiap model diuji menggunakan empat konfigurasi metadata: V1 hanya mencakup genre; V2 hanya mencakup sinopsis; V3 menggabungkan genre, sinopsis, peringkat konten, jenis karakter, suasana hati, dan era rilis; V4 menambahkan cast, crew, dan penghargaan ke konfigurasi V3. Hasil menunjukkan bagaimana input metadata yang lebih kaya mempengaruhi akurasi peringkat. Sumber: https://arxiv.org/pdf/2505.02693

Hasil (ditampilkan di atas) menunjukkan bahwa BERT V4 dan Linq-Embed-Mistral 7B memberikan peningkatan terkuat dalam mengidentifikasi tiga judul paling populer, meskipun keduanya sedikit kurang dalam memprediksi item paling populer tunggal.

BERT akhirnya dipilih sebagai model baseline untuk dibandingkan dengan LLMs, karena efisiensinya dan keuntungan keseluruhan mengungguli keterbatasannya.

Evaluasi LLM

Peneliti menilai kinerja menggunakan dua pendekatan peringkat: pairwise dan listwise. Peringkat pairwise mengevaluasi apakah model secara benar mengatur satu item relatif terhadap yang lain; dan peringkat listwise mempertimbangkan akurasi daftar kandidat yang dipesan.

Kombinasi ini memungkinkan evaluasi tidak hanya apakah pasangan film individual dipesan dengan benar (akurasi lokal), tetapi juga seberapa baik daftar kandidat lengkap mencerminkan urutan popularitas sebenarnya (akurasi global).

Model lengkap, non-kuantisasi, digunakan untuk mencegah kehilangan kinerja, memastikan perbandingan yang konsisten dan dapat direproduksi antara prediksi LLM dan baseline berbasis embedding.

Metrik

Untuk menilai seberapa efektif model bahasa memprediksi popularitas film, baik metrik peringkat dan klasifikasi digunakan, dengan perhatian khusus pada mengidentifikasi tiga judul paling populer.

Empat metrik diterapkan: Akurasi@1 mengukur seberapa sering item paling populer muncul di posisi pertama; Peringkat Resiprokal menangkap seberapa tinggi item aktual paling populer berperingkat dalam daftar yang diprediksi dengan mengambil invers dari posisinya; Normalized Discounted Cumulative Gain (NDCG@k) mengevaluasi seberapa baik peringkat mencerminkan popularitas sebenarnya, dengan skor yang lebih tinggi menunjukkan keselarasan yang lebih baik; dan Recall@3 mengukur proporsi judul yang benar-benar populer yang muncul dalam tiga prediksi teratas model.

Karena sebagian besar keterlibatan pengguna terjadi di dekat atas menu yang dipesan, evaluasi fokus pada nilai k yang lebih rendah, untuk mencerminkan kasus penggunaan praktis.

Peningkatan kinerja model bahasa besar dibandingkan dengan BERT V4, diukur sebagai persentase keuntungan di seluruh metrik peringkat. Hasil diambil rata-rata selama sepuluh kali jalankan per kombinasi model-prompt, dengan nilai teratas disorot. Angka yang dilaporkan mencerminkan rata-rata persentase peningkatan di seluruh metrik.

Peningkatan kinerja model bahasa besar dibandingkan dengan BERT V4, diukur sebagai persentase keuntungan di seluruh metrik peringkat. Hasil diambil rata-rata selama sepuluh kali jalankan per kombinasi model-prompt, dengan nilai teratas disorot. Angka yang dilaporkan mencerminkan rata-rata persentase peningkatan di seluruh metrik.

Kinerja model Llama 3.1 (8B), 3.1 (405B), dan 3.3 (70B) dievaluasi dengan mengukur peningkatan metrik relatif terhadap baseline BERT V4 yang telah ditetapkan sebelumnya. Setiap model diuji menggunakan serangkaian prompt, mulai dari minimal hingga kaya informasi, untuk memeriksa efek detail input pada kualitas prediksi.

Penulis menyatakan:

‘Kinerja terbaik dicapai ketika menggunakan Llama 3.1 (405B) dengan prompt paling informatif, diikuti oleh Llama 3.3 (70B). Berdasarkan tren yang diamati, ketika menggunakan prompt yang kompleks dan panjang (MD V4), model bahasa yang lebih kompleks umumnya mengarah pada kinerja yang lebih baik di seluruh metrik. Namun, ini sensitif terhadap jenis informasi yang ditambahkan.’

Kinerja ditingkatkan ketika penghargaan cast dimasukkan sebagai bagian dari prompt – dalam hal ini, jumlah penghargaan utama yang diterima oleh lima aktor teratas dalam setiap film. Metadata yang lebih kaya ini merupakan bagian dari konfigurasi prompt yang paling detail, mengungguli versi yang lebih sederhana yang tidak termasuk pengakuan cast. Keuntungan ini paling jelas dalam model yang lebih besar, Llama 3.1 (405B) dan 3.3 (70B), keduanya menunjukkan akurasi prediktif yang lebih kuat ketika diberikan sinyal tambahan ini tentang prestise dan familiaritas audiens.

Sebaliknya, model terkecil, Llama 3.1 (8B), menunjukkan kinerja yang ditingkatkan ketika prompt menjadi sedikit lebih detail, berkembang dari genre ke sinopsis, tetapi menurun ketika lebih banyak bidang ditambahkan, menunjukkan bahwa model kekurangan kapasitas untuk mengintegrasikan prompt yang kompleks secara efektif, mengarah pada generalisasi yang lebih lemah.

Ketika prompt dibatasi pada genre saja, semua model under-performed terhadap baseline, menunjukkan bahwa metadata yang terbatas tidak cukup untuk mendukung prediksi yang bermakna.

Kesimpulan

LLMs telah menjadi anak emas untuk AI generatif, yang mungkin menjelaskan mengapa mereka diterapkan di area di mana metode lain bisa lebih sesuai. Bahkan demikian, masih banyak yang belum kita ketahui tentang apa yang mereka bisa lakukan di seluruh industri yang berbeda, sehingga masuk akal untuk memberi mereka kesempatan.

Dalam kasus ini, seperti dengan pasar saham dan peramalan cuaca, hanya sampai batas tertentu data historis dapat berfungsi sebagai dasar prediksi masa depan. Dalam kasus film dan acara TV, metode pengiriman sekarang sasaran yang bergerak, berbeda dengan periode antara 1978-2011, ketika kabel, satelit, dan media portabel (VHS, DVD, dll.) mewakili serangkaian gangguan historis yang bertransisi atau berkembang.

Tidak ada metode prediksi yang dapat memperhitungkan seberapa besar keberhasilan atau kegagalan produksi lain dapat mempengaruhi viabilitas properti yang diusulkan – dan namun ini sering terjadi dalam industri film dan TV, yang suka menunggangi tren.

Namun, ketika digunakan dengan bijak, LLMs bisa membantu memperkuat sistem rekomendasi selama fase cold-start, menawarkan dukungan yang berguna di seluruh metode prediktif.

 

Pertama dipublikasikan pada hari Selasa, 6 Mei 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.