Connect with us

Погляд Anderson

Використання штучного інтелекту для прогнозування блокбастерів

mm
ChatGPT-4o and Adobe Firefly

Хоча кінематограф і телебачення часто розглядаються як творчі та відкриті галузі, вони довгий час були ризикофобними. Високі виробничі витрати (які можуть втрачати компенсувальну перевагу дешевих закордонних місць зйомок, принаймні для американських проектів) і фрагментована виробнича ландшафт роблять важким для незалежних компаній поглинати значальну втрату.

Отже, за останні десять років галузь проявляє зростаючий інтерес до того, чи може машинне навчання виявити тенденції або закономірності у поведінці аудиторії щодо запропонованих кінематографічних і телевізійних проектів.

Основними джерелами даних залишаються система Нільсена (яка пропонує масштаб, хоча її корені походять з телебачення та реклами) і вибіркові методи, такі як фокус-групи, які обмінюють масштаб на відібрані демографічні групи. До цієї категорії також входять зворотні зв’язки з безкоштовних попередніх показів фільмів – однак, на той момент більша частина виробничого бюджету вже витрачена.

Теорія “Великого хіту”

Спочатку системи машинного навчання використовували традиційні методи аналізу, такі як лінійна регресія, K-Nearest Neighbors, Стохастичний спуск по градієнту, Дерево рішень і Ліси, та Нейронні мережі, зазвичай у різних комбінаціях, ближчих за стилем до до-штучного інтелекту статистичного аналізу, наприклад, у 2019 році Університет Центральної Флориди ініціативи для прогнозування успішних телешоу на основі комбінацій акторів і сценаристів (серед інших факторів):

Дослідження 2018 року оцінило виконання епізодів на основі комбінацій персонажів і/або сценариста (більшість епізодів були написані більш ніж однією людиною). Джерело: https://arxiv.org/pdf/1910.12589

Дослідження 2018 року оцінило виконання епізодів на основі комбінацій персонажів і/або сценариста (більшість епізодів були написані більш ніж однією людиною). Джерело: https://arxiv.org/pdf/1910.12589

Найбільш актуальна пов’язана робота, принаймні така, яка використовується в дикій природі (хоча часто критикується), знаходиться в галузі систем рекомендацій:

Типовий відео-рекомендаційний конвеєр. Відео в каталозі індексуються за допомогою функцій, які можуть бути вручну анотовані або автоматично витягнуті. Рекомендації генеруються в два етапи: спочатку вибираються кандидатські відео, а потім вони ранжуються згідно з користувацьким профілем, витягнутим з преференцій перегляду. Джерело: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Типовий відео-рекомендаційний конвеєр. Відео в каталозі індексуються за допомогою функцій, які можуть бути вручну анотовані або автоматично витягнуті. Рекомендації генеруються в два етапи: спочатку вибираються кандидатські відео, а потім вони ранжуються згідно з користувацьким профілем, витягнутим з преференцій перегляду. Джерело: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Однак, такі підходи аналізують проекти, які вже успішні. У випадку перспективних нових шоу або фільмів неясно, який тип основної істини буде найбільш підходящим – не в останню чергу тому, що зміни в публічному смаку, у поєднанні з покращеннями та доповненнями джерел даних, означають, що десятиліття послідовних даних зазвичай недоступні.

Це є випадком проблеми “холодного старту”, де системи рекомендацій повинні оцінювати кандидатів без будь-яких попередніх даних про взаємодію. У таких випадках традиційне колаборативне фільтрування розбивається, оскільки воно спирається на закономірності у поведінці користувачів (такі як перегляд, рейтинг або обмін) для генерації прогнозів. Проблема полягає в тому, що у випадку більшості нових фільмів або шоу ще немає достатньої кількості зворотного зв’язку аудиторії для підтримки цих методів.

Comcast Predicts

Нова робота від Comcast Technology AI, у співпраці з Університетом Джорджа Вашингтона, пропонує рішення цієї проблеми, викликаючи мовну модель структурованими метаданими про не випущені фільми.

Вхідні дані включають акторський склад, жанр, синопсис, рейтинг вмісту, настрій, і нагороди, з моделлю, яка повертає ранжований список ймовірних майбутніх хітів.

Автори використовують вивід моделі як заміну інтересу аудиторії, коли немає даних про взаємодію, сподіваючись уникнути ранньої упередженості щодо назв, які вже добре відомі.

Дуже коротка (три сторінки) робота, озаглавлена Прогнозування кінематографічних хітів до їхнього виходу з допомогою МЛМ, походять від шести дослідників з Comcast Technology AI, і одного з GWU, і заявляє:

‘Наші результати показують, що МЛМ, коли використовуються кінематографічні метадані, можуть суттєво перевершити базові лінії. Цей підхід може служити системою допомоги для кількох випадків використання, дозволяючи автоматичну оцінку великих об’ємів нового контенту, випущеного щодня і щотижня.

‘Від надаючи ранні знання до того, як редакційні команди або алгоритми накопичать достатньо даних про взаємодію, МЛМ можуть оптимізувати процес перегляду контенту.

‘З безперервними покращеннями ефективності МЛМ і зростанням агентів рекомендацій, знання з цієї роботи є цінними і адаптованими до широкого спектра галузей.’

Якщо підхід виявиться надійним, він може зменшити залежність галузі від ретроспективних метрик і агресивно просуваних назв, вводячи масштабний спосіб виділяти перспективний контент до його випуску. Таким чином, замість того, щоб чекати на поведінку користувачів, щоб сигналізувати про попит, редакційні команди могли б отримувати ранні, метаданих-орієнтовані прогнози інтересу аудиторії, потенційно перерозподіляючи експозицію по ширшому спектру нових випусків.

Метод і дані

Автори описують чотириетапний робочий процес: побудова спеціального набору даних з не випущених кінематографічних метаданих; встановлення базової моделі для порівняння; оцінка відповідних МЛМ за допомогою природної мовної логіки та передбачення на основі вкладення; і оптимізація виводу через інженерну підтримку в генераційному режимі, використовуючи Meta’s Llama 3.1 і 3.3 мовні моделі.

Оскільки, як заявляють автори, жоден публічно доступний набір даних не пропонував прямого способу перевірити їхню гіпотезу (оскільки більшість існуючих колекцій передують МЛМ і не мають детальних метаданих), вони побудували бенчмарковий набір даних з розважальної платформи Comcast, яка обслуговує десятки мільйонів користувачів через прямий і третій інтерфейс.

Набір даних відстежує ново випущені фільми і те, чи стали вони пізніше популярними, з популярністю, визначеною через взаємодію користувачів.

Колекція зосереджується на фільмах, а не на серіях, і автори заявляють:

‘Ми зосередилися на фільмах, оскільки вони менше під впливом зовнішніх знань, ніж телесеріали, що покращує надійність експериментів.’

Мітки були призначені шляхом аналізу часу, необхідного для того, щоб назва стала популярною в різних часових вікнах і розмірах списків. МЛМ була викликана метаданими полями, такими як жанр, синопсис, рейтинг, епоха, акторський склад, екіпаж, настрій, нагороди, і типи персонажів.

Для порівняння автори використовували два базові лінії: випадкове впорядкування; і модель Popular Embedding (PE) (яку ми розглянемо пізніше).

Проект використовував великі мовні моделі як основний метод ранжування, генеруючи впорядковані списки фільмів з передбачуваними популярними балами і супровідними обґрунтуваннями – і ці виводи були сформовані стратегіями інженерної підтримки, призначеними для керівництва передбаченнями моделі за допомогою структурованих метаданих.

Стратегія виклику моделі була сформована як “редакційний асистент”, призначений для визначення тих майбутніх фільмів, які найімовірніше стануть популярними, на основі лише структурованих метаданих, і потім доручити йому перестворити фіксований список назв без введення нових пунктів, і повернути вивід у форматі JSON.

Кожна відповідь складалася з ранжованого списку, призначених популярних балів, обґрунтувань для ранжування, і посилань на будь-які попередні приклади, які вплинули на результат. Ці багаторівневі метадані були призначені для покращення контекстного розуміння моделі, і її здатності передбачати майбутні тенденції аудиторії.

Тести

Експеримент проходив у два основних етапи: спочатку автори протестували кілька варіантів моделі для встановлення базової лінії, що включало визначення версії, яка працювала краще, ніж випадкове впорядкування.

Другий, вони протестували великі мовні моделі у генераційному режимі, порівнюючи їхній вивід з сильнішою базовою лінією, а не з випадковим ранжуванням, підвищуючи складність завдання.

Це означало, що моделі мали бути кращими, ніж система, яка вже показала деяку здатність передбачати, які фільми стануть популярними. Як результат, автори стверджують, оцінка краще відображала реальні умови, де редакційні команди і системи рекомендацій рідко вибирають між моделлю і випадком, а між конкуруючими системами з різними рівнями передбачувальної здатності.

Перевага невідання

Ключовим обмеженням цього налаштування було часове розрив між дані про знання моделей і фактичними датами випуску фільмів. Через те, що мовні моделі були треновані на даних, які закінчувалися за шість до дванадцяти місяців до того, як фільми стали доступними, вони не мали доступу до пострелізних даних, забезпечуючи, що передбачення були засновані повністю на метаданих, а не на будь-якій вивченої реакції аудиторії.

Оцінка базової лінії

Для побудови базової лінії автори згенерували семантичні представлення кінематографічних метаданих за допомогою трьох моделей вкладення: BERT V4; Linq-Embed-Mistral 7B; і Llama 3.3 70B, кванталізований до 8-бітної точності для задоволення обмежень експериментального середовища.

Linq-Embed-Mistral був обраний для включення через свою топ-позицію на MTEB (Масивний текстовий бенчмарк вкладення) лідерборді.

Кожна модель генерувала вектори вкладення кандидатських фільмів, які потім порівнювалися з середнім вкладенням ста найбільш популярних назв з попередніх тижнів кожного випуску фільму.

Популярність була витягнута за допомогою косинусної подібності між цими вкладеннями, з вищими балами подібності, що вказують на вищу передбачувану привабливість. Точність ранжування кожної моделі оцінювалася шляхом вимірювання продуктивності проти випадкового порядку базової лінії.

Покращення продуктивності моделей Popular Embedding у порівнянні з випадковою базовою лінією. Кожна модель була протестована за допомогою чотирьох конфігурацій метаданих: V1 включає лише жанр; V2 включає лише синопсис; V3 поєднує жанр, синопсис, рейтинг вмісту, типи персонажів, настрій і епоху випуску; V4 додає акторський склад, ekipаж і нагороди до конфігурації V3. Результати показують, як багатіші вхідні метадані впливають на точність ранжування.. Джерело: https://arxiv.org/pdf/2505.02693

Покращення продуктивності моделей Popular Embedding у порівнянні з випадковою базовою лінією. Кожна модель була протестована за допомогою чотирьох конфігурацій метаданих: V1 включає лише жанр; V2 включає лише синопсис; V3 поєднує жанр, синопсис, рейтинг вмісту, типи персонажів, настрій і епоху випуску; V4 додає акторський склад, ekipаж і нагороди до конфігурації V3. Результати показують, як багатіші вхідні метадані впливають на точність ранжування. Джерело: https://arxiv.org/pdf/2505.02693

Результати (показані вище) демонструють, що BERT V4 і Linq-Embed-Mistral 7B забезпечили найсильніші покращення у визначенні трьох найбільш популярних назв, хоча обидві трохи не дотягнули до передбачення найбільш популярного пункту.

BERT був остаточно обраний як базова модель для порівняння з МЛМ, оскільки його ефективність і загальні здобутки переважили його обмеження.

Оцінка МЛМ

Дослідники оцінили продуктивність за допомогою двох підходів до ранжування: парного і списокового. Парне ранжування оцінює, чи правильно модель ранжує один пункт відносно іншого; і списокове ранжування розглядає точність всього впорядкованого списку кандидатів.

Ця комбінація дозволила оцінити не тільки те, чи правильно окремі пари фільмів були ранжовані (локальна точність), а й те, як добре весь список кандидатів відображав справжній порядок популярності (глобальна точність).

Повні, не кванталізовані моделі були використані для запобігання втраті продуктивності, забезпечуючи послідовне і репродуктивне порівняння між передбаченнями МЛМ і вкладенням базових ліній.

Метрики

Для оцінки того, наскільки ефективно мовні моделі передбачали популярність фільмів, були використані метрики ранжування і класифікації, з особливим увагою до визначення трьох найбільш популярних назв.

Чотири метрики були застосовані: Точність@1 вимірювала, як часто найбільш популярний пункт з’являвся на першій позиції; Оборотний ранг захоплював, наскільки високо топічний пункт ранжувався у передбаченому списку, приймаючи обернене значення його позиції; Нормалізована знижена накопичена вигода (NDCG@k) оцінювала, наскільки добре весь ранжований список відповідав фактичній популярності, з вищими балами, що вказують на кращу відповідність; і Recall@3 вимірювала пропорцію справді популярних назв, які з’явилися у топ-3 передбачень моделі.

Оскільки більшість взаємодій користувачів відбувається біля верхівки ранжованих меню, оцінка зосередилася на нижчих значеннях k, щоб відображати практичні випадки використання.

Покращення продуктивності великих мовних моделей над BERT V4, виміряне як відсоткові здобутки через метрики ранжування. Результати були усереднені за десять запусків на кожну комбінацію моделі-промпта, з двома верхніми значеннями, виділеними. Заявлені цифри відображають середнє відсоткове покращення через всі метрики.

Покращення продуктивності великих мовних моделей над BERT V4, виміряне як відсоткові здобутки через метрики ранжування. Результати були усереднені за десять запусків на кожну комбінацію моделі-промпта, з двома верхніми значеннями, виділеними. Заявлені цифри відображають середнє відсоткове покращення через всі метрики.

Продуктивність моделі Llama 3.1 (8B), 3.1 (405B) і 3.3 (70B) була оцінена шляхом вимірювання метричних покращень відносно раніше встановленої базової лінії BERT V4. Кожна модель була протестована за допомогою серії промптів, від мінімальних до інформаційно-багатих, для вивчення впливу деталізації вводу на якість передбачення.

Автори заявляють:

‘Найкраща продуктивність досягається при використанні Llama 3.1 (405B) з найбільш інформативним промптом, за яким слідує Llama 3.3 (70B). На основі спостережуваної тенденції, коли використовується складний і довгий промпт (MD V4), більш складна мова моделі загалом призводить до покращення продуктивності через різні метрики. Однак це чутливо до типу інформації, яка додається.’

Продуктивність покращилася, коли нагороди акторського складу були включені як частина промпту – у цьому випадку кількість основних нагород, отриманих топ-п’ятьма акторами в кожному фільмі. Ці багатіші метадані були частиною найбільш детальної конфігурації промпту, що перевершує простішу версію, яка виключає визнання акторського складу. Перевага була найбільш очевидною у великих моделях, Llama 3.1 (405B) і 3.3 (70B), які показали сильнішу передбачувальну точність, коли їм була надана ця додаткова сигналізація престижу і знайомства аудиторії.

Натомість, найменша модель, Llama 3.1 (8B), показала покращення продуктивності, коли промпти стали трохи більш деталізованими, переходячи від жанру до синопсису, але погіршилася, коли були додані більш поля, вказуючи на те, що модель не мала здатності інтегрувати складні промпти ефективно, що призвело до слабшої генерації.

Висновок

МЛМ стали постерами для генерації штучного інтелекту, що може пояснити, чому вони застосовуються в галузях, де інші методи могли б бути кращими. Однак все ще існує багато того, чого ми не знаємо про те, що вони можуть робити в різних галузях, тому має сенс дати їм шанс.

У цьому конкретному випадку, як і на фондових ринках і прогнозуванні погоди, існує лише обмежена міра, до якої історичні дані можуть служити основою для майбутніх передбачень. У випадку фільмів і телешоу сам метод доставки зараз рухомий ціль, на відміну від періоду між 1978-2011 роками, коли кабельне, супутникове і портативне медіа (VHS, DVD тощо) представляли собою серію тимчасових або еволюційних історичних порушень.

Аніж жоден метод передбачення не може врахувати ступінь, до якої успіх або невдача інших виробництв може вплинути на життєздатність запропонованої власності – і все ж це часто буває у кіно- і телегалузі, яка любить кататися на хвилі тренду.

Однак, якщо використовувати МЛМ вдумливо, вони можуть допомогти зміцнити системи рекомендацій під час фази “холодного старту”, пропонуючи корисну підтримку через ряд передбачувальних методів.

 

Перша публікація у вівторок, 6 травня 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]