Взгляд Anderson

Использование ИИ для прогнозирования блокбастера

Published May 6, 2025

Updated April 3, 2026

Martin Anderson

Хотя кино- и телевизионная индустрия часто рассматривается как творческая и открытая, она долгое время была осторожна в отношении рисков. Высокие производственные затраты (которые могут вскоре потерять преимущество более дешевых зарубежных мест, по крайней мере для проектов США) и фрагментированный производственный ландшафт делают трудным для независимых компаний поглотить значительный убыток.

Поэтому за последнее десятилетие индустрия проявляет все больший интерес к вопросу о том, могут ли машинные алгоритмы обнаружить тенденции или закономерности в том, как аудитория реагирует на предложенные кино- и телевизионные проекты.

Основными источниками данных остаются система Nielsen (которая предлагает масштаб, хотя ее корни лежат в телевидении и рекламе) и выборочные методы, такие как фокус-группы, которые обменивают масштаб на отобранные демографические группы. К этой последней категории также относятся отзывы о бесплатных предварительных просмотрах фильмов – однако, к тому времени, когда большинство производственного бюджета уже потрачено.

Теория ‘Большого Хита’/Теории

Изначально системы машинного обучения использовали традиционные методы анализа, такие как линейная регрессия, K-Ближайших Соседей, Стохастический Спуск, Дерево Решений и Леса, и Нейронные Сети, обычно в различных комбинациях, более похожих на до-ИИ статистический анализ, такой как инициатива 2019 года Университета Центральной Флориды предсказать успешные телешоу на основе комбинаций актеров и сценаристов (среди других факторов):

Исследование 2018 года оценило производительность эпизодов на основе комбинаций персонажей и/или сценариста (большинство эпизодов были написаны более чем одним человеком). Источник: https://arxiv.org/pdf/1910.12589

Самая релевантная связанная работа, по крайней мере, та, которая развернута в дикой природе (хотя часто критикуется), находится в области систем рекомендаций:

Типичный видео-рекомендационный конвейер. Видео в каталоге индексируются с помощью функций, которые могут быть手ически аннотированы или автоматически извлечены. Рекомендации генерируются в два этапа: сначала выбираются кандидатные видео, а затем они ранжируются в соответствии с профилем пользователя, выведенным из предпочтений просмотра. Источник: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Однако эти подходы анализируют проекты, которые уже успешны. В случае перспективных новых шоу или фильмов неясно, какой вид основной истины будет наиболее применимым – не в последнюю очередь потому, что изменения в общественном вкусе, в сочетании с улучшениями и дополнениями источников данных, означают, что десятилетия последовательных данных обычно недоступны.

Это является примером проблемы холодного старта, где системы рекомендаций должны оценивать кандидатов без каких-либо предварительных взаимодействий с данными. В таких случаях традиционная коллаборативная фильтрация разрушается, потому что она полагается на закономерности в поведении пользователя (такие как просмотр, оценка или обмен), чтобы генерировать прогнозы. Проблема заключается в том, что в случае большинства новых фильмов или шоу еще нет достаточно обратной связи аудитории, чтобы поддержать эти методы.

Comcast Предсказывает

Новая статья от Comcast Technology AI, в сотрудничестве с Университетом Джорджа Вашингтона, предлагает решение этой проблемы, побуждая языковую модель с структурированными метаданными о не выпущенных фильмах.

Входные данные включают актерский состав, жанр, синопсис, рейтинг контента, настроение и награды, с моделью, возвращающей ранжированный список вероятных будущих хитов.

Авторы используют вывод модели в качестве замены интереса аудитории, когда нет доступных данных об взаимодействии, надеясь избежать раннего偏ения в сторону названий, которые уже хорошо известны.

Очень короткая (три страницы) статья, озаглавленная Предсказание фильмов-хитов до их выпуска с помощью LLM, исходит от шести исследователей из Comcast Technology AI и одного из GWU, и гласит:

‘Наши результаты показывают, что LLM, при использовании метаданных фильма, могут значительно превосходить базовые модели. Этот подход может служить системой помощи для нескольких случаев использования, позволяя автоматически оценивать большие объемы нового контента, выпускаемого ежедневно и еженедельно.

‘Предоставляя ранние идеи до того, как редакционные команды или алгоритмы накопили достаточное количество взаимодействий с данными, LLM могут оптимизировать процесс проверки контента.

‘С постоянными улучшениями в эффективности LLM и ростом агентов рекомендаций идеи из этой работы ценны и адаптируемы к широкому спектру областей.’

Если подход окажется прочным, он может уменьшить зависимость индустрии от ретроспективных метрик и сильно продвигаемых названий, введя масштабируемый способ выделить перспективный контент до его выпуска. Таким образом, вместо того, чтобы ждать поведения пользователя, чтобы сигнализировать о спросе, редакционные команды могли бы получить ранние, основанные на метаданных, прогнозы интереса аудитории, потенциально перераспределяя внимание по более широкому спектру новых релизов.

Метод и Данные

Авторы описывают четырехэтапный рабочий процесс: построение специального набора данных из не выпущенных метаданных фильма; установление базовой модели для сравнения; оценка подходящих LLM с помощью как естественного языкового рассуждения, так и прогнозирования на основе вложений; и оптимизация вывода через инжиниринг подсказок в генеративном режиме, используя Meta’s Llama 3.1 и 3.3 языковые модели.

Поскольку, как заявляют авторы, ни один из публично доступных наборов данных не предлагал прямого способа проверить свою гипотезу (поскольку большинство существующих коллекций предшествуют LLM и не имеют подробных метаданных), они построили эталонный набор данных из платформы развлечений Comcast платформы, которая обслуживает десятки миллионов пользователей через прямые и третьи интерфейсы.

Набор данных отслеживает недавно выпущенные фильмы и то, стали ли они популярными, с популярностью, определенной через взаимодействие пользователя.

Коллекция фокусируется на фильмах, а не на сериалах, и авторы заявляют:

‘Мы сосредоточились на фильмах, потому что они менее подвержены внешним знаниям, чем телесериалы, улучшая надежность экспериментов.’

Метки были присвоены путем анализа времени, необходимого для того, чтобы название стало популярным в разных временных окнах и размерах списка. LLM была побуждена метаданными полями, такими как жанр, синопсис, рейтинг, эра, актерский состав, съемочная группа, настроение, награды и типы персонажей.

Для сравнения авторы использовали две базовые модели: случайное упорядочение; и модель Popular Embedding (PE), которая мы рассмотрим позже.

Проект использовал большие языковые модели в качестве основного метода ранжирования, генерируя упорядоченные списки фильмов с прогнозируемыми баллами популярности и сопровождающими обоснованиями – и эти выводы были сформированы стратегиями инжиниринга подсказок, предназначенными для руководства прогнозами модели, используя структурированные метаданные.

Стратегия подсказки представила модель как ‘редакционного помощника’, назначенного для выявления предстоящих фильмов, которые наиболее вероятно станут популярными, основываясь исключительно на структурированных метаданных, и затем порученного для переупорядочения фиксированного списка названий без введения новых элементов, и для возврата вывода в JSON формате.

Каждый ответ состоял из ранжированного списка, присвоенных баллов популярности, обоснований для ранжирования и ссылок на любые предыдущие примеры, которые повлияли на результат. Эти несколько уровней метаданных были предназначены для улучшения контекстуального понимания модели и ее способности предвидеть будущие тенденции аудитории.

Тесты

Эксперимент следовал двум основным стадиям: изначально авторы протестировали несколько вариантов модели, чтобы установить базовую линию, включающую выявление версии, которая выполняла лучше, чем случайное упорядочение.

Во вторых, они протестировали большие языковые модели в генеративном режиме, сравнивая их вывод с более сильной базовой линией, а не с случайным ранжированием, повышая уровень сложности задачи.

Это означало, что модели должны были делать лучше, чем система, которая уже показала некоторую способность предсказать, какие фильмы станут популярными. Таким образом, авторы утверждают, оценка лучше отражала реальные условия, где редакционные команды и системы рекомендаций редко выбирают между моделью и случайностью, но между конкурирующими системами с различными уровнями прогностической способности.

Преимущество Незнания

Ключевым ограничением в этом расположении было временное расстояние между данными о знаниях модели и фактическими датами выпуска фильмов. Поскольку языковые модели были обучены на данных, которые завершились за шесть-двенадцать месяцев до того, как фильмы стали доступными, у них не было доступа к пост-релизной информации, гарантируя, что прогнозы основаны исключительно на метаданных и не на каком-либо выученном ответе аудитории.

Оценка Базовой Линии

Чтобы построить базовую линию, авторы сгенерировали семантические представления метаданных фильма, используя три модели вложений: BERT V4; Linq-Embed-Mistral 7B; и Llama 3.3 70B, квантованный до 8-битной точности, чтобы удовлетворить ограничениям экспериментальной среды.

Linq-Embed-Mistral был выбран для включения из-за его верхней позиции на MTEB (Массовом текстовом вложении) лидерборде.

Каждая модель произвела векторные вложения кандидатных фильмов, которые затем сравнивались со средним вложением ста самых популярных названий из недель, предшествующих выпуску каждого фильма.

Популярность была выведена с помощью косинусной подобия между этими вложениями, с более высокими баллами подобия, указывающими на более высокий прогнозируемый спрос. Точность ранжирования каждой модели оценивалась путем измерения ее производительности против случайного упорядочения.

Улучшение производительности моделей Popular Embedding по сравнению с случайной базовой линией. Каждая модель была протестирована, используя четыре конфигурации метаданных: V1 включает только жанр; V2 включает только синопсис; V3 объединяет жанр, синопсис, рейтинг контента, типы персонажей, настроение и эру выпуска; V4 добавляет актерский состав, съемочную группу и награды к конфигурации V3. Результаты показывают, как более богатые входные метаданные влияют на точность ранжирования. Источник: https://arxiv.org/pdf/2505.02693

Результаты (показанные выше) демонстрируют, что BERT V4 и Linq-Embed-Mistral 7B доставили наиболее сильные улучшения в выявлении трех самых популярных названий, хотя обе чуть-чуть не дотянули до прогнозирования единого наиболее популярного элемента.

BERT был в конечном итоге выбран в качестве базовой модели для сравнения с LLM, поскольку его эффективность и общая производительность перевешивали его ограничения.

Оценка LLM

Исследователи оценили производительность, используя два подхода к ранжированию: парное и списковое. Парное ранжирование оценивает, правильно ли модель упорядочивает один элемент относительно другого; и списковое ранжирование учитывает точность всего упорядоченного списка кандидатов.

Эта комбинация позволила оценить не только то, правильно ли индивидуальные пары фильмов ранжируются (локальная точность), но и то, насколько хорошо весь список кандидатов отражает истинный порядок популярности (глобальная точность).

Полные, не квантованные модели были использованы для предотвращения потери производительности, гарантируя последовательное и воспроизводимое сравнение между прогнозами LLM и вложениями базовой линии.

Метрики

Чтобы оценить, насколько эффективно языковые модели предсказывали популярность фильма, были использованы как ранжировочные, так и классификационные метрики, с особым вниманием к выявлению трех самых популярных названий.

Четыре метрики были применены: Точность@1 измеряла, как часто самый популярный элемент появлялся в первом положении; Обратный Ранг захватил, насколько высоко топ-элемент ранжировался в прогнозируемом списке, взяв обратную величину его позиции; Нормализованная Суммарная Выигранная Величина (NDCG@k) оценила, насколько хорошо все ранжирование соответствовало фактической популярности, с более высокими баллами, указывающими на лучшее соответствие; и Recall@3 измерял долю действительно популярных названий, которые появлялись в топ-3 прогнозов модели.

Поскольку большинство взаимодействий пользователя происходит возле верха ранжированных меню, оценка была сосредоточена на более низких значениях k, чтобы отразить практические случаи использования.

Улучшение производительности больших языковых моделей над BERT V4, измеренное в процентах прироста по метрикам ранжирования. Результаты были усреднены за десять запусков на каждую комбинацию модели-подсказки, с выделением двух лучших значений. Отчетные цифры отражают средний процентный прирост по всем метрикам.

Производительность модели Llama 3.1 (8B), 3.1 (405B) и 3.3 (70B) была оценена путем измерения метрических улучшений относительно ранее установленной базовой линии BERT V4. Каждая модель была протестирована, используя ряд подсказок, от минимальных до информативных, чтобы изучить эффект детализации входных данных на качество прогнозирования.

Авторы заявляют:

‘Лучшая производительность достигается при использовании Llama 3.1 (405B) с наиболее информативной подсказкой, за которой следует Llama 3.3 (70B). Основываясь на наблюдаемом тренде, когда используется сложная и длинная подсказка (MD V4), более сложная языковая модель обычно приводит к улучшению производительности по различным метрикам. Однако она чувствительна к типу добавляемой информации.’

Производительность улучшилась, когда были включены награды актеров в качестве части подсказки – в этом случае количество основных наград, полученных топ-5 актерами в каждом фильме. Эти более богатые метаданные были частью наиболее подробной конфигурации подсказки, превосходящей более простую версию, которая исключала признание актеров. Преимущество было наиболее очевидным в более крупных моделях, Llama 3.1 (405B) и 3.3 (70B), которые обе показали более сильную прогностическую точность, когда были даны этот дополнительный сигнал престижа и знакомства аудитории.

Напротив, самая маленькая модель, Llama 3.1 (8B), показала улучшение производительности, когда подсказки стали немного более подробными, переходя от жанра к синопсису, но ухудшение, когда были добавлены более поля, указывая на то, что модель не имела способности интегрировать сложные подсказки эффективно, что привело к более слабой обобщаемости.

Когда подсказки были ограничены жанром, все модели показали худшую производительность, чем базовая линия, демонстрируя, что ограниченные метаданные были недостаточными для поддержки осмысленных прогнозов.

Заключение

LLM стали флагманом генеративного ИИ, что может объяснить, почему они используются в областях, где другие методы могли бы быть более подходящими. Тем не менее, все еще есть многое, чего мы не знаем о том, что они могут делать в разных отраслях, поэтому имеет смысл дать им шанс.

В этом конкретном случае, как и на фондовых рынках и прогнозировании погоды, есть только ограниченная степень, в которой исторические данные могут служить основой для будущих прогнозов. В случае фильмов и телешоу сам способ доставки теперь движущейся целью, в отличие от периода между 1978-2011 годами, когда кабельное, спутниковое и портативное медиа (VHS, DVD и т. д.) представляли собой серию переходных или эволюционирующих исторических нарушений.

Ни один метод прогнозирования не может учесть степень, в которой успех или неудача других произведений может повлиять на жизнеспособность предложенного свойства – и все же это часто бывает в кино- и телевизионной индустрии, которая любит ездить на тренде.

Тем не менее, когда используются вдумчиво, LLM могут помочь укрепить системы рекомендаций во время фазы холодного старта, предлагая полезную поддержку по ряду прогностических методов.

Первоначально опубликовано во вторник, 6 мая 2025