Свяжитесь с нами:

Использование ИИ для прогнозирования блокбастеров

Угол Андерсона

Использование ИИ для прогнозирования блокбастеров

mm
ChatGPT-4o и Adobe Firefly

Хотя кино и телевидение часто рассматриваются как творческие и открытые отрасли, они долгое время были не склонны к риску. Высокие издержки производства (которые могут скоро потеряю компенсирующее преимущество более дешевых зарубежных площадок (по крайней мере, для проектов в США) и фрагментированная производственная среда затрудняют для независимых компаний поглощение значительных убытков.

Поэтому за последнее десятилетие отрасль стала проявлять все больший интерес к вопросу о том, может ли машинное обучение выявлять тенденции или закономерности в реакции аудитории на предлагаемые кино- и телепроекты.

Основными источниками данных остаются система Nielsen (которая обеспечивает масштаб, хотя её корни уходят в телевидение и рекламу) и выборочные методы, такие как фокус-группы, которые жертвуют масштабом ради курируемой демографической информации. К последней категории также относятся отзывы, полученные с помощью оценочных листов бесплатных предпросмотров фильмов, однако к этому моменту большая часть бюджета фильма уже израсходована.

Теория/теории «большого удара»

Первоначально системы МО использовали традиционные методы анализа, такие как линейная регрессия, K-Ближайшие соседи, Стохастический градиентный спуск, Древо решений и леса, и Нейронные сети, как правило, в различных сочетаниях, более близких по стилю к до-ИИ статистический анализ, например, Университет Центральной Флориды 2019 года инициатива по прогнозированию успешных телешоу на основе сочетания актеров и сценаристов (среди прочих факторов):

Исследование 2018 года оценивало эффективность эпизодов на основе комбинаций персонажей и/или сценаристов (большинство эпизодов были написаны более чем одним человеком). Источник: https://arxiv.org/pdf/1910.12589

Исследование 2018 года оценивало эффективность эпизодов на основе сочетания персонажей и/или сценаристов (большинство эпизодов были написаны более чем одним человеком). Источник: https://arxiv.org/pdf/1910.12589

Наиболее значимая связанная работа, по крайней мере та, которая применяется в реальной жизни (хотя часто критикуют) находится в области рекомендательные системы:

Типичный конвейер рекомендаций видео. Видео в каталоге индексируются с использованием функций, которые могут быть вручную аннотированы или автоматически извлечены. Рекомендации генерируются в два этапа: сначала выбираются видео-кандидаты, а затем они ранжируются в соответствии с профилем пользователя, выведенным из предпочтений просмотра. Источник: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Типичный конвейер рекомендаций видео. Видео в каталоге индексируются с использованием функций, которые могут быть вручную аннотированы или автоматически извлечены. Рекомендации генерируются в два этапа: сначала выбираются видео-кандидаты, а затем они ранжируются в соответствии с профилем пользователя, выведенным из предпочтений просмотра. Источник: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Однако такие подходы анализируют проекты, которые уже успешны. В случае с перспективными новыми шоу или фильмами неясно, какой тип истины будет наиболее применимым — не в последнюю очередь потому, что изменения в общественном вкусе в сочетании с улучшениями и дополнениями источников данных означают, что десятилетия последовательных данных обычно недоступны.

Это пример того, холодный запуск проблема, где рекомендательные системы должны оценивать кандидатов без каких-либо данных о предварительном взаимодействии. В таких случаях традиционные совместная фильтрация ломается, потому что он полагается на закономерности в поведении пользователя (например, просмотр, оценка или обмен) для генерации прогнозов. Проблема в том, что в случае большинства новых фильмов или шоу пока нет достаточного количества отзывов аудитории для поддержки этих методов.

Comcast предсказывает

В новой статье Comcast Technology AI, подготовленной совместно с Университетом Джорджа Вашингтона, предлагается решение этой проблемы путем создания языковой модели с структурированные метаданные о невыпущенных фильмах.

Входные данные включают в себя: бросить, жанре, конспект, рейтинг контента, настроение и , при этом модель возвращает ранжированный список вероятных будущих совпадений.

Авторы используют выходные данные модели в качестве индикатора интереса аудитории, когда данные о вовлеченности отсутствуют, надеясь избежать первоначальной предвзятости в пользу названий, которые уже хорошо известны.

Очень краткий (три страницы) статье, Под названием Прогнозирование кинохитов до их выхода с помощью LLM, исходит от шести исследователей из Comcast Technology AI и одного из GWU, и утверждает:

«Наши результаты показывают, что LLM при использовании метаданных фильмов могут значительно превзойти базовые показатели. Этот подход может служить вспомогательной системой для множественных вариантов использования, позволяя автоматически оценивать большие объемы нового контента, выпускаемого ежедневно и еженедельно».

«Предоставляя раннюю информацию до того, как редакционные группы или алгоритмы накопили достаточно данных о взаимодействии, LLM могут оптимизировать процесс рецензирования контента.

«Учитывая постоянное повышение эффективности LLM и рост числа рекомендательных агентов, выводы из этой работы представляют ценность и могут быть адаптированы к широкому спектру областей».

Если подход окажется надежным, он может снизить зависимость отрасли от ретроспективных метрик и активно продвигаемых названий, представив масштабируемый способ пометки многообещающего контента до его выпуска. Таким образом, вместо того, чтобы ждать, пока поведение пользователя покажет спрос, редакционные группы могли бы получать ранние прогнозы интереса аудитории на основе метаданных, потенциально перераспределяя охват на более широкий спектр новых релизов.

Метод и данные

Авторы описывают четырехэтапный рабочий процесс: создание специального набора данных из неизданные метаданные фильма; создание базовой модели для сравнения; оценка соответствующих LLM с использованием как рассуждений на естественном языке, так и прогнозирования на основе встраивания; и оптимизация выходных данных посредством оперативной инженерии в генеративном режиме с использованием Meta Llama 3.1 и 3.3 языковые модели.

Поскольку, как утверждают авторы, ни один общедоступный набор данных не предлагал прямого способа проверить их гипотезу (поскольку большинство существующих коллекций были созданы до получения степени магистра права и не имеют подробных метаданных), они создали контрольный набор данных на основе развлекательного контента Comcast. Платформа, который обслуживает десятки миллионов пользователей через прямые и сторонние интерфейсы.

Набор данных отслеживает недавно вышедшие фильмы и то, стали ли они впоследствии популярными, причем популярность определяется на основе взаимодействия с пользователями.

Сборник посвящен фильмам, а не сериалам, и авторы утверждают:

«Мы сосредоточились на фильмах, поскольку они меньше подвержены влиянию внешних знаний, чем сериалы, что повышает надежность экспериментов».

Метки присваивались путем анализа времени, которое потребовалось названию, чтобы стать популярным в разных временных окнах и размерах списков. LLM был предложен с полями метаданных, такими как жанре, конспект, рейтинг, эпоха, бросить, экипаж, настроение, и типы символов.

Для сравнения авторы использовали две базовые модели: случайное упорядочение и модель популярного встраивания (PE) (к которой мы вскоре перейдем).

В проекте в качестве основного метода ранжирования использовались большие языковые модели, которые генерировали упорядоченные списки фильмов с прогнозируемыми оценками популярности и соответствующими обоснованиями. Эти результаты формировались с помощью оперативных инженерных стратегий, разработанных для управления прогнозами модели с использованием структурированных метаданных.

Стратегия подсказок представляла модель как «редакторского помощника», которому было поручено определить, какие из предстоящих фильмов с наибольшей вероятностью станут популярными, основываясь исключительно на структурированных метаданных, а затем ему было поручено изменить порядок фиксированного списка названий. без введение новых элементов и возврат вывода в JSON формат.

Каждый ответ состоял из ранжированного списка, присвоенных оценок популярности, обоснований рейтингов и ссылок на любые предыдущие примеры, которые повлияли на результат. Эти множественные уровни метаданных были предназначены для улучшения контекстного понимания модели и ее способности предвидеть будущие тенденции аудитории.

Tests

Эксперимент состоял из двух основных этапов: изначально авторы протестировали несколько вариантов модели, чтобы установить базовый уровень, включая идентификацию версии, которая показала лучшие результаты, чем подход со случайным упорядочением.

Во-вторых, они протестировали большие языковые модели в генеративный режим, сравнивая свои результаты с более сильным базовым уровнем, а не со случайным рейтингом, что повышает сложность задачи.

Это означало, что модели должны были работать лучше, чем система, которая уже продемонстрировала некоторую способность предсказывать, какие фильмы станут популярными. В результате, утверждают авторы, оценка лучше отражала реальные условия, где редакционные команды и рекомендательные системы редко выбирают между моделью и шансом, а между конкурирующими системами с различными уровнями предсказательной способности.

Преимущество невежества

Ключевым ограничением в этой настройке был временной разрыв между моделями отсечка знаний и фактические даты выхода фильмов. Поскольку языковые модели обучались на данных, которые заканчивались за шесть-двенадцать месяцев до того, как фильмы стали доступны, у них не было доступа к информации после выхода, что гарантировало, что прогнозы основывались исключительно на метаданных, а не на какой-либо изученной реакции аудитории.

Базовая оценка

Для построения базовой линии авторы сгенерировали семантические представления метаданных фильмов, используя три модели внедрения: БЕРТ V4; Linq-Embed-Mistral 7B; и Llama 3.3 70B, квантованная до 8-битной точности для соответствия ограничениям экспериментальной среды.

Linq-Embed-Mistral был выбран для включения из-за его лидирующей позиции в MTEB (Massive Text Embedding Benchmark) лидеров.

Каждая произведенная модель векторные вложения фильмов-кандидатов, которые затем сравнивались со средним показателем ста самых популярных названий за несколько недель, предшествовавших выпуску каждого фильма.

Популярность была выведена с использованием косинусное подобие между этими вложениями, с более высокими оценками сходства, указывающими на более высокую прогнозируемую привлекательность. Точность ранжирования каждой модели оценивалась путем измерения производительности по сравнению со случайным упорядочением базовой линии.

улучшение производительности моделей Popular Embedding по сравнению со случайной базовой линией. Каждая модель была протестирована с использованием четырех конфигураций метаданных: V1 включает только жанр; V2 включает только синопсис; V3 объединяет жанр, синопсис, рейтинг контента, типы персонажей, настроение и эпоху выпуска; V4 добавляет актерский состав, съемочную группу и награды в конфигурацию V3. Результаты показывают, как более богатые входные метаданные влияют на точность ранжирования.. Источник: https://arxiv.org/pdf/2505.02693

Повышение производительности моделей Popular Embedding по сравнению со случайной базовой линией. Каждая модель была протестирована с использованием четырех конфигураций метаданных: V1 включает только жанр; V2 включает только синопсис; V3 объединяет жанр, синопсис, рейтинг контента, типы персонажей, настроение и эпоху выпуска; V4 добавляет актерский состав, съемочную группу и награды в конфигурацию V3. Результаты показывают, как более богатые входные метаданные влияют на точность ранжирования. Источник: https://arxiv.org/pdf/2505.02693

Результаты (приведенные выше) показывают, что BERT V4 и Linq-Embed-Mistral 7B продемонстрировали самые значительные улучшения в определении трех самых популярных названий, хотя оба немного не смогли предсказать один самый популярный элемент.

В конечном итоге в качестве базовой модели для сравнения с моделями LLM была выбрана модель BERT, поскольку ее эффективность и общие преимущества перевешивают ее ограничения.

Оценка LLM

Исследователи оценивали эффективность, используя два подхода к ранжированию: попарно и по списку. Попарное ранжирование оценивает, правильно ли модель упорядочивает один элемент относительно другого; а списочное ранжирование учитывает точность всего упорядоченного списка кандидатов.

Такое сочетание позволило оценить не только правильность ранжирования отдельных пар фильмов (локальная точность), но и то, насколько хорошо полный список кандидатов отражает истинный порядок популярности (глобальная точность).

Полный, неквантованный Для предотвращения потери производительности использовались модели, обеспечивающие последовательное и воспроизводимое сравнение между прогнозами на основе LLM и базовыми показателями на основе встраивания.

Метрика

Чтобы оценить, насколько эффективно языковые модели предсказывают популярность фильмов, использовались как рейтинговые, так и классификационные метрики, при этом особое внимание уделялось выявлению трех самых популярных названий.

Применялись четыре показателя: Точность@1 измерялось, как часто самый популярный элемент появлялся на первой позиции; Взаимный ранг фиксируется, насколько высоко фактический верхний элемент ранжируется в прогнозируемом списке, путем вычисления обратной величины его позиции; Нормализованная дисконтированная совокупная прибыль (NDCG@k) оценивал, насколько хорошо весь рейтинг соответствует фактической популярности, при этом более высокие баллы указывают на лучшее соответствие; а Recall@3 измерял долю действительно популярных названий, которые появлялись в трех лучших прогнозах модели.

Поскольку большая часть взаимодействия с пользователем происходит в верхней части ранжированных меню, оценка была сосредоточена на более низких значениях k, чтобы отразить практические варианты использования.

Улучшение производительности больших языковых моделей по сравнению с BERT V4, измеренное как процентный прирост по всем метрикам ранжирования. Результаты усредняются по десяти запускам для каждой комбинации модель-подсказка, с выделенными двумя верхними значениями. Сообщенные цифры отражают среднее процентное улучшение по всем метрикам.

Улучшение производительности больших языковых моделей по сравнению с BERT V4, измеренное как процентный прирост по всем метрикам ранжирования. Результаты были усреднены по десяти запускам для каждой комбинации модель-подсказка, с выделенными двумя верхними значениями. Сообщенные цифры отражают среднее процентное улучшение по всем метрикам.

Производительность моделей Llama 3.1 (8B), 3.1 (405B) и 3.3 (70B) оценивалась путем измерения улучшений метрик относительно ранее установленного базового уровня BERT V4. Каждая модель тестировалась с использованием серии подсказок, от минимальных до информационно насыщенных, для изучения влияния входных данных на качество прогнозирования.

Авторы заявляют:

«Наилучшие результаты достигаются при использовании Llama 3.1 (405 Б) с наиболее информативной подсказкой, за ней следует Llama 3.3 (70 Б). Согласно наблюдаемой тенденции, при использовании сложной и длинной подсказки (MD V4) более сложная языковая модель, как правило, приводит к повышению производительности по различным показателям. Однако она чувствительна к типу добавляемой информации».

Производительность улучшилась, когда награды актеров были включены в качестве части подсказки — в этом случае количество крупных наград, полученных пятью лучшими актерами в каждом фильме. Эти более богатые метаданные были частью самой подробной конфигурации подсказки, превзойдя более простую версию, которая исключала узнаваемость актеров. Преимущество было наиболее очевидным в более крупных моделях, Llama 3.1 (405B) и 3.3 (70B), обе из которых показали более высокую точность прогнозирования при наличии этого дополнительного сигнала престижа и знакомства аудитории.

Напротив, самая маленькая модель, Llama 3.1 (8B), продемонстрировала улучшение производительности, поскольку подсказки стали немного более подробными, переходя от жанра к синопсису, но ухудшилась, когда было добавлено больше полей, что говорит о том, что модель не способна эффективно интегрировать сложные подсказки, что приводит к более слабому обобщению.

Когда подсказки ограничивались только жанром, ВСЕ модели показали худшие результаты по сравнению с базовым уровнем, показав, что ограниченных метаданных недостаточно для поддержки значимых прогнозов.

Заключение

LLM стали олицетворением генеративного ИИ, что может объяснить, почему их используют в областях, где другие методы могли бы подойти лучше. Тем не менее, мы все еще многого не знаем о том, что они могут делать в разных отраслях, поэтому имеет смысл дать им шанс.

В этом конкретном случае, как и в случае с фондовыми рынками и прогнозированием погоды, исторические данные могут служить основой для будущих прогнозов лишь в ограниченной степени. В случае с фильмами и телешоу, само способ доставки Сейчас движущаяся цель, в отличие от периода 1978-2011 гг., когда кабельное, спутниковое и портативное вещание (VHS, DVD и т. д.) представляло собой серию временных или развивающихся исторических потрясений.

Ни один метод прогнозирования не может также объяснить, в какой степени успех или неудача другими производство может повлиять на жизнеспособность предлагаемой собственности — и тем не менее, это часто случается в кино- и телеиндустрии, которая любит следовать трендам.

Тем не менее, при разумном использовании степень магистра права может помочь укрепить рекомендательные системы на этапе холодного старта, предлагая полезную поддержку в ряде методов прогнозирования.

 

Впервые опубликовано Вторник, 6 мая 2025 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai