Connect with us

Ángulo de Anderson

Utilizando IA para predecir una película taquillera

mm
ChatGPT-4o and Adobe Firefly

Aunque la industria del cine y la televisión a menudo se considera creativa y abierta, ha sido durante mucho tiempo una industria que evita el riesgo. Los altos costos de producción (que pueden perder la ventaja de los lugares más baratos en el extranjero, al menos para los proyectos de EE. UU.) y un paisaje de producción fragmentado hacen que sea difícil para las empresas independientes absorber una pérdida significativa.

Por lo tanto, en la última década, la industria ha mostrado un creciente interés en si el aprendizaje automático puede detectar tendencias o patrones en la forma en que el público responde a los proyectos de cine y televisión propuestos.

Las principales fuentes de datos siguen siendo el sistema Nielsen (que ofrece escala, aunque sus raíces están en la televisión y la publicidad) y métodos basados en muestras como los grupos focales, que intercambian escala por demografía curada. Esta última categoría también incluye comentarios de tarjetas de puntuación de preestrenos de películas gratuitas, sin embargo, en ese punto, la mayoría del presupuesto de la producción ya se ha gastado.

La teoría del ‘Gran Éxito’/Teorías

Inicialmente, los sistemas de ML utilizaron métodos de análisis tradicionales como regresión lineal, K-Nearest Neighbors, Stochastic Gradient Descent, Decision Tree y Bosques, y Neural Networks, generalmente en varias combinaciones más cercanas en estilo al análisis estadístico pre-AI, como una iniciativa de 2019 de la Universidad de Florida Central para predecir programas de televisión exitosos basados en combinaciones de actores y escritores (entre otros factores):

Un estudio de 2018 calificó el rendimiento de los episodios según combinaciones de personajes y/o escritor (la mayoría de los episodios fueron escritos por más de una persona). Fuente: https://arxiv.org/pdf/1910.12589

Un estudio de 2018 calificó el rendimiento de los episodios según combinaciones de personajes y/o escritor (la mayoría de los episodios fueron escritos por más de una persona). Fuente: https://arxiv.org/pdf/1910.12589

El trabajo relacionado más relevante, al menos el que se despliega en la naturaleza (aunque a menudo criticado), está en el campo de los sistemas de recomendación:

Un canal de recomendación de video típico. Los videos en el catálogo se indexan utilizando características que pueden estar anotadas manualmente o extraídas automáticamente. Las recomendaciones se generan en dos etapas, seleccionando primero los videos candidatos y luego clasificándolos según un perfil de usuario inferido a partir de las preferencias de visualización. Fuente: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Un canal de recomendación de video típico. Los videos en el catálogo se indexan utilizando características que pueden estar anotadas manualmente o extraídas automáticamente. Las recomendaciones se generan en dos etapas, seleccionando primero los videos candidatos y luego clasificándolos según un perfil de usuario inferido a partir de las preferencias de visualización. Fuente: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Sin embargo, estos enfoques analizan proyectos que ya son exitosos. En el caso de nuevos programas o películas, no está claro qué tipo de verdad fundamental sería más aplicable, no menos porque los cambios en el gusto del público, combinados con mejoras y aumentos de las fuentes de datos, significan que normalmente no hay datos consistentes durante décadas.

Esto es un ejemplo del problema de inicio en frío, donde los sistemas de recomendación deben evaluar a los candidatos sin datos de interacción previos. En tales casos, el filtrado colaborativo tradicional se rompe, porque depende de patrones en el comportamiento del usuario (como ver, calificar o compartir) para generar predicciones. El problema es que en el caso de la mayoría de las nuevas películas o programas, no hay suficiente retroalimentación de la audiencia para respaldar estos métodos.

Comcast Predice

Un nuevo artículo de Comcast Technology AI, en asociación con la Universidad George Washington, propone una solución a este problema al hacer que un modelo de lenguaje sea promovido con metadatos estructurados sobre películas no estrenadas.

Las entradas incluyen elenco, género, sinopsis, calificación de contenido, estado de ánimo y premios, con el modelo que devuelve una lista clasificada de posibles éxitos futuros.

Los autores utilizan la salida del modelo como un sustituto del interés de la audiencia cuando no hay datos de participación disponibles, con la esperanza de evitar sesgos tempranos hacia títulos que ya son bien conocidos.

El artículo muy corto (de tres páginas) artículo, titulado Prediciendo éxitos de películas antes de que sucedan con LLM, proviene de seis investigadores de Comcast Technology AI y uno de GWU, y establece:

‘Nuestros resultados muestran que los LLM, cuando utilizan metadatos de películas, pueden superar significativamente las líneas de base. Este enfoque podría servir como un sistema asistido para múltiples casos de uso, permitiendo la puntuación automática de grandes volúmenes de nuevo contenido lanzado diariamente y semanalmente.

‘Al proporcionar información temprana antes de que los equipos editoriales o algoritmos hayan acumulado suficientes datos de interacción, los LLM pueden agilizar el proceso de revisión de contenido.

‘Con mejoras continuas en la eficiencia de los LLM y el surgimiento de agentes de recomendación, las ideas de este trabajo son valiosas y adaptables a una amplia gama de dominios.’

Si el enfoque resulta robusto, podría reducir la dependencia de la industria de las métricas retrospectivas y los títulos muy promocionados, introduciendo una forma escalable de señalarizar contenido prometedor antes de su lanzamiento. Así, en lugar de esperar a que el comportamiento del usuario señale la demanda, los equipos editoriales podrían recibir pronósticos tempranos y basados en metadatos del interés de la audiencia, redistribuyendo potencialmente la exposición en una gama más amplia de nuevos lanzamientos.

Método y datos

Los autores describen un flujo de trabajo de cuatro etapas: la construcción de un conjunto de datos dedicado a partir de metadatos de películas no estrenadas; el establecimiento de un modelo de línea de base para la comparación; la evaluación de LLM adecuados utilizando razonamiento de lenguaje natural y predicción basada en incrustación; y la optimización de las salidas a través de la ingeniería de promoción en modo generativo, utilizando Llama 3.1 y 3.3 modelos de lenguaje.

Dado que, según los autores, no había un conjunto de datos disponible públicamente que ofreciera una forma directa de probar su hipótesis (porque la mayoría de las colecciones existentes preceden a los LLM y carecen de metadatos detallados), construyeron un conjunto de datos de referencia a partir de la plataforma de entretenimiento de Comcast, que sirve a decenas de millones de usuarios en interfaces directas y de terceros.

El conjunto de datos sigue las películas recién estrenadas y si más tarde se convirtieron en populares, con popularidad definida a través de interacciones de los usuarios.

La colección se centra en películas en lugar de series, y los autores establecen:

‘Nos centramos en películas porque están menos influenciadas por conocimientos externos que las series de televisión, lo que mejora la confiabilidad de los experimentos.’

Las etiquetas se asignaron analizando el tiempo que tardó una película en volverse popular en diferentes ventanas de tiempo y tamaños de lista. El LLM se promovió con campos de metadatos como género, sinopsis, calificación, era, elenco, equipo, estado de ánimo, premios y tipos de personajes.

Para la comparación, los autores utilizaron dos líneas de base: un orden aleatorio; y un modelo de incrustación popular (PE) (que pronto abordaremos).

El proyecto utilizó modelos de lenguaje grande como el método de clasificación principal, generando listas ordenadas de películas con puntuaciones de popularidad predichas y justificaciones acompañantes, y estas salidas fueron moldeadas por estrategias de ingeniería de promoción diseñadas para guiar las predicciones del modelo utilizando metadatos estructurados.

La estrategia de promoción enmarcó el modelo como un ‘asistente editorial’ asignado para identificar qué películas próximas eran más propensas a volverse populares, basándose únicamente en metadatos estructurados, y luego encargado de reordenar una lista fija de títulos sin introducir nuevos artículos, y devolver la salida en formato JSON.

Cada respuesta consistió en una lista clasificada, puntuaciones de popularidad asignadas, justificaciones para las clasificaciones y referencias a cualquier ejemplo previo que influyó en el resultado. Estos múltiples niveles de metadatos estaban destinados a mejorar la comprensión contextual del modelo y su capacidad para anticipar tendencias futuras de la audiencia.

Pruebas

El experimento siguió dos etapas principales: inicialmente, los autores probaron varias variantes del modelo para establecer una línea de base, que implicaba la identificación de la versión que se desempeñó mejor que un enfoque de orden aleatorio.

En segundo lugar, probaron modelos de lenguaje grande en modo generativo, comparando su salida con una línea de base más fuerte, en lugar de una clasificación aleatoria, lo que aumentó la dificultad de la tarea.

Esto significó que los modelos tuvieron que hacerlo mejor que un sistema que ya mostraba cierta capacidad para predecir qué películas se convertirían en populares. Como resultado, los autores afirman que la evaluación reflejó mejor las condiciones del mundo real, donde los equipos editoriales y los sistemas de recomendación rara vez eligen entre un modelo y la casualidad, sino entre sistemas competidores con diferentes niveles de capacidad predictiva.

La ventaja de la ignorancia

Una restricción clave en este entorno fue la brecha de tiempo entre el corte de conocimiento de los modelos y las fechas de lanzamiento reales de las películas. Debido a que los modelos de lenguaje se entrenaron en datos que terminaron de seis a doce meses antes de que las películas estuvieran disponibles, no tenían acceso a información posterior al lanzamiento, asegurando que las predicciones se basaban enteramente en metadatos y no en ninguna respuesta de la audiencia aprendida.

Evaluación de la línea de base

Para construir una línea de base, los autores generaron representaciones semánticas de metadatos de películas utilizando tres modelos de incrustación: BERT V4; Linq-Embed-Mistral 7B; y Llama 3.3 70B, cuantizado a precisión de 8 bits para cumplir con las restricciones del entorno experimental.

Linq-Embed-Mistral se seleccionó para su inclusión debido a su posición superior en la clasificación MTEB (Benchmark de incrustación de texto masivo).

Cada modelo produjo incrustaciones de vector de películas candidatas, que luego se compararon con la incrustación promedio de los cien títulos más populares de las semanas precedentes a cada lanzamiento de película.

La popularidad se infirió utilizando similitud coseno entre estas incrustaciones, con puntuaciones de similitud más altas que indican un atractivo predicho más alto. La precisión de clasificación de cada modelo se evaluó midiendo el rendimiento contra una clasificación aleatoria de línea de base.

Mejora del rendimiento de los modelos de incrustación popular en comparación con una línea de base aleatoria. Cada modelo se probó utilizando cuatro configuraciones de metadatos: V1 incluye solo género; V2 incluye solo sinopsis; V3 combina género, sinopsis, calificación de contenido, tipos de personajes, estado de ánimo y era de lanzamiento; V4 agrega elenco, equipo y premios a la configuración V3. Los resultados muestran cómo los metadatos de entrada más ricos afectan la precisión de clasificación.

Mejora del rendimiento de los modelos de incrustación popular en comparación con una línea de base aleatoria. Cada modelo se probó utilizando cuatro configuraciones de metadatos: V1 incluye solo género; V2 incluye solo sinopsis; V3 combina género, sinopsis, calificación de contenido, tipos de personajes, estado de ánimo y era de lanzamiento; V4 agrega elenco, equipo y premios a la configuración V3. Los resultados muestran cómo los metadatos de entrada más ricos afectan la precisión de clasificación. Fuente: https://arxiv.org/pdf/2505.02693

Los resultados (que se muestran arriba) demuestran que BERT V4 y Linq-Embed-Mistral 7B entregaron las mejoras más fuertes en la identificación de los tres títulos más populares, aunque ambos cayeron ligeramente por debajo en la predicción del artículo más popular.

BERT fue seleccionado finalmente como el modelo de línea de base para la comparación con los LLM, ya que su eficiencia y ganancias generales superaron sus limitaciones.

Evaluación de LLM

Los investigadores evaluaron el rendimiento utilizando dos enfoques de clasificación: pareada y de lista. La clasificación pareada evalúa si el modelo ordena correctamente un artículo relativo a otro; y la clasificación de lista considera la precisión de la lista completa de candidatos ordenados.

Esta combinación hizo posible evaluar no solo si los pares de películas individuales estaban clasificados correctamente (precisión local), sino también cómo bien la lista completa de candidatos reflejaba el orden de popularidad real (precisión global).

Se emplearon modelos completos, no cuantificados, para prevenir la pérdida de rendimiento, asegurando una comparación consistente y reproducible entre las predicciones basadas en LLM y las líneas de base basadas en incrustaciones.

Métricas

Para evaluar cuán efectivamente los modelos de lenguaje predijeron la popularidad de las películas, se utilizaron métricas basadas en clasificación y en ranking, con atención particular a la identificación de los tres títulos más populares.

Se aplicaron cuatro métricas: Precisión@1 midió con qué frecuencia el artículo más popular apareció en la primera posición; Ranking Recíproco capturó cuán alto estaba el artículo superior real en la lista predicha al tomar el inverso de su posición; Ganancia Acumulativa Descendente Normalizada (NDCG@k) evaluó cuán bien la clasificación completa coincidía con la popularidad real, con puntuaciones más altas que indican una mejor alineación; y Recall@3 midió la proporción de títulos verdaderamente populares que aparecieron en las tres primeras predicciones del modelo.

Dado que la mayoría de la participación del usuario ocurre cerca de la parte superior de los menús clasificados, la evaluación se centró en valores más bajos de k, para reflejar casos de uso prácticos.

Mejora del rendimiento de los modelos de lenguaje grande sobre BERT V4, medido como ganancias porcentuales en métricas de clasificación. Los resultados se promediaron durante diez ejecuciones por combinación de modelo-promoción, con los dos valores superiores resaltados. Las cifras informadas reflejan la mejora porcentual promedio en todas las métricas.

Mejora del rendimiento de los modelos de lenguaje grande sobre BERT V4, medido como ganancias porcentuales en métricas de clasificación. Los resultados se promediaron durante diez ejecuciones por combinación de modelo-promoción, con los dos valores superiores resaltados. Las cifras informadas reflejan la mejora porcentual promedio en todas las métricas.

El rendimiento del modelo Llama 3.1 (8B), 3.1 (405B) y 3.3 (70B) se evaluó midiendo las mejoras de las métricas en relación con la línea de base BERT V4 establecida anteriormente. Cada modelo se probó utilizando una serie de promociones, que van desde la mínima hasta la información rica, para examinar el efecto del detalle de entrada en la calidad de la predicción.

Los autores establecen:

‘El mejor rendimiento se logra cuando se utiliza Llama 3.1 (405B) con la promoción más informativa, seguido de Llama 3.3 (70B). Basado en la tendencia observada, cuando se utiliza una promoción compleja y larga (MD V4), un modelo de lenguaje más complejo generalmente conduce a un mejor rendimiento en varias métricas. Sin embargo, es sensible al tipo de información agregada.’

La mejora del rendimiento se produjo cuando se incluyeron premios del elenco como parte de la promoción, en este caso, el número de premios importantes recibidos por los cinco actores principales de cada película. Este metadato más rico fue parte de la configuración de promoción más detallada, superando a una versión más simple que excluyó el reconocimiento del elenco. El beneficio fue más evidente en los modelos más grandes, Llama 3.1 (405B) y 3.3 (70B), ambos de los cuales mostraron una precisión predictiva más fuerte cuando se les dio esta señal de prestigio y familiaridad de la audiencia.

Por el contrario, el modelo más pequeño, Llama 3.1 (8B), mostró un mejor rendimiento a medida que las promociones se volvieron ligeramente más detalladas, progresando de género a sinopsis, pero disminuyó cuando se agregaron más campos, lo que sugiere que el modelo carecía de la capacidad para integrar promociones complejas de manera efectiva, lo que llevó a una generalización más débil.

Cuando las promociones se limitaron al género solo, todos los modelos se desempeñaron peor que la línea de base, demostrando que los metadatos limitados eran insuficientes para respaldar predicciones significativas.

Conclusión

Los LLM se han convertido en el niño prodigio de la IA generativa, lo que podría explicar por qué se les pone a trabajar en áreas donde otros métodos podrían ser una mejor opción. Aun así, todavía hay mucho que no sabemos sobre lo que pueden hacer en diferentes industrias, por lo que tiene sentido darles una oportunidad.

En este caso particular, al igual que con los mercados de valores y la predicción del clima, solo hay una medida limitada en la que los datos históricos pueden servir como base para predicciones futuras. En el caso de las películas y los programas de televisión, el método de entrega ahora es un objetivo en movimiento, en contraste con el período entre 1978-2011, cuando el cable, el satélite y los medios portátiles (VHS, DVD, etc.) representaron una serie de interrupciones históricas transitorias o en evolución.

Tampoco puede ningún método de predicción tener en cuenta la medida en que el éxito o el fracaso de otras producciones puede influir en la viabilidad de una propiedad propuesta, y sin embargo, esto es frecuentemente el caso en la industria del cine y la televisión, que ama montar una tendencia.

Sin embargo, cuando se utilizan de manera reflexiva, los LLM podrían ayudar a fortalecer los sistemas de recomendación durante la fase de inicio en frío, ofreciendo un apoyo útil en una gama de métodos predictivos.

 

Publicado por primera vez el martes 6 de mayo de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.