Entre em contato

Usando IA para prever um filme de sucesso

Ângulo de Anderson

Usando IA para prever um filme de sucesso

mm
ChatGPT-4o e Adobe Firefly

Embora o cinema e a televisão sejam frequentemente vistos como indústrias criativas e abertas, há muito tempo são avessos ao risco. Os altos custos de produção (que podem perder em breve a vantagem compensatória de locais mais baratos no exterior, pelo menos para projetos nos EUA) e um cenário de produção fragmentado tornam difícil para empresas independentes absorverem uma perda significativa.

Portanto, na última década, o setor tem demonstrado um interesse crescente em saber se o aprendizado de máquina pode detectar tendências ou padrões na forma como o público responde a projetos de cinema e televisão propostos.

As principais fontes de dados continuam sendo o sistema Nielsen (que oferece escala, embora suas raízes estejam na TV e na publicidade) e métodos baseados em amostra, como grupos focais, que trocam escala por dados demográficos selecionados. Esta última categoria também inclui o feedback do scorecard de prévias gratuitas de filmes – no entanto, a essa altura, a maior parte do orçamento de uma produção já foi gasta.

A teoria/teorias do "Big Hit"

Inicialmente, os sistemas de ML alavancaram métodos de análise tradicionais, como regressão linear, Vizinhos mais próximos, Descida gradiente estocástico, Árvore de decisão e Florestas, e Redes neurais, geralmente em várias combinações mais próximas em estilo ao pré-IA análise estatística, como a Universidade da Flórida Central de 2019 iniciativa para prever programas de TV de sucesso com base em combinações de atores e escritores (entre outros fatores):

Um estudo de 2018 avaliou o desempenho dos episódios com base em combinações de personagens e/ou roteiristas (a maioria dos episódios foi escrita por mais de uma pessoa). Fonte: https://arxiv.org/pdf/1910.12589

Um estudo de 2018 classificou o desempenho dos episódios com base em combinações de personagens e/ou roteiristas (a maioria dos episódios foi escrita por mais de uma pessoa). Fonte: https://arxiv.org/pdf/1910.12589

O trabalho relacionado mais relevante, pelo menos aquele que é implantado na natureza (embora frequentemente criticado) está no campo de sistemas de recomendação:

Um pipeline típico de recomendação de vídeos. Os vídeos no catálogo são indexados usando recursos que podem ser anotados manualmente ou extraídos automaticamente. As recomendações são geradas em duas etapas: primeiro, selecionando os vídeos candidatos e, em seguida, classificando-os de acordo com um perfil de usuário inferido a partir das preferências de visualização. Fonte: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Um pipeline típico de recomendação de vídeos. Os vídeos no catálogo são indexados usando recursos que podem ser anotados manualmente ou extraídos automaticamente. As recomendações são geradas em duas etapas: primeiro, selecionando os vídeos candidatos e, em seguida, classificando-os de acordo com um perfil de usuário inferido a partir das preferências de visualização. Fonte: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

No entanto, esses tipos de abordagens analisam projetos que já são bem-sucedidos. No caso de novos programas ou filmes em potencial, não está claro qual tipo de verdade básica seria mais aplicável – principalmente porque mudanças no gosto do público, combinadas com melhorias e ampliações nas fontes de dados, significam que décadas de dados consistentes geralmente não estão disponíveis.

Este é um exemplo do começo frio problema, onde os sistemas de recomendação devem avaliar os candidatos sem quaisquer dados de interação prévia. Nesses casos, os sistemas tradicionais filtragem colaborativa falha, pois depende de padrões de comportamento do usuário (como visualização, classificação ou compartilhamento) para gerar previsões. O problema é que, no caso da maioria dos novos filmes ou programas, ainda não há feedback suficiente do público para sustentar esses métodos.

Comcast prevê

Um novo artigo da Comcast Technology AI, em associação com a George Washington University, propõe uma solução para este problema, solicitando um modelo de linguagem com metadados estruturados sobre filmes inéditos.

As entradas incluem casto, genre, sinopse, Classificação do Conteúdo, humor e prêmios, com o modelo retornando uma lista classificada de prováveis ​​sucessos futuros.

Os autores usam a saída do modelo como um substituto para o interesse do público quando não há dados de engajamento disponíveis, na esperança de evitar um viés inicial em direção a títulos que já são bem conhecidos.

O muito curto (três páginas) papel, Com o título Prevendo sucessos de cinema antes que aconteçam com LLMs, vem de seis pesquisadores da Comcast Technology AI e um da GWU, e afirma:

Nossos resultados mostram que os LLMs, ao utilizar metadados de filmes, podem superar significativamente as linhas de base. Essa abordagem pode servir como um sistema assistido para múltiplos casos de uso, permitindo a pontuação automática de grandes volumes de novos conteúdos lançados diariamente e semanalmente.

'Ao fornecer insights antecipados antes que as equipes editoriais ou algoritmos acumulem dados de interação suficientes, os LLMs podem otimizar o processo de revisão de conteúdo.

'Com melhorias contínuas na eficiência do LLM e o aumento de agentes de recomendação, os insights deste trabalho são valiosos e adaptáveis ​​a uma ampla gama de domínios.'

Se a abordagem se mostrar robusta, poderá reduzir a dependência da indústria em métricas retrospectivas e títulos altamente promovidos, introduzindo uma maneira escalável de sinalizar conteúdo promissor antes do lançamento. Assim, em vez de esperar que o comportamento do usuário sinalize demanda, as equipes editoriais poderiam receber previsões antecipadas, baseadas em metadados, do interesse do público, potencialmente redistribuindo a exposição entre uma gama mais ampla de novos lançamentos.

Método e dados

Os autores descrevem um fluxo de trabalho de quatro etapas: construção de um conjunto de dados dedicado a partir de inédito metadados do filme; o estabelecimento de um modelo de base para comparação; a avaliação de LLMs apropriados usando raciocínio de linguagem natural e previsão baseada em incorporação; e a otimização de saídas por meio de engenharia rápida em modo generativo, usando Meta's lhama 3.1 e 3.3 modelos de linguagem.

Como, afirmam os autores, nenhum conjunto de dados disponível publicamente oferecia uma maneira direta de testar sua hipótese (porque a maioria das coleções existentes são anteriores aos LLMs e não possuem metadados detalhados), eles construíram um conjunto de dados de referência a partir do Comcast Entertainment plataforma, que atende dezenas de milhões de usuários por meio de interfaces diretas e de terceiros.

O conjunto de dados rastreia filmes recém-lançados e verifica se eles se tornaram populares posteriormente, com a popularidade definida por meio de interações do usuário.

A coleção se concentra em filmes e não em séries, e os autores afirmam:

'Nós nos concentramos em filmes porque eles são menos influenciados pelo conhecimento externo do que séries de TV, melhorando a confiabilidade dos experimentos.'

Os rótulos foram atribuídos analisando o tempo que um título levou para se tornar popular em diferentes janelas de tempo e tamanhos de lista. O LLM foi ativado com campos de metadados, como genre, sinopse, classificação, era, casto, tripulação, humor, prêmios e tipos de caracteres.

Para comparação, os autores usaram duas linhas de base: uma ordenação aleatória; e um modelo de incorporação popular (PE) (que abordaremos em breve).

O projeto usou grandes modelos de linguagem como método de classificação principal, gerando listas ordenadas de filmes com pontuações de popularidade previstas e justificativas correspondentes – e essas saídas foram moldadas por estratégias de engenharia rápida projetadas para orientar as previsões do modelo usando metadados estruturados.

A estratégia de incentivo enquadrou o modelo como um "assistente editorial" designado para identificar quais filmes futuros teriam maior probabilidade de se tornarem populares, com base apenas em metadados estruturados, e depois encarregado de reordenar uma lista fixa de títulos sem introduzindo novos itens e retornando a saída em JSON formato.

Cada resposta consistia em uma lista classificada, pontuações de popularidade atribuídas, justificativas para as classificações e referências a quaisquer exemplos anteriores que influenciassem o resultado. Esses múltiplos níveis de metadados visavam aprimorar a compreensão contextual do modelo e sua capacidade de antecipar tendências futuras do público.

Testes

O experimento seguiu duas etapas principais: inicialmente, os autores testaram diversas variantes do modelo para estabelecer uma linha de base, envolvendo a identificação da versão que teve melhor desempenho do que uma abordagem de ordenação aleatória.

Em segundo lugar, eles testaram grandes modelos de linguagem em modo generativo, comparando sua produção a uma linha de base mais forte, em vez de uma classificação aleatória, aumentando a dificuldade da tarefa.

Isso significava que os modelos precisavam ter um desempenho melhor do que um sistema que já demonstrasse alguma capacidade de prever quais filmes se tornariam populares. Como resultado, afirmam os autores, a avaliação refletiu melhor as condições do mundo real, onde equipes editoriais e sistemas de recomendação raramente escolhem entre um modelo e o acaso, mas entre sistemas concorrentes com diferentes níveis de capacidade preditiva.

A vantagem da ignorância

Uma restrição fundamental nesta configuração foi o intervalo de tempo entre os modelos limite de conhecimento e as datas reais de lançamento dos filmes. Como os modelos de linguagem foram treinados com dados que se encerravam de seis a doze meses antes do lançamento dos filmes, eles não tinham acesso a informações pós-lançamento, garantindo que as previsões fossem baseadas inteiramente em metadados, e não em qualquer resposta aprendida do público.

Avaliação de linha de base

Para construir uma linha de base, os autores geraram representações semânticas de metadados de filmes usando três modelos de incorporação: BERT V4; Linq-Embed-Mistral 7B; e Llama 3.3 70B, quantizado com precisão de 8 bits para atender às restrições do ambiente experimental.

Linq-Embed-Mistral foi selecionado para inclusão devido à sua posição de destaque no MTEB (Massive Text Embedding Benchmark) leaderboard.

Cada modelo produzido embeddings de vetor de filmes candidatos, que foram então comparados à incorporação média dos cem títulos mais populares das semanas anteriores ao lançamento de cada filme.

A popularidade foi inferida usando similaridade de cosseno entre esses embeddings, com pontuações de similaridade mais altas indicando maior apelo previsto. A precisão da classificação de cada modelo foi avaliada medindo o desempenho em relação a uma linha de base de ordenação aleatória.

Melhoria de desempenho dos modelos de incorporação popular em comparação com uma linha de base aleatória. Cada modelo foi testado usando quatro configurações de metadados: V1 inclui apenas gênero; V2 inclui apenas sinopse; V3 combina gênero, sinopse, classificação indicativa, tipos de personagens, humor e época de lançamento; V4 adiciona elenco, equipe técnica e premiações à configuração V3. Os resultados mostram como entradas de metadados mais ricas afetam a precisão da classificação. Fonte: https://arxiv.org/pdf/2505.02693

Melhoria de desempenho dos modelos de incorporação popular em comparação com uma linha de base aleatória. Cada modelo foi testado usando quatro configurações de metadados: V1 inclui apenas gênero; V2 inclui apenas sinopse; V3 combina gênero, sinopse, classificação indicativa, tipos de personagens, humor e época de lançamento; V4 adiciona elenco, equipe técnica e premiações à configuração V3. Os resultados mostram como entradas de metadados mais ricas afetam a precisão da classificação. Fonte: https://arxiv.org/pdf/2505.02693

Os resultados (mostrados acima) demonstram que o BERT V4 e o Linq-Embed-Mistral 7B apresentaram as maiores melhorias na identificação dos três títulos mais populares, embora ambos tenham ficado um pouco aquém na previsão do item mais popular.

O BERT foi finalmente selecionado como modelo de base para comparação com os LLMs, pois sua eficiência e ganhos gerais superaram suas limitações.

Avaliação LLM

Os pesquisadores avaliaram o desempenho usando duas abordagens de classificação: emparelhados e lista. A classificação em pares avalia se o modelo ordena corretamente um item em relação a outro; e a classificação em lista considera a precisão de toda a lista ordenada de candidatos.

Esta combinação permitiu avaliar não só se os pares de filmes individuais foram classificados corretamente (precisão local), mas também o quão bem a lista completa de candidatos refletiu a ordem de popularidade verdadeira (precisão global).

Cheio, não quantizado modelos foram empregados para evitar perda de desempenho, garantindo uma comparação consistente e reproduzível entre previsões baseadas em LLM e linhas de base baseadas em incorporação.

Métrica

Para avaliar a eficácia com que os modelos de linguagem previram a popularidade dos filmes, foram usadas métricas baseadas em classificação e em classificação, com atenção especial à identificação dos três títulos mais populares.

Foram aplicadas quatro métricas: Precisão@1 mediu a frequência com que o item mais popular apareceu na primeira posição; Classificação recíproca capturou a posição do item real superior na lista prevista, calculando o inverso de sua posição; Ganho Acumulado Descontado Normalizado (NDCG@k) avaliou o quanto toda a classificação correspondia à popularidade real, com pontuações mais altas indicando melhor alinhamento; e Recall@3 mediu a proporção de títulos realmente populares que apareceram nas três principais previsões do modelo.

Como a maior parte do envolvimento do usuário acontece próximo ao topo dos menus classificados, a avaliação se concentrou em valores mais baixos de k, para refletir casos de uso prático.

Melhoria de desempenho de modelos de linguagem de grande porte em relação ao BERT V4, medida como ganhos percentuais em todas as métricas de classificação. Os resultados são calculados em média ao longo de dez execuções por combinação de modelo e prompt, com os dois valores mais altos destacados. Os números reportados refletem a melhoria percentual média em todas as métricas.

Melhoria de desempenho de modelos de linguagem de grande porte em relação ao BERT V4, medida como ganhos percentuais em todas as métricas de classificação. Os resultados foram calculados em média ao longo de dez execuções por combinação de modelo e prompt, com os dois valores mais altos destacados. Os números reportados refletem a melhoria percentual média em todas as métricas.

O desempenho dos modelos Llama 3.1 (8B), 3.1 (405B) e 3.3 (70B) foi avaliado medindo-se as melhorias métricas em relação à linha de base BERT V4 estabelecida anteriormente. Cada modelo foi testado usando uma série de prompts, variando de mínimos a ricos em informações, para examinar o efeito dos detalhes de entrada na qualidade da previsão.

Os autores declaram:

O melhor desempenho é obtido ao usar o Llama 3.1 (405B) com o prompt mais informativo, seguido pelo Llama 3.3 (70B). Com base na tendência observada, ao usar um prompt complexo e longo (MD V4), um modelo de linguagem mais complexo geralmente leva a um melhor desempenho em várias métricas. No entanto, ele é sensível ao tipo de informação adicionada.

O desempenho melhorou quando prêmios de elenco foram incluídos no prompt – neste caso, o número de prêmios importantes recebidos pelos cinco atores mais bem cotados em cada filme. Esses metadados mais ricos faziam parte da configuração mais detalhada do prompt, superando uma versão mais simples que excluía o reconhecimento do elenco. O benefício foi mais evidente nos modelos maiores, Llama 3.1 (405B) e 3.3 (70B), ambos os quais apresentaram maior precisão preditiva quando receberam esse sinal adicional de prestígio e familiaridade com o público.

Em contraste, o menor modelo, Llama 3.1 (8B), apresentou desempenho melhorado à medida que os prompts se tornaram um pouco mais detalhados, progredindo do gênero para a sinopse, mas declinou quando mais campos foram adicionados, sugerindo que o modelo não tinha capacidade de integrar prompts complexos de forma eficaz, levando a uma generalização mais fraca.

Quando os prompts eram restritos apenas ao gênero, todos os os modelos tiveram desempenho inferior à linha de base, demonstrando que os metadados limitados eram insuficientes para dar suporte a previsões significativas.

Conclusão

Os LLMs se tornaram o símbolo da IA ​​generativa, o que pode explicar por que estão sendo empregados em áreas onde outros métodos poderiam ser mais adequados. Mesmo assim, ainda há muito que não sabemos sobre o que eles podem fazer em diferentes setores, então faz sentido experimentá-los.

Neste caso específico, assim como no caso dos mercados de ações e da previsão do tempo, os dados históricos podem servir de base para previsões futuras em um grau limitado. No caso de filmes e programas de TV, a própria Método de Entrega é agora um alvo em movimento, em contraste com o período entre 1978 e 2011, quando a mídia a cabo, via satélite e portátil (VHS, DVD, etc.) representaram uma série de interrupções históricas transitórias ou em evolução.

Nenhum método de previsão pode explicar até que ponto o sucesso ou o fracasso de Outros produções podem influenciar a viabilidade de uma propriedade proposta – e, no entanto, isso acontece frequentemente na indústria cinematográfica e televisiva, que adora seguir tendências.

No entanto, quando usados ​​de forma criteriosa, os LLMs podem ajudar a fortalecer os sistemas de recomendação durante a fase de inicialização a frio, oferecendo suporte útil em uma variedade de métodos preditivos.

 

Primeira publicação terça-feira, 6 de maio de 2025

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai