Ângulo de Anderson
Usando IA para Prever um Filme de Grande Bilheteria

Embora o cinema e a televisão sejam frequentemente vistos como indústrias criativas e abertas, elas têm sido historicamente avessas a riscos. Os altos custos de produção (que podem em breve perder a vantagem de locais mais baratos no exterior, pelo menos para projetos dos EUA) e um cenário de produção fragmentado tornam difícil para as empresas independentes absorverem uma perda significativa.
Portanto, ao longo da última década, a indústria tem demonstrado um interesse crescente em saber se o aprendizado de máquina pode detectar tendências ou padrões em como o público responde a projetos de cinema e televisão propostos.
As principais fontes de dados ainda são o sistema Nielsen (que oferece escala, embora suas raízes estejam na TV e publicidade) e métodos baseados em amostras, como grupos focais, que trocam escala por demografia curada. Esta última categoria também inclui feedback de cartões de pontuação de prévias de filmes gratuitos – no entanto, nesse ponto, a maior parte do orçamento de uma produção já foi gasta.
A Teoria do ‘Grande Sucesso’/Teorias
Inicialmente, os sistemas de ML aproveitaram métodos de análise tradicionais, como regressão linear, K-Nearest Neighbors, Stochastic Gradient Descent, Decision Tree e Florestas, e Neural Networks, geralmente em combinações variadas mais próximas do estilo de análise estatística pré-IA, como uma iniciativa de 2019 da Universidade Central da Flórida para prever shows de TV bem-sucedidos com base em combinações de atores e escritores (entre outros fatores):

Um estudo de 2018 avaliou o desempenho de episódios com base em combinações de personagens e/ou escritor (a maioria dos episódios foi escrita por mais de uma pessoa). Fonte: https://arxiv.org/pdf/1910.12589
O trabalho mais relevante relacionado, pelo menos aquele que é implantado no mundo (embora frequentemente criticado), está no campo de sistemas de recomendação:

Um pipeline de recomendação de vídeo típico. Os vídeos no catálogo são indexados usando recursos que podem ser anotados manualmente ou extraídos automaticamente. As recomendações são geradas em duas etapas, primeiro selecionando vídeos candidatos e, em seguida, classificando-os de acordo com um perfil de usuário inferido das preferências de visualização. Fonte: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full
No entanto, esses tipos de abordagens analisam projetos que já são bem-sucedidos. No caso de novos shows ou filmes, não está claro que tipo de verdade fundamental seria mais aplicável – não menos porque as mudanças no gosto do público, combinadas com melhorias e aumentos das fontes de dados, significam que décadas de dados consistentes geralmente não estão disponíveis.
Isso é uma instância do problema de início a frio, onde os sistemas de recomendação devem avaliar candidatos sem nenhum dado de interação anterior. Nesses casos, o filtragem colaborativa tradicional quebra, porque depende de padrões no comportamento do usuário (como visualização, classificação ou compartilhamento) para gerar previsões. O problema é que, no caso da maioria dos novos filmes ou shows, ainda não há feedback suficiente do público para apoiar esses métodos.
Comcast Prevé
Um novo artigo da Comcast Technology AI, em associação com a Universidade George Washington, propõe uma solução para esse problema, solicitando um modelo de linguagem com metadados estruturados sobre filmes não lançados.
As entradas incluem elenco, gênero, sinopse, classificação de conteúdo, humor e prêmios, com o modelo retornando uma lista classificada de prováveis futuros sucessos.
Os autores usam a saída do modelo como um substituto para o interesse do público quando não há dados de engajamento disponíveis, esperando evitar vieses precoces em direção a títulos que já são bem conhecidos.
O artigo muito curto (três páginas) artigo, intitulado Prever Sucessos de Filmes Antes que Eles Aconteçam com LLMs, vem de seis pesquisadores da Comcast Technology AI e um da GWU, e afirma:
‘Nossos resultados mostram que os LLMs, ao usar metadados de filmes, podem superar significativamente as linhas de base. Essa abordagem pode servir como um sistema assistido para vários casos de uso, permitindo a pontuação automática de grandes volumes de novo conteúdo lançado diariamente e semanalmente.
‘Ao fornecer insights precoces antes que as equipes editoriais ou algoritmos tenham acumulado dados de interação suficientes, os LLMs podem agilizar o processo de revisão de conteúdo.
‘Com melhorias contínuas na eficiência dos LLMs e o surgimento de agentes de recomendação, os insights deste trabalho são valiosos e adaptáveis a uma ampla gama de domínios.’
Se a abordagem se provar robusta, ela poderia reduzir a dependência da indústria em métricas retrospectivas e títulos fortemente promovidos, introduzindo uma maneira escalável de sinalizar conteúdo promissor antes do lançamento. Assim, em vez de esperar que o comportamento do usuário sinalize a demanda, as equipes editoriais poderiam receber previsões precoces e baseadas em metadados do interesse do público, potencialmente redistribuindo a exposição por uma gama mais ampla de novos lançamentos.
Método e Dados
Os autores descrevem um fluxo de trabalho em quatro etapas: construção de um conjunto de dados dedicado a partir de metadados de filmes não lançados; o estabelecimento de um modelo de linha de base para comparação; a avaliação de LLMs apropriados usando tanto raciocínio de linguagem natural quanto previsão baseada em incorporação; e a otimização das saídas por meio de engenharia de prompts no modo gerativo, usando o Llama 3.1 da Meta e o Llama 3.3 e 3.3 modelos de linguagem.
Como os autores afirmam, não havia um conjunto de dados disponível publicamente que oferecesse uma maneira direta de testar sua hipótese (porque a maioria das coleções existentes antecede os LLMs e carece de metadados detalhados), eles construíram um conjunto de dados de referência a partir da plataforma de entretenimento da Comcast, que serve a dezenas de milhões de usuários em interfaces diretas e de terceiros.
O conjunto de dados rastreia filmes lançados recentemente e se eles mais tarde se tornaram populares, com popularidade definida por meio de interações do usuário.
A coleção se concentra em filmes e não em séries, e os autores afirmam:
‘Nos concentramos em filmes porque eles são menos influenciados por conhecimento externo do que as séries de TV, melhorando a confiabilidade dos experimentos.’
Rótulos foram atribuídos analisando o tempo que levou para um título se tornar popular em diferentes janelas de tempo e tamanhos de lista. O LLM foi solicitado com campos de metadados, como gênero, sinopse, classificação, era, elenco, equipe, humor, prêmios e tipos de personagens.
Para comparação, os autores usaram duas linhas de base: uma ordem aleatória; e um modelo de Incorporação Popular (PE).
O projeto usou grandes modelos de linguagem como o método principal de classificação, gerando listas ordenadas de filmes com pontuações de popularidade previstas e justificativas acompanhantes – e essas saídas foram moldadas por estratégias de engenharia de prompts projetadas para guiar as previsões do modelo usando metadados estruturados.
A estratégia de solicitação moldou o modelo como um ‘assistente editorial’ encarregado de identificar quais filmes futuros eram mais prováveis de se tornar populares, com base apenas em metadados estruturados, e, em seguida, encarregado de reordenar uma lista fixa de títulos sem introduzir novos itens, e para retornar a saída no formato JSON.
Cada resposta consistia em uma lista classificada, pontuações de popularidade atribuídas, justificativas para as classificações e referências a quaisquer exemplos anteriores que influenciaram o resultado. Esses múltiplos níveis de metadados visavam melhorar a compreensão contextual do modelo e sua capacidade de antecipar tendências futuras do público.
Testes
O experimento seguiu duas etapas principais: inicialmente, os autores testaram várias variantes do modelo para estabelecer uma linha de base, envolvendo a identificação da versão que se saiu melhor do que uma abordagem de ordenação aleatória.
Em segundo lugar, eles testaram grandes modelos de linguagem no modo gerativo, comparando sua saída com uma linha de base mais forte, em vez de uma classificação aleatória, aumentando a dificuldade da tarefa.
Isso significava que os modelos tinham que fazer melhor do que um sistema que já mostrou alguma capacidade de prever quais filmes se tornariam populares. Como resultado, os autores afirmam, a avaliação refletiu melhor as condições do mundo real, onde as equipes editoriais e os sistemas de recomendação raramente escolhem entre um modelo e a chance, mas entre sistemas concorrentes com diferentes níveis de capacidade de previsão.
A Vantagem da Ignorância
Uma restrição-chave nesse conjunto foi a lacuna de tempo entre o corte de conhecimento dos modelos e as datas de lançamento reais dos filmes. Como os modelos de linguagem foram treinados em dados que terminavam de seis a doze meses antes que os filmes se tornassem disponíveis, eles não tiveram acesso a informações pós-lançamento, garantindo que as previsões se baseassem inteiramente em metadados e não em nenhuma resposta do público aprendida.
Avaliação da Linha de Base
Para construir uma linha de base, os autores geraram representações semânticas de metadados de filmes usando três modelos de incorporação: BERT V4; Linq-Embed-Mistral 7B; e Llama 3.3 70B, quantizado para precisão de 8 bits para atender às restrições do ambiente experimental.
Linq-Embed-Mistral foi selecionado para inclusão devido à sua posição superior na leaderboard MTEB (Massive Text Embedding Benchmark).
Cada modelo produziu incorporações de vetor de filmes candidatos, que foram comparados à incorporação média dos cem títulos mais populares das semanas que antecederam o lançamento de cada filme.
A popularidade foi inferida usando similaridade coseno entre essas incorporações, com pontuações de similaridade mais altas indicando maior atratividade prevista. A precisão de classificação de cada modelo foi avaliada medindo o desempenho contra uma ordem aleatória.

Melhoria de desempenho dos modelos de Incorporação Popular em comparação com uma linha de base aleatória. Cada modelo foi testado usando quatro configurações de metadados: V1 inclui apenas gênero; V2 inclui apenas sinopse; V3 combina gênero, sinopse, classificação de conteúdo, tipos de personagens, humor e era de lançamento; V4 adiciona elenco, equipe e prêmios à configuração V3. Os resultados mostram como as entradas de metadados mais ricas afetam a precisão de classificação. Fonte: https://arxiv.org/pdf/2505.02693
Os resultados (mostrados acima) demonstram que BERT V4 e Linq-Embed-Mistral 7B entregaram as melhorias mais fortes na identificação dos três títulos mais populares, embora ambos tenham ficado um pouco aquém na previsão do item mais popular.
BERT foi finalmente selecionado como o modelo de linha de base para comparação com os LLMs, pois sua eficiência e ganhos gerais superaram suas limitações.
Avaliação do LLM
Os pesquisadores avaliaram o desempenho usando duas abordagens de classificação: par a par e lista a lista. A classificação par a par avalia se o modelo ordena corretamente um item em relação a outro; e a classificação lista a lista considera a precisão da lista ordenada completa de candidatos.
Essa combinação tornou possível avaliar não apenas se pares de filmes individuais foram classificados corretamente (precisão local), mas também como bem a lista completa de candidatos refletia a ordem de popularidade real (precisão global).
Modelos completos, não quantizados, foram empregados para prevenir perda de desempenho, garantindo uma comparação consistente e reprodutível entre as previsões baseadas em LLM e as linhas de base baseadas em incorporação.
Métricas
Para avaliar como eficazmente os modelos de linguagem previram a popularidade do filme, tanto métricas baseadas em classificação quanto baseadas em classificação foram usadas, com atenção particular para identificar os três títulos mais populares.
Quatro métricas foram aplicadas: Precisão@1 mediu com que frequência o item mais popular apareceu na primeira posição; Reciprocal Rank capturou quão alto o item superior realmente classificado estava na lista prevista, tomando o inverso de sua posição; Normalized Discounted Cumulative Gain (NDCG@k) avaliou como bem a classificação completa correspondia à popularidade real, com pontuações mais altas indicando melhor alinhamento; e Recall@3 mediu a proporção de títulos realmente populares que apareceram nas três primeiras previsões do modelo.
Como a maioria do engajamento do usuário acontece perto do topo dos menus classificados, a avaliação se concentrou em valores mais baixos de k, para refletir casos de uso práticos.

Melhoria de desempenho dos grandes modelos de linguagem sobre o BERT V4, medida como ganhos percentuais em métricas de classificação. Os resultados foram médios de dez execuções por combinação de modelo-prompt, com os dois principais valores destacados. Os números relatados refletem a melhoria percentual média em todas as métricas.
O desempenho do modelo Llama 3.1 (8B), 3.1 (405B) e 3.3 (70B) foi avaliado medindo a melhoria das métricas em relação à linha de base BERT V4 estabelecida anteriormente. Cada modelo foi testado usando uma série de prompts, variando de minimal a informações ricas, para examinar o efeito do detalhe da entrada na qualidade da previsão.
Os autores afirmam:
‘O melhor desempenho é alcançado ao usar o Llama 3.1 (405B) com o prompt mais informativo, seguido pelo Llama 3.3 (70B). Com base na tendência observada, ao usar um prompt complexo e longo (MD V4), um modelo de linguagem mais complexo geralmente leva a um desempenho melhorado em várias métricas. No entanto, é sensível ao tipo de informação adicionada.’
O desempenho melhorou quando prêmios do elenco foram incluídos como parte do prompt – nesse caso, o número de prêmios importantes recebidos pelos cinco principais atores de cada filme. Esses metadados mais ricos foram parte da configuração de prompt mais detalhada, superando uma versão mais simples que excluía o reconhecimento do elenco. O benefício foi mais evidente nos modelos maiores, Llama 3.1 (405B) e 3.3 (70B), ambos mostrando uma precisão preditiva mais forte quando dado esse sinal adicional de prestígio e familiaridade do público.
Em contraste, o modelo menor, Llama 3.1 (8B), mostrou um desempenho melhorado à medida que os prompts se tornavam ligeiramente mais detalhados, progredindo de gênero para sinopse, mas declinou quando mais campos foram adicionados, sugerindo que o modelo carecia da capacidade de integrar prompts complexos efetivamente, levando a uma generalização mais fraca.
Quando os prompts foram restritos ao gênero apenas, todos os modelos se saíram pior do que a linha de base, demonstrando que metadados limitados eram insuficientes para apoiar previsões significativas.
Conclusão
Os LLMs se tornaram o filho pródigo da IA gerativa, o que pode explicar por que eles estão sendo usados em áreas onde outros métodos poderiam ser uma melhor escolha. Mesmo assim, ainda há muito que não sabemos sobre o que eles podem fazer em diferentes indústrias, então faz sentido dar-lhes uma chance.
Nesse caso específico, como nos mercados de ações e previsões do tempo, há apenas uma extensão limitada para a qual os dados históricos podem servir como base para previsões futuras. No caso de filmes e shows de TV, o próprio método de entrega agora é um alvo móvel, em contraste com o período entre 1978-2011, quando cabo, satélite e mídia portátil (VHS, DVD, etc.) representavam uma série de interrupções históricas transitórias ou evolutivas.
Nem pode nenhum método de previsão levar em conta a extensão com que o sucesso ou fracasso de outras produções pode influenciar a viabilidade de uma propriedade proposta – e, no entanto, isso é frequentemente o caso na indústria de cinema e TV, que gosta de seguir uma tendência.
No entanto, quando usados com cuidado, os LLMs poderiam ajudar a fortalecer os sistemas de recomendação durante a fase de início a frio, oferecendo suporte útil em uma gama de métodos preditivos.
Publicado pela primeira vez na terça-feira, 6 de maio de 2025










