Andersons vinkel

Använda AI för att förutsäga en storfilm

publicerade May 6, 2025

Martin Anderson

Även om film och tv ofta ses som kreativa och öppna branscher har de länge varit riskaverta. Höga produktionskostnader (vilket kan snart förlora den motverkande fördelen av billigare platser utomlands, åtminstone för amerikanska projekt) och ett fragmenterat produktionslandskap gör det svårt för oberoende företag att absorbera en betydande förlust.

Därför har branschen under det senaste decenniet visat ett växande intresse för huruvida maskininlärning kan upptäcka trender eller mönster i hur publiken reagerar på föreslagna film- och tv-projekt.

De viktigaste datakällorna är fortfarande Nielsen-systemet (som erbjuder skalbarhet, även om dess rötter ligger i TV och reklam) och urvalsbaserade metoder som fokusgrupper, som byter skala mot kurerade demografiska grupper. Den senare kategorin inkluderar även scorecard-feedback från gratis filmförhandsvisningar – men vid den tidpunkten är större delen av en produktionsbudget redan förbrukad.

Teorin/teorierna om den "stora hiten"

Inledningsvis använde ML-system traditionella analysmetoder som linjär regression, K-närmaste grannar, Stokastisk Gradient Descent, Beslutsträd och skogar, och Neurala nätverk, vanligtvis i olika kombinationer som i stil liknar tiden före AI Statistisk analys, såsom ett University of Central Florida från 2019 initiativ för att förutspå framgångsrika TV-program baserat på kombinationer av skådespelare och författare (bland andra faktorer):

En studie från 2018 bedömde avsnittens prestanda baserat på kombinationer av karaktärer och/eller författare (de flesta avsnitt skrevs av mer än en person). Källa: https://arxiv.org/pdf/1910.12589

Det mest relevanta relaterade arbetet, åtminstone det som används i det vilda (även om ofta kritiseras) är inom området rekommendatorsystem:

En typisk pipeline för videorekommendationer. Videor i katalogen indexeras med hjälp av funktioner som kan annoteras manuellt eller extraheras automatiskt. Rekommendationer genereras i två steg genom att först välja ut kandidatvideor och sedan rangordna dem enligt en användarprofil som härleds från visningspreferenser. Källa: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Den här typen av tillvägagångssätt analyserar dock projekt som redan är framgångsrika. När det gäller potentiella nya serier eller filmer är det inte tydligt vilken typ av grundfakta som skulle vara mest tillämplig – inte minst eftersom förändringar i allmänhetens smak, i kombination med förbättringar och utökningar av datakällor, innebär att årtionden av konsekventa data vanligtvis inte är tillgängliga.

Detta är ett exempel på kall start Problemet, där rekommendationssystem måste utvärdera kandidater utan tidigare interaktionsdata. I sådana fall, traditionella samarbetsfiltrering går sönder, eftersom den förlitar sig på mönster i användarbeteende (som att titta, betygsätta eller dela) för att generera förutsägelser. Problemet är att det för de flesta nya filmer eller serier ännu inte finns tillräckligt med publikfeedback för att stödja dessa metoder.

Comcast förutspår

En ny artikel från Comcast Technology AI, i samarbete med George Washington University, föreslår en lösning på detta problem genom att uppmana till en språkmodell med strukturerad metadata om outgivna filmer.

Ingångarna inkluderar gjutas, snäll, synopsis, innehållsklassificering, humöroch Utmärkelser, där modellen returnerar en rankad lista över sannolika framtida träffar.

Författarna använder modellens utdata som en ersättning för publikens intresse när ingen engagemangsdata finns tillgänglig, i hopp om att undvika tidig partiskhet mot titlar som redan är välkända.

Den mycket korta (tre sidor) papper, med titeln Att förutsäga filmsuccéer innan de dyker upp med LLM:er, kommer från sex forskare vid Comcast Technology AI, och en från GWU, och säger:

"Våra resultat visar att LLM:er, när de använder filmmetadata, kan prestera betydligt bättre än baslinjerna. Denna metod skulle kunna fungera som ett assisterat system för flera användningsfall, vilket möjliggör automatisk poängsättning av stora volymer nytt innehåll som släpps dagligen och varje vecka."

Genom att ge tidiga insikter innan redaktionella team eller algoritmer har samlat in tillräckligt med interaktionsdata kan juristexperter effektivisera innehållsgranskningsprocessen.

"Med kontinuerliga förbättringar av LLM-effektiviteten och ökningen av rekommendationsagenter är insikterna från detta arbete värdefulla och anpassningsbara till en mängd olika områden."

Om metoden visar sig vara robust kan den minska branschens beroende av retrospektiva mätvärden och hårt marknadsförda titlar genom att introducera ett skalbart sätt att flagga lovande innehåll före lansering. Istället för att vänta på användarbeteende för att signalera efterfrågan kan redaktionella team därmed få tidiga, metadatadrivna prognoser om publikens intresse, vilket potentiellt kan omfördela exponeringen över ett bredare spektrum av nya utgåvor.

Metod och data

Författarna beskriver ett arbetsflöde i fyra steg: konstruktion av en dedikerad datauppsättning från inte släppt filmmetadata; etablering av en baslinjemodell för jämförelse; utvärdering av lämpliga LLM:er med hjälp av både naturligt språkresonemang och inbäddningsbaserad prediktion; och optimering av utdata genom snabb ingenjörskonst i generativt läge med hjälp av Metas Lama 3.1 och 3.3 språkmodeller.

Eftersom, enligt författarna, ingen offentligt tillgänglig datauppsättning erbjöd ett direkt sätt att testa deras hypotes (eftersom de flesta befintliga samlingar föregår LLM:er och saknar detaljerade metadata), byggde de en riktmärkesdatauppsättning från Comcast Entertainment plattform, som betjänar tiotals miljoner användare via direkta och tredjepartsgränssnitt.

Datamängden spårar nyligen släppta filmer och huruvida de senare blev populära, med popularitet definierad genom användarinteraktioner.

Samlingen fokuserar på filmer snarare än serier, och författarna konstaterar:

"Vi fokuserade på filmer eftersom de är mindre påverkade av extern kunskap än tv-serier, vilket förbättrar experimentens tillförlitlighet."

Etiketter tilldelades genom att analysera den tid det tog för en titel att bli populär över olika tidsfönster och liststorlekar. LLM:en fick metadatafält som snäll, synopsis, betyg, var, gjutas, besättning, humör, Utmärkelseroch teckentyper.

Som jämförelse använde författarna två baslinjer: en slumpmässig ordning och en populär inbäddningsmodell (PE) (som vi kommer att återkomma till strax).

Projektet använde stora språkmodeller som primär rangordningsmetod, och genererade ordnade listor över filmer med förutspådda popularitetspoäng och tillhörande motiveringar – och dessa resultat formades av snabba ingenjörsstrategier utformade för att vägleda modellens förutsägelser med hjälp av strukturerad metadata.

Promptstrategin utformade modellen som en "redaktionell assistent" som fick i uppdrag att identifiera vilka kommande filmer som mest sannolikt skulle bli populära, enbart baserat på strukturerad metadata, och sedan fick i uppdrag att omordna en fast lista med titlar. utan introducera nya objekt och returnera utdata i JSON format.

Varje svar bestod av en rankad lista, tilldelade popularitetspoäng, motiveringar för rankningarna och referenser till tidigare exempel som påverkat resultatet. Dessa flera nivåer av metadata var avsedda att förbättra modellens kontextuella förståelse och dess förmåga att förutse framtida publiktrender.

Tester

Experimentet följde två huvudsteg: inledningsvis testade författarna flera modellvarianter för att fastställa en baslinje, vilket innebar att man identifierade den version som presterade bättre än en slumpmässig ordningsmetod.

För det andra testade de stora språkmodeller i generativt läge, genom att jämföra deras resultat med en starkare baslinje, snarare än en slumpmässig rangordning, vilket ökar uppgiftens svårighetsgrad.

Detta innebar att modellerna var tvungna att prestera bättre än ett system som redan visade en viss förmåga att förutsäga vilka filmer som skulle bli populära. Som ett resultat, hävdar författarna, återspeglade utvärderingen bättre verkliga förhållanden, där redaktionella team och rekommendationssystem sällan väljer mellan en modell och slumpen, utan mellan konkurrerande system med varierande nivåer av förutsägbar förmåga.

Fördelen med okunnighet

En viktig begränsning i denna uppställning var tidsgapet mellan modellernas kunskapsavgränsning och filmernas faktiska utgivningsdatum. Eftersom språkmodellerna tränades på data som slutade sex till tolv månader innan filmerna blev tillgängliga, hade de ingen tillgång till information efter utgivningen, vilket säkerställde att förutsägelserna helt baserades på metadata och inte på någon inlärd publikrespons.

Baslinjeutvärdering

För att konstruera en baslinje genererade författarna semantiska representationer av filmmetadata med hjälp av tre inbäddningsmodeller: BERT V4; Linq-Embed-Mistral 7Boch Llama 3.3 70B, kvantiserad till 8-bitars precision för att möta begränsningarna i den experimentella miljön.

Linq-Embed-Mistral valdes ut för inkludering på grund av dess topplacering på MTEB (Massive Text Embedding Benchmark) leader.

Varje producerad modell vektor inbäddningar av kandidatfilmer, vilka sedan jämfördes med den genomsnittliga inbäddningen av de hundra mest populära titlarna från veckorna före varje films släpp.

Popularitet beräknades med hjälp av cosinuslikhet mellan dessa inbäddningar, där högre likhetspoäng indikerar högre förväntad attraktionskraft. Rangordningsnoggrannheten för varje modell utvärderades genom att mäta prestanda mot en slumpmässig ordningsbaslinje.

Prestandaförbättring av populära inbäddningsmodeller jämfört med en slumpmässig baslinje. Varje modell testades med fyra metadatakonfigurationer: V1 inkluderar endast genre; V2 inkluderar endast synopsis; V3 kombinerar genre, synopsis, innehållsbetyg, karaktärstyper, humör och utgivningsera; V4 lägger till skådespelare, besättning och utmärkelser till V3-konfigurationen. Resultaten visar hur rikare metadataindata påverkar rankningsnoggrannheten. Källa: https://arxiv.org/pdf/2505.02693

Resultaten (visas ovan) visar att BERT V4 och Linq-Embed-Mistral 7B levererade de starkaste förbättringarna när det gällde att identifiera de tre mest populära titlarna, även om båda inte lyckades förutsäga vilket enskilt mest populärt objekt som helst.

BERT valdes slutligen som basmodell för jämförelse med LLM:erna, eftersom dess effektivitet och totala vinster övervägde dess begränsningar.

LLM-utvärdering

Forskarna bedömde prestationen med hjälp av två rankningsmetoder: parvis och listvisParvis rangordning utvärderar om modellen korrekt ordnar ett objekt i förhållande till ett annat; och listvis rangordning beaktar noggrannheten hos hela den ordnade listan med kandidater.

Denna kombination gjorde det möjligt att utvärdera inte bara om enskilda filmpar rankades korrekt (lokal noggrannhet), utan också hur väl den fullständiga listan över kandidater återspeglade sann popularitetsordning (global noggrannhet).

fullt, icke-kvantiserad modeller användes för att förhindra prestandaförlust, vilket säkerställde en konsekvent och reproducerbar jämförelse mellan LLM-baserade förutsägelser och inbäddningsbaserade baslinjer.

Metrics

För att bedöma hur effektivt språkmodellerna förutspådde filmers popularitet användes både rankingbaserade och klassificeringsbaserade mätvärden, med särskild uppmärksamhet på att identifiera de tre mest populära titlarna.

Fyra mätvärden tillämpades: Noggrannhet@1 mätte hur ofta den mest populära artikeln dök upp på första plats; Ömsesidig rangordning fångade hur högt det översta faktiska objektet rankades i den förutspådda listan genom att ta det motsatta av dess position; Normaliserad diskonterad kumulativ vinst (NDCG@k) utvärderade hur väl hela rankningen matchade den faktiska populariteten, där högre poäng indikerade bättre överensstämmelse; och Recall@3 mätte andelen verkligt populära titlar som förekom i modellens tre bästa förutsägelser.

Eftersom det mesta användarengagemanget sker nära toppen av rankade menyer fokuserade utvärderingen på lägre värden på k, för att återspegla praktiska användningsfall.

Prestandaförbättring av stora språkmodeller jämfört med BERT V4, mätt som procentuella vinster över rankningsmått. Resultaten är medelvärdet över tio körningar per modell-prompt-kombination, med de två högsta värdena markerade. Rapporterade siffror återspeglar den genomsnittliga procentuella förbättringen över alla mätvärden.

Prestandaförbättring av stora språkmodeller jämfört med BERT V4, mätt som procentuella vinster över rankningsmått. Resultaten beräknades i genomsnitt över tio körningar per modell-prompt-kombination, med de två högsta värdena markerade. Rapporterade siffror återspeglar den genomsnittliga procentuella förbättringen över alla mätvärden.

Prestandan för Llama-modell 3.1 (8B), 3.1 (405B) och 3.3 (70B) utvärderades genom att mäta metriska förbättringar i förhållande till den tidigare etablerade BERT V4-baslinjen. Varje modell testades med hjälp av en serie uppmaningar, från minimala till informationsrika, för att undersöka effekten av indatadetaljer på prediktionskvaliteten.

Författarna säger:

"Bäst prestanda uppnås när man använder Llama 3.1 (405B) med den mest informativa prompten, följt av Llama 3.3 (70B). Baserat på den observerade trenden, när man använder en komplex och lång prompt (MD V4), leder en mer komplex språkmodell generellt till förbättrad prestanda över olika mätvärden. Den är dock känslig för vilken typ av information som läggs till."

Prestandan förbättrades när skådespelarpriser inkluderades som en del av prompten – i det här fallet antalet stora priser som de fem bästa skådespelarna i varje film fick. Denna rikare metadata var en del av den mest detaljerade promptkonfigurationen och överträffade en enklare version som uteslöt skådespelarigenkänning. Fördelen var tydligast i de större modellerna, Llama 3.1 (405B) och 3.3 (70B), som båda visade starkare prediktiv noggrannhet när de fick denna ytterligare signal om prestige och publikbekanthet.

Däremot visade den minsta modellen, Llama 3.1 (8B), förbättrad prestanda när uppmaningarna blev något mer detaljerade och gick från genre till synopsis, men försämrades när fler fält lades till, vilket tyder på att modellen saknade förmågan att integrera komplexa uppmaningar effektivt, vilket ledde till svagare generalisering.

När uppmaningarna begränsades till enbart genrer, Alla Produkter modellerna presterade underpresterande jämfört med baslinjen, vilket visar att begränsad metadata var otillräcklig för att stödja meningsfulla förutsägelser.

Slutsats

Jurister har blivit själva förebilden för generativ AI, vilket kan förklara varför de används inom områden där andra metoder skulle kunna passa bättre. Ändå finns det fortfarande mycket vi inte vet om vad de kan göra inom olika branscher, så det är vettigt att ge dem en chans.

I just detta fall, precis som med aktiemarknader och väderprognoser, finns det bara en begränsad utsträckning i vilken historiska data kan tjäna som grund för framtida förutsägelser. När det gäller filmer och TV-program, själva leverans metod är nu ett rörligt mål, i motsats till perioden mellan 1978-2011, då kabel-, satellit- och bärbara medier (VHS, DVD, et al.) representerade en serie övergående eller föränderliga historiska störningar.

Inte heller kan någon prediktionsmetod redogöra för i vilken utsträckning framgången eller misslyckandet av Övrigt produktioner kan påverka en föreslagen fastighets lönsamhet – och ändå är detta ofta fallet inom film- och tv-branschen, som älskar att rida på en trend.

Icke desto mindre, när de används med eftertanke, kan LLM:er bidra till att stärka rekommendationssystem under kallstartfasen och erbjuda användbart stöd inom en rad prediktiva metoder.

Först publicerad tisdagen den 6 maj 2025

Relaterade ämnen:Avancerade LLM stor språkmodell Stora språkmodeller (LLMs)Lama 3 LLM filmer

Strax

DeepSeek-GRM: Revolutionerar skalbar, kostnadseffektiv AI för företag

Missa inte

AI hjälper till att hålla fossila bränslen vid liv

Martin Anderson

Skribent på maskininlärning, domänspecialist på mänsklig bildsyntes. Tidigare chef för forskningsinnehåll på Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai