Andersons vinkel
AnvÀnda AI för att förutsÀga en storfilm

Ăven om film och tv ofta ses som kreativa och öppna branscher har de lĂ€nge varit riskaverta. Höga produktionskostnader (vilket kan snart förlora den motverkande fördelen av billigare platser utomlands, Ă„tminstone för amerikanska projekt) och ett fragmenterat produktionslandskap gör det svĂ„rt för oberoende företag att absorbera en betydande förlust.
DÀrför har branschen under det senaste decenniet visat ett vÀxande intresse för huruvida maskininlÀrning kan upptÀcka trender eller mönster i hur publiken reagerar pÄ föreslagna film- och tv-projekt.
De viktigaste datakĂ€llorna Ă€r fortfarande Nielsen-systemet (som erbjuder skalbarhet, Ă€ven om dess rötter ligger i TV och reklam) och urvalsbaserade metoder som fokusgrupper, som byter skala mot kurerade demografiska grupper. Den senare kategorin inkluderar Ă€ven scorecard-feedback frĂ„n gratis filmförhandsvisningar â men vid den tidpunkten Ă€r större delen av en produktionsbudget redan förbrukad.
Teorin/teorierna om den "stora hiten"
Inledningsvis anvÀnde ML-system traditionella analysmetoder som linjÀr regression, K-nÀrmaste grannar, Stokastisk Gradient Descent, BeslutstrÀd och skogar, och Neurala nÀtverk, vanligtvis i olika kombinationer som i stil liknar tiden före AI Statistisk analys, sÄsom ett University of Central Florida frÄn 2019 initiativ för att förutspÄ framgÄngsrika TV-program baserat pÄ kombinationer av skÄdespelare och författare (bland andra faktorer):

En studie frÄn 2018 bedömde avsnittens prestanda baserat pÄ kombinationer av karaktÀrer och/eller författare (de flesta avsnitt skrevs av mer Àn en person). KÀlla: https://arxiv.org/pdf/1910.12589
Det mest relevanta relaterade arbetet, Ätminstone det som anvÀnds i det vilda (Àven om ofta kritiseras) Àr inom omrÄdet rekommendatorsystem:

En typisk pipeline för videorekommendationer. Videor i katalogen indexeras med hjÀlp av funktioner som kan annoteras manuellt eller extraheras automatiskt. Rekommendationer genereras i tvÄ steg genom att först vÀlja ut kandidatvideor och sedan rangordna dem enligt en anvÀndarprofil som hÀrleds frÄn visningspreferenser. KÀlla: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full
Den hĂ€r typen av tillvĂ€gagĂ„ngssĂ€tt analyserar dock projekt som redan Ă€r framgĂ„ngsrika. NĂ€r det gĂ€ller potentiella nya serier eller filmer Ă€r det inte tydligt vilken typ av grundfakta som skulle vara mest tillĂ€mplig â inte minst eftersom förĂ€ndringar i allmĂ€nhetens smak, i kombination med förbĂ€ttringar och utökningar av datakĂ€llor, innebĂ€r att Ă„rtionden av konsekventa data vanligtvis inte Ă€r tillgĂ€ngliga.
Detta Àr ett exempel pÄ kall start Problemet, dÀr rekommendationssystem mÄste utvÀrdera kandidater utan tidigare interaktionsdata. I sÄdana fall, traditionella samarbetsfiltrering gÄr sönder, eftersom den förlitar sig pÄ mönster i anvÀndarbeteende (som att titta, betygsÀtta eller dela) för att generera förutsÀgelser. Problemet Àr att det för de flesta nya filmer eller serier Ànnu inte finns tillrÀckligt med publikfeedback för att stödja dessa metoder.
Comcast förutspÄr
En ny artikel frÄn Comcast Technology AI, i samarbete med George Washington University, föreslÄr en lösning pÄ detta problem genom att uppmana till en sprÄkmodell med strukturerad metadata om outgivna filmer.
IngÄngarna inkluderar gjutas, snÀll, synopsis, innehÄllsklassificering, humöroch UtmÀrkelser, dÀr modellen returnerar en rankad lista över sannolika framtida trÀffar.
Författarna anvÀnder modellens utdata som en ersÀttning för publikens intresse nÀr ingen engagemangsdata finns tillgÀnglig, i hopp om att undvika tidig partiskhet mot titlar som redan Àr vÀlkÀnda.
Den mycket korta (tre sidor) papper, med titeln Att förutsÀga filmsuccéer innan de dyker upp med LLM:er, kommer frÄn sex forskare vid Comcast Technology AI, och en frÄn GWU, och sÀger:
"VÄra resultat visar att LLM:er, nÀr de anvÀnder filmmetadata, kan prestera betydligt bÀttre Àn baslinjerna. Denna metod skulle kunna fungera som ett assisterat system för flera anvÀndningsfall, vilket möjliggör automatisk poÀngsÀttning av stora volymer nytt innehÄll som slÀpps dagligen och varje vecka."
Genom att ge tidiga insikter innan redaktionella team eller algoritmer har samlat in tillrÀckligt med interaktionsdata kan juristexperter effektivisera innehÄllsgranskningsprocessen.
"Med kontinuerliga förbÀttringar av LLM-effektiviteten och ökningen av rekommendationsagenter Àr insikterna frÄn detta arbete vÀrdefulla och anpassningsbara till en mÀngd olika omrÄden."
Om metoden visar sig vara robust kan den minska branschens beroende av retrospektiva mÀtvÀrden och hÄrt marknadsförda titlar genom att introducera ett skalbart sÀtt att flagga lovande innehÄll före lansering. IstÀllet för att vÀnta pÄ anvÀndarbeteende för att signalera efterfrÄgan kan redaktionella team dÀrmed fÄ tidiga, metadatadrivna prognoser om publikens intresse, vilket potentiellt kan omfördela exponeringen över ett bredare spektrum av nya utgÄvor.
Metod och data
Författarna beskriver ett arbetsflöde i fyra steg: konstruktion av en dedikerad datauppsÀttning frÄn inte slÀppt filmmetadata; etablering av en baslinjemodell för jÀmförelse; utvÀrdering av lÀmpliga LLM:er med hjÀlp av bÄde naturligt sprÄkresonemang och inbÀddningsbaserad prediktion; och optimering av utdata genom snabb ingenjörskonst i generativt lÀge med hjÀlp av Metas Lama 3.1 och 3.3 sprÄkmodeller.
Eftersom, enligt författarna, ingen offentligt tillgÀnglig datauppsÀttning erbjöd ett direkt sÀtt att testa deras hypotes (eftersom de flesta befintliga samlingar föregÄr LLM:er och saknar detaljerade metadata), byggde de en riktmÀrkesdatauppsÀttning frÄn Comcast Entertainment plattform, som betjÀnar tiotals miljoner anvÀndare via direkta och tredjepartsgrÀnssnitt.
DatamÀngden spÄrar nyligen slÀppta filmer och huruvida de senare blev populÀra, med popularitet definierad genom anvÀndarinteraktioner.
Samlingen fokuserar pÄ filmer snarare Àn serier, och författarna konstaterar:
"Vi fokuserade pÄ filmer eftersom de Àr mindre pÄverkade av extern kunskap Àn tv-serier, vilket förbÀttrar experimentens tillförlitlighet."
Etiketter tilldelades genom att analysera den tid det tog för en titel att bli populÀr över olika tidsfönster och liststorlekar. LLM:en fick metadatafÀlt som snÀll, synopsis, betyg, var, gjutas, besÀttning, humör, UtmÀrkelseroch teckentyper.
Som jÀmförelse anvÀnde författarna tvÄ baslinjer: en slumpmÀssig ordning och en populÀr inbÀddningsmodell (PE) (som vi kommer att Äterkomma till strax).
Projektet anvĂ€nde stora sprĂ„kmodeller som primĂ€r rangordningsmetod, och genererade ordnade listor över filmer med förutspĂ„dda popularitetspoĂ€ng och tillhörande motiveringar â och dessa resultat formades av snabba ingenjörsstrategier utformade för att vĂ€gleda modellens förutsĂ€gelser med hjĂ€lp av strukturerad metadata.
Promptstrategin utformade modellen som en "redaktionell assistent" som fick i uppdrag att identifiera vilka kommande filmer som mest sannolikt skulle bli populÀra, enbart baserat pÄ strukturerad metadata, och sedan fick i uppdrag att omordna en fast lista med titlar. utan introducera nya objekt och returnera utdata i JSON format.
Varje svar bestod av en rankad lista, tilldelade popularitetspoÀng, motiveringar för rankningarna och referenser till tidigare exempel som pÄverkat resultatet. Dessa flera nivÄer av metadata var avsedda att förbÀttra modellens kontextuella förstÄelse och dess förmÄga att förutse framtida publiktrender.
Tester
Experimentet följde tvÄ huvudsteg: inledningsvis testade författarna flera modellvarianter för att faststÀlla en baslinje, vilket innebar att man identifierade den version som presterade bÀttre Àn en slumpmÀssig ordningsmetod.
För det andra testade de stora sprÄkmodeller i generativt lÀge, genom att jÀmföra deras resultat med en starkare baslinje, snarare Àn en slumpmÀssig rangordning, vilket ökar uppgiftens svÄrighetsgrad.
Detta innebar att modellerna var tvungna att prestera bÀttre Àn ett system som redan visade en viss förmÄga att förutsÀga vilka filmer som skulle bli populÀra. Som ett resultat, hÀvdar författarna, Äterspeglade utvÀrderingen bÀttre verkliga förhÄllanden, dÀr redaktionella team och rekommendationssystem sÀllan vÀljer mellan en modell och slumpen, utan mellan konkurrerande system med varierande nivÄer av förutsÀgbar förmÄga.
Fördelen med okunnighet
En viktig begrÀnsning i denna uppstÀllning var tidsgapet mellan modellernas kunskapsavgrÀnsning och filmernas faktiska utgivningsdatum. Eftersom sprÄkmodellerna trÀnades pÄ data som slutade sex till tolv mÄnader innan filmerna blev tillgÀngliga, hade de ingen tillgÄng till information efter utgivningen, vilket sÀkerstÀllde att förutsÀgelserna helt baserades pÄ metadata och inte pÄ nÄgon inlÀrd publikrespons.
BaslinjeutvÀrdering
För att konstruera en baslinje genererade författarna semantiska representationer av filmmetadata med hjÀlp av tre inbÀddningsmodeller: BERT V4; Linq-Embed-Mistral 7Boch Llama 3.3 70B, kvantiserad till 8-bitars precision för att möta begrÀnsningarna i den experimentella miljön.
Linq-Embed-Mistral valdes ut för inkludering pÄ grund av dess topplacering pÄ MTEB (Massive Text Embedding Benchmark) leader.
Varje producerad modell vektor inbÀddningar av kandidatfilmer, vilka sedan jÀmfördes med den genomsnittliga inbÀddningen av de hundra mest populÀra titlarna frÄn veckorna före varje films slÀpp.
Popularitet berÀknades med hjÀlp av cosinuslikhet mellan dessa inbÀddningar, dÀr högre likhetspoÀng indikerar högre förvÀntad attraktionskraft. Rangordningsnoggrannheten för varje modell utvÀrderades genom att mÀta prestanda mot en slumpmÀssig ordningsbaslinje.

PrestandaförbÀttring av populÀra inbÀddningsmodeller jÀmfört med en slumpmÀssig baslinje. Varje modell testades med fyra metadatakonfigurationer: V1 inkluderar endast genre; V2 inkluderar endast synopsis; V3 kombinerar genre, synopsis, innehÄllsbetyg, karaktÀrstyper, humör och utgivningsera; V4 lÀgger till skÄdespelare, besÀttning och utmÀrkelser till V3-konfigurationen. Resultaten visar hur rikare metadataindata pÄverkar rankningsnoggrannheten. KÀlla: https://arxiv.org/pdf/2505.02693
Resultaten (visas ovan) visar att BERT V4 och Linq-Embed-Mistral 7B levererade de starkaste förbÀttringarna nÀr det gÀllde att identifiera de tre mest populÀra titlarna, Àven om bÄda inte lyckades förutsÀga vilket enskilt mest populÀrt objekt som helst.
BERT valdes slutligen som basmodell för jÀmförelse med LLM:erna, eftersom dess effektivitet och totala vinster övervÀgde dess begrÀnsningar.
LLM-utvÀrdering
Forskarna bedömde prestationen med hjÀlp av tvÄ rankningsmetoder: parvis och listvisParvis rangordning utvÀrderar om modellen korrekt ordnar ett objekt i förhÄllande till ett annat; och listvis rangordning beaktar noggrannheten hos hela den ordnade listan med kandidater.
Denna kombination gjorde det möjligt att utvÀrdera inte bara om enskilda filmpar rankades korrekt (lokal noggrannhet), utan ocksÄ hur vÀl den fullstÀndiga listan över kandidater Äterspeglade sann popularitetsordning (global noggrannhet).
fullt, icke-kvantiserad modeller anvÀndes för att förhindra prestandaförlust, vilket sÀkerstÀllde en konsekvent och reproducerbar jÀmförelse mellan LLM-baserade förutsÀgelser och inbÀddningsbaserade baslinjer.
Metrics
För att bedöma hur effektivt sprÄkmodellerna förutspÄdde filmers popularitet anvÀndes bÄde rankingbaserade och klassificeringsbaserade mÀtvÀrden, med sÀrskild uppmÀrksamhet pÄ att identifiera de tre mest populÀra titlarna.
Fyra mĂ€tvĂ€rden tillĂ€mpades: Noggrannhet@1 mĂ€tte hur ofta den mest populĂ€ra artikeln dök upp pĂ„ första plats; Ămsesidig rangordning fĂ„ngade hur högt det översta faktiska objektet rankades i den förutspĂ„dda listan genom att ta det motsatta av dess position; Normaliserad diskonterad kumulativ vinst (NDCG@k) utvĂ€rderade hur vĂ€l hela rankningen matchade den faktiska populariteten, dĂ€r högre poĂ€ng indikerade bĂ€ttre överensstĂ€mmelse; och Recall@3 mĂ€tte andelen verkligt populĂ€ra titlar som förekom i modellens tre bĂ€sta förutsĂ€gelser.
Eftersom det mesta anvÀndarengagemanget sker nÀra toppen av rankade menyer fokuserade utvÀrderingen pÄ lÀgre vÀrden pÄ k, för att Äterspegla praktiska anvÀndningsfall.

PrestandaförbÀttring av stora sprÄkmodeller jÀmfört med BERT V4, mÀtt som procentuella vinster över rankningsmÄtt. Resultaten berÀknades i genomsnitt över tio körningar per modell-prompt-kombination, med de tvÄ högsta vÀrdena markerade. Rapporterade siffror Äterspeglar den genomsnittliga procentuella förbÀttringen över alla mÀtvÀrden.
Prestandan för Llama-modell 3.1 (8B), 3.1 (405B) och 3.3 (70B) utvÀrderades genom att mÀta metriska förbÀttringar i förhÄllande till den tidigare etablerade BERT V4-baslinjen. Varje modell testades med hjÀlp av en serie uppmaningar, frÄn minimala till informationsrika, för att undersöka effekten av indatadetaljer pÄ prediktionskvaliteten.
Författarna sÀger:
"BÀst prestanda uppnÄs nÀr man anvÀnder Llama 3.1 (405B) med den mest informativa prompten, följt av Llama 3.3 (70B). Baserat pÄ den observerade trenden, nÀr man anvÀnder en komplex och lÄng prompt (MD V4), leder en mer komplex sprÄkmodell generellt till förbÀttrad prestanda över olika mÀtvÀrden. Den Àr dock kÀnslig för vilken typ av information som lÀggs till."
Prestandan förbĂ€ttrades nĂ€r skĂ„despelarpriser inkluderades som en del av prompten â i det hĂ€r fallet antalet stora priser som de fem bĂ€sta skĂ„despelarna i varje film fick. Denna rikare metadata var en del av den mest detaljerade promptkonfigurationen och övertrĂ€ffade en enklare version som uteslöt skĂ„despelarigenkĂ€nning. Fördelen var tydligast i de större modellerna, Llama 3.1 (405B) och 3.3 (70B), som bĂ„da visade starkare prediktiv noggrannhet nĂ€r de fick denna ytterligare signal om prestige och publikbekanthet.
DÀremot visade den minsta modellen, Llama 3.1 (8B), förbÀttrad prestanda nÀr uppmaningarna blev nÄgot mer detaljerade och gick frÄn genre till synopsis, men försÀmrades nÀr fler fÀlt lades till, vilket tyder pÄ att modellen saknade förmÄgan att integrera komplexa uppmaningar effektivt, vilket ledde till svagare generalisering.
NÀr uppmaningarna begrÀnsades till enbart genrer, Alla Produkter modellerna presterade underpresterande jÀmfört med baslinjen, vilket visar att begrÀnsad metadata var otillrÀcklig för att stödja meningsfulla förutsÀgelser.
Slutsats
Jurister har blivit sjĂ€lva förebilden för generativ AI, vilket kan förklara varför de anvĂ€nds inom omrĂ„den dĂ€r andra metoder skulle kunna passa bĂ€ttre. ĂndĂ„ finns det fortfarande mycket vi inte vet om vad de kan göra inom olika branscher, sĂ„ det Ă€r vettigt att ge dem en chans.
I just detta fall, precis som med aktiemarknader och vÀderprognoser, finns det bara en begrÀnsad utstrÀckning i vilken historiska data kan tjÀna som grund för framtida förutsÀgelser. NÀr det gÀller filmer och TV-program, sjÀlva leverans metod Àr nu ett rörligt mÄl, i motsats till perioden mellan 1978-2011, dÄ kabel-, satellit- och bÀrbara medier (VHS, DVD, et al.) representerade en serie övergÄende eller förÀnderliga historiska störningar.
Inte heller kan nĂ„gon prediktionsmetod redogöra för i vilken utstrĂ€ckning framgĂ„ngen eller misslyckandet av Ăvrigt produktioner kan pĂ„verka en föreslagen fastighets lönsamhet â och Ă€ndĂ„ Ă€r detta ofta fallet inom film- och tv-branschen, som Ă€lskar att rida pĂ„ en trend.
Icke desto mindre, nÀr de anvÀnds med eftertanke, kan LLM:er bidra till att stÀrka rekommendationssystem under kallstartfasen och erbjuda anvÀndbart stöd inom en rad prediktiva metoder.
Först publicerad tisdagen den 6 maj 2025