Unghiul lui Anderson
Utilizarea inteligenței artificiale pentru a prezice un film de succes

Deși industria filmului și a televiziunii este adesea considerată creativă și deschisă, ea a fost mult timp caracterizată de aversiune la risc. Costurile ridicate de producție (care ar putea pierde în curând avantajul compensatoriu al locațiilor mai ieftine din străinătate, cel puțin pentru proiectele din SUA) și peisajul de producție fragmentat fac dificilă pentru companiile independente să absoarbă o pierdere semnificativă.
Prin urmare, în ultimul deceniu, industria a arătat un interes tot mai mare în a determina dacă învățarea automată poate detecta tendințe sau modele în modul în care publicul răspunde la proiecte de film și televiziune propuse.
Principalele surse de date rămân sistemul Nielsen (care oferă o scară, deși rădăcinile sale se află în televiziune și publicitate) și metodele bazate pe mostre, cum ar fi grupurile de focus, care fac schimb între scară și demografie selectată. Această ultimă categorie include, de asemenea, feedback-ul de la prezentările gratuite de filme – cu toate acestea, în acel moment, cea mai mare parte a bugetului de producție este deja cheltuit.
Teoria/Teoriile “Loviturii Mari”
Inițial, sistemele ML au utilizat metode de analiză tradiționale, cum ar fi regresia liniară, K-Nearest Neighbors, Stochastic Gradient Descent, Decision Tree și păduri, și Neural Networks, de obicei în diverse combinații mai apropiate de analiza statistică pre-AI, cum ar fi o inițiativă din 2019 a Universității Centrale din Florida de a prezice emisiuni de televiziune de succes pe baza combinațiilor de actori și scriitori (printre alți factori):

Un studiu din 2018 a evaluat performanța episoadelor pe baza combinațiilor de personaje și/sau scriitor (majoritatea episoadelor au fost scrise de mai mult de o persoană). Sursă: https://arxiv.org/pdf/1910.12589
Cea mai relevantă lucrare conexă, cel puțin cea care este implementată în sălbăticie (deși adesea criticată) se află în domeniul sistemelor de recomandare:

O pistă tipică de recomandare video. Videoclipurile din catalog sunt indexate folosind caracteristici care pot fi annotate manual sau extrase automat. Recomandările sunt generate în două etape, prin selectarea inițială a videoclipurilor candidate și apoi prin clasarea lor în funcție de un profil de utilizator dedus din preferințele de vizionare. Sursă: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full
Cu toate acestea, aceste abordări analizează proiecte care sunt deja de succes. În cazul noilor spectacole sau filme, nu este clar ce fel de adevăr fundamental ar fi cel mai aplicabil – nu în ultimul rând pentru că schimbările în gusturile publicului, combinate cu îmbunătățirile și extinderile surselor de date, înseamnă că de obicei nu există date consistente pe o perioadă de decenii.
Acesta este un exemplu al problemei de “pornire rece”, în care sistemele de recomandare trebuie să evalueze candidații fără niciun date de interacțiune anterioară. În astfel de cazuri, filtrarea colaborativă tradițională se prăbușește, deoarece se bazează pe modelele din comportamentul utilizatorilor (cum ar fi vizionarea, evaluarea sau partajarea) pentru a genera previziuni. Problema este că, în cazul majorității noilor filme sau spectacole, nu există încă suficient feedback din partea publicului pentru a susține aceste metode.
Comcast Prezice
O nouă lucrare de la Comcast Technology AI, în asociere cu Universitatea George Washington, propune o soluție pentru această problemă, prin încurajarea unui model de limbaj cu metadate structurate despre filme nelansate.
Intrările includ distribuția, genul, sinopsisul, clasa de conținut, starea de spirit și premiile, modelul returnând o listă ordonată a celor mai probabile viitoare succese.
Autorii utilizează ieșirea modelului ca un substitut pentru interesul publicului atunci când nu există date de implicare, sperând să evite o predispoziție timpurie către titlurile care sunt deja bine cunoscute.
Articolul foarte scurt (trei pagini) articolul, intitulat Predicting Movie Hits Before They Happen with LLMs, provine de la șase cercetători de la Comcast Technology AI și unul de la GWU și afirmă:
‘Rezultatele noastre arată că LLM-urile, atunci când utilizează metadatele filmului, pot depăși semnificativ liniile de bază. Această abordare poate servi ca un sistem asistat pentru multiple cazuri de utilizare, permițând evaluarea automată a unor volume mari de conținut nou lansat zilnic și săptămânal. ‘
‘Prin furnizarea de informații timpurii înainte ca echipele editoriale sau algoritmii să acumuleze suficiente date de interacțiune, LLM-urile pot simplifica procesul de examinare a conținutului. ‘
‘Cu îmbunătățirile continue ale eficienței LLM și creșterea agenților de recomandare, informațiile din această lucrare sunt valoroase și adaptabile pentru o gamă largă de domenii.’
Dacă abordarea se dovedește robustă, ar putea reduce dependența industriei de metricele retrospective și de titlurile puternic promovate, introducând o modalitate escalabilă de a marca conținutul promițător înainte de lansare. Astfel, în loc de a aștepta ca comportamentul utilizatorului să semnaleze cererea, echipele editoriale ar putea primi previziuni timpurii, bazate pe metadate, ale interesului publicului, redistribuind potențial expunerea pe o gamă mai largă de lansări noi.
Metodă și Date
Autorii descriu un flux de lucru în patru etape: construirea unui set de date dedicat din metadatele filmelor nelansate; stabilirea unui model de bază pentru comparație; evaluarea LLM-urilor potrivite utilizând atât raționamentul limbajului natural, cât și predicția bazată pe încorporare; și optimizarea ieșirilor prin ingineria promptului în modul generativ, utilizând Llama 3.1 și 3.3 modele de limbaj.
Deoarece, după cum afirmă autorii, niciun set de date disponibil public nu oferea o modalitate directă de a testa ipoteza lor (deoarece majoritatea colecțiilor existente preced LLM-urile și lipsesc metadatele detaliate), ei au construit un set de date de referință din platforma de divertisment Comcast, care deservește zeci de milioane de utilizatori prin interfețe directe și terțe.
Setul de date urmărește filmele nou lansate și dacă acestea devin ulterior populare, popularitatea fiind definită prin interacțiunile utilizatorilor.
Colecția se concentrează pe filme, mai degrabă decât pe serii, și autorii afirmă:
‘Ne-am concentrat pe filme pentru că sunt mai puțin influențate de cunoștințe externe decât serialele de televiziune, îmbunătățind fiabilitatea experimentelor.’
Etichetele au fost atribuite prin analizarea timpului necesar pentru ca un titlu să devină popular în diferite ferestre de timp și dimensiuni de listă. LLM a fost încurajat cu câmpuri de metadate, cum ar fi genul, sinopsisul, evaluarea, epoca, distribuția, echipa, starea de spirit, premiile și tipurile de personaje.
Pentru comparație, autorii au utilizat două linii de bază: o ordonare aleatorie; și un model de încorporare populară (PE), care va fi descris în curând.
Proiectul a utilizat modele de limbaj mari ca metodă principală de clasament, generând liste ordonate de filme cu scoruri de popularitate prevăzute și justificări însoțitoare – și aceste ieșiri au fost modelate de strategii de inginerie a promptului, concepute pentru a ghida previziunile modelului, utilizând metadate structurate.
Strategia de încurajare a modelat modelul ca pe un “asistent editorial” însărcinat cu identificarea filmelor care urmează să devină probabil populare, pe baza exclusivă a metadatelor structurate, și apoi să reordoneze o listă fixă de titluri fără introducerea de articole noi și să returneze ieșirea în format JSON.
Fiecare răspuns a constat într-o listă ordonată, scoruri de popularitate atribuite, justificări pentru clasamente și referințe la orice exemple anterioare care au influențat rezultatul. Aceste multiple niveluri de metadate au fost destinate să îmbunătățească înțelegerea contextuală a modelului și capacitatea sa de a anticipa tendințele viitoare ale publicului.
Teste
Experimentul a urmat două etape principale: inițial, autorii au testat mai multe variante de modele pentru a stabili o linie de bază, implicând identificarea versiunii care a performant mai bine decât o abordare de ordonare aleatorie.
În al doilea rând, au testat LLM-urile în mod generativ, comparând ieșirile lor cu o linie de bază mai puternică, mai degrabă decât o ordonare aleatorie, ridicând dificultatea sarcinii.
Acest lucru a însemnat că modelele trebuiau să facă mai bine decât un sistem care a arătat deja o anumită capacitate de a prezice care filme vor deveni populare. Ca urmare, autorii afirmă că evaluarea reflectă mai bine condițiile din lumea reală, în care echipele editoriale și sistemele de recomandare rareori aleg între un model și șansă, ci între sisteme concurente cu niveluri diferite de capacitate predictivă.
Avantajul Ignoranței
O constrângere cheie în această configurație a fost decalajul de timp dintre data de închidere a cunoștințelor modelului și datele reale de lansare a filmelor. Deoarece modelele de limbaj au fost antrenate pe date care s-au încheiat cu șase până la doisprezece luni înainte de lansarea filmelor, nu au avut acces la informații post-lansare, asigurând că previziunile s-au bazat exclusiv pe metadate și nu pe niciun răspuns al publicului învățat.
Evaluarea Liniei de Bază
Pentru a construi o linie de bază, autorii au generat reprezentări semantice ale metadatelor filmului, utilizând trei modele de încorporare: BERT V4; Linq-Embed-Mistral 7B; și Llama 3.3 70B, cuantificat la precizia de 8 biți pentru a îndeplini constrângerile mediului experimental.
Linq-Embed-Mistral a fost selectat pentru includere datorită poziției sale de top în clasamentul MTEB (Massive Text Embedding Benchmark).
Fiecare model a produs încorporări vectoriale ale filmelor candidate, care au fost comparate cu încorporarea medie a celor o sută de titluri cele mai populare din săptămânile care au precedat lansarea fiecărui film.
Popularitatea a fost dedusă utilizând similaritatea cosinusoidală între aceste încorporări, scorurile de similaritate mai mari indicând o atracție prevăzută mai mare. Precizia de clasament a fiecărui model a fost evaluată prin măsurarea performanței împotriva unei ordonări aleatorii.

Îmbunătățirea performanței modelelor de încorporare populară în comparație cu o linie de bază aleatorie. Fiecare model a fost testat utilizând patru configurații de metadate: V1 include doar genul; V2 include doar sinopsisul; V3 combină genul, sinopsisul, evaluarea conținutului, tipurile de personaje, starea de spirit și epoca de lansare; V4 adaugă distribuția, echipa și premiile la configurația V3. Rezultatele arată cum intrările de metadate mai bogate afectează acuratețea clasamentului. Sursă: https://arxiv.org/pdf/2505.02693
Rezultatele (prezentate mai sus) demonstrează că BERT V4 și Linq-Embed-Mistral 7B au livrat cele mai puternice îmbunătățiri în identificarea celor trei titluri cele mai populare, deși ambele au căzut ușor scurt în predicția celui mai popular articol.
BERT a fost în cele din urmă selectat ca model de bază pentru comparație cu LLM-urile, deoarece eficiența și câștigurile sale generale au depășit limitările sale.
Evaluarea LLM
Cercetătorii au evaluat performanța utilizând două abordări de clasament: pereche și listă. Clasamentul pereche evaluează dacă modelul ordonează corect un articol relativ la altul; și clasamentul listei consideră acuratețea întregii liste ordonate de candidați.
Această combinație a făcut posibilă evaluarea nu numai a faptului dacă perechile de filme individuale au fost clasate corect (acuratețe locală), ci și a modului în care întreaga listă de candidați reflectă ordinea reală de popularitate (acuratețe globală).
Modelele complete, nequantificate, au fost utilizate pentru a preveni pierderea performanței, asigurând o comparație consistentă și reprodusă între previziunile bazate pe LLM și liniile de bază bazate pe încorporare.
Metrici
Pentru a evalua cât de bine modelele de limbaj prevăd popularitatea filmului, au fost utilizate atât metrici bazate pe clasament, cât și pe clasificare, cu atenție specială pentru identificarea celor trei titluri cele mai populare.
Patru metrici au fost aplicate: Acuratețe@1 a măsurat cât de des articolul cel mai popular a apărut în prima poziție; Reciprocal Rank a capturat cât de sus a fost clasat articolul superior în lista prevăzută, luând inversa poziției sale; Normalized Discounted Cumulative Gain (NDCG@k) a evaluat cât de bine clasamentul întreg a corespuns popularității reale, scorurile mai mari indicând o aliniere mai bună; și Recall@3 a măsurat proporția titlurilor cu adevărat populare care au apărut în primele trei previziuni ale modelului.
Deoarece majoritatea interacțiunilor utilizatorilor au loc aproape de partea superioară a meniurilor ordonate, evaluarea s-a concentrat pe valori mai mici ale k, pentru a reflecta cazurile practice.

Îmbunătățirea performanței modelelor de limbaj mare în comparație cu BERT V4, măsurată ca procente de câștiguri în metrici de clasament. Rezultatele au fost mediate pe zece rulări pe combinație de model-prompt, valorile superioare fiind evidențiate. Figurile raportate reflectă media de îmbunătățire a procentului în toate metricile.
Performanța modelului Llama 3.1 (8B), 3.1 (405B) și 3.3 (70B) a fost evaluată prin măsurarea îmbunătățirilor metricilor față de linia de bază BERT V4 stabilită anterior. Fiecare model a fost testat utilizând o serie de prompturi, de la minimale la informații bogate, pentru a examina efectul detaliilor de intrare asupra calității previziunii.
Autorii afirmă:
‘Cea mai bună performanță este atinsă atunci când se utilizează Llama 3.1 (405B) cu promptul cel mai informativ, urmat de Llama 3.3 (70B). Pe baza tendinței observate, atunci când se utilizează un prompt complex și lung (MD V4), un model de limbaj mai complex duce în general la o performanță îmbunătățită în diferite metrici. Cu toate acestea, este sensibil la tipul de informații adăugate.’
Performanța s-a îmbunătățit atunci când premiile distribuției au fost incluse ca parte a promptului – în acest caz, numărul de premii majore primite de cei mai bine plasați cinci actori din fiecare film. Aceste metadate mai bogate au făcut parte din configurația de prompt cea mai detaliată, depășind o versiune mai simplă care excludea recunoașterea distribuției. Beneficiul a fost cel mai evident în modelele mai mari, Llama 3.1 (405B) și 3.3 (70B), ambele arătând o acuratețe predictivă mai puternică atunci când li s-a oferit acest semnal suplimentar de prestigiu și familiaritate a publicului.
În schimb, modelul cel mai mic, Llama 3.1 (8B), a arătat o performanță îmbunătățită atunci când prompturile au devenit puțin mai detaliate, progresând de la gen la sinopsis, dar a scăzut atunci când au fost adăugate mai multe câmpuri, sugerând că modelul a lipsit de capacitatea de a integra prompturi complexe în mod eficient, conducând la o generalizare mai slabă.
Atunci când prompturile au fost limitate la gen singur, toate modelele au subperformat în comparație cu linia de bază, demonstrând că metadatele limitate au fost insuficiente pentru a susține previziuni semnificative.
Concluzie
LLM-urile au devenit copilul preferat al inteligenței artificiale generative, ceea ce ar putea explica de ce sunt puse la lucru în domenii în care alte metode ar putea fi mai potrivite. Chiar și așa, există încă multe lucruri pe care nu le știm despre ceea ce pot face în diferite industrii, deci are sens să le dăm o șansă.
În acest caz particular, la fel ca în piețele bursiere și prognozele meteo, există doar o limită până la care datele istorice pot servi ca fundament pentru previziunile viitoare. În cazul filmelor și emisiunilor de televiziune, metoda de livrare este acum o țintă în mișcare, în contrast cu perioada dintre 1978-2011, când cablul, satelitul și suporturile media portabile (VHS, DVD etc.) au reprezentat o serie de perturbări istorice tranzitorii sau evolutive.
Nicio metodă de previziune nu poate lua în considerare măsura în care succesul sau eșecul altor producții poate influența viabilitatea unei proprietăți propuse – și, cu toate acestea, acesta este adesea cazul în industria filmului și a televiziunii, care îi place să urmeze o tendință.
Cu toate acestea, atunci când sunt utilizate cu grijă, LLM-urile ar putea ajuta la consolidarea sistemelor de recomandare în timpul fazei de “pornire rece”, oferind suport util într-o gamă de metode predictive.
Publicat pentru prima dată marți, 6 mai 2025










