Anderson의 관점

AI를 사용하여 블록버스터 영화 예측

Published May 6, 2025

Updated April 3, 2026

Martin Anderson

영화와 텔레비전은 종종 창의적이고 개방적인 산업으로 여겨지지만, 오랫동안 위험 회피적인 경향이 있습니다. 높은 제작 비용(미국 프로젝트의 경우 적어도海外 촬영지의 저렴한 비용의 상쇄 효과를 곧 잃을 수 있음)과 단편적인 제작 환경으로 인해 독립 회사들이 큰 손실을 흡수하기 어렵습니다.

따라서 지난 10년 동안 산업계는 기계 학습이 제안된 영화와 텔레비전 프로젝트에 대한 관객의 반응에서 추세 또는 패턴을 감지할 수 있는지에 대한 관심이 증가했습니다.

주된 데이터 소스는 尼尔森 시스템(텔레비전과 광고의 뿌리지만 규모를 제공함)과 표본 기반 방법인 포커스 그룹(규모를 대신에 커레이션된 인구 통계를 제공함)입니다. 후者の 범주에는 무료 영화 미리 보기의 점수 카드 피드백도 포함되지만, 그 시점에서 대부분의 제작 예산은 이미 지출되었습니다.

빅 히트 이론

초기에는 ML 시스템이 선형 회귀, K-최근접 이웃, 확률적 경사 하강, 의사 결정 트리 및 포레스트, 신경망과 같은 전통적인 분석 방법을 활용했으며, 이러한 방법은 일반적으로 전 AI 통계 분석과 유사한 스타일로 조합되었습니다. 예를 들어, 2019년 중앙 플로리다 대학의 성공적인 TV 쇼 예측을 위한 이니셔티브는 배우와 작가(그 외의 요인)를 결합한 조합을 기반으로 했습니다:

2018년 연구에서 캐릭터와/또는 작가의 조합에 따라 에피소드의 성능을 평가했습니다(대부분의 에피소드는 한 명 이상의 사람이 작성했습니다). 출처: https://arxiv.org/pdf/1910.12589

가장 관련된 관련 연구, 즉 야생에서 배포된 연구는 추천 시스템 분야에 있습니다:

일반적인 비디오 추천 파이프라인. 카탈로그의 비디오는 수동으로 주석을 달거나 자동으로 추출된 기능을 사용하여 색인이 생성됩니다. 추천은 두 단계로 생성되며, 먼저 후보 비디오를 선택한 다음 사용자 프로필을 시청 선호도에서 추론하여 순위를 매깁니다. 출처: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

그러나 이러한 접근 방식은 이미 성공한 프로젝트를 분석합니다. 새로운 영화 또는 쇼의 경우 적용할 수 있는 가장 적합한 근거 사실이 무엇인지 명확하지 않습니다. 특히, 대중의 취향의 변화와 데이터 소스의 개선 및 보강으로 인해 일관된 데이터가 일반적으로 10년 이상 제공되지 않습니다.

이것은 콜드 스타트 문제의 예입니다. 여기서 추천 시스템은 이전 상호 작용 데이터 없이 후보를 평가해야 합니다. 이러한 경우 전통적인 협력 필터링이崩壊합니다. 협력 필터링은 사용자 행동(시청, 평가, 공유 등)의 패턴을 기반으로 예측을 생성하기 때문입니다. 문제는 대부분의 새로운 영화 또는 쇼에 대해 아직 이러한 방법을 지원할 수 있는 충분한 관객 피드백이 없다는 것입니다.

Comcast 예측

Comcast Technology AI와 조지 워싱턴 대학의 새로운 논문은 구조화된 메타데이터를 언어 모델에 프롬프트하여 이 문제를 해결하는 솔루션을 제안합니다.

입력에는 캐스트, 장르, 시놉시스, 콘텐츠 등급, 분위기, 수상 등이 포함되며, 모델은 향후 히트할 가능성이 있는 영화의 순위 목록을 반환합니다.

저자들은 모델의 출력을 사용하여 관객의 관심을 나타내는 대리자로 사용합니다. 이는 아직 상호 작용 데이터가 없는 경우를 피하기 위해 제목이 이미 잘 알려진 경우 초기 편향을 피하는 것을 목표로 합니다.

매우 짧은(3페이지) 논문은 “LLM을 사용하여 영화 히트를 예측”이라는 제목으로 Comcast Technology AI의 6명의 연구자와 GWU의 1명이 저술했으며, 다음과 같이述합니다:

‘我们的 결과는 LLM이 영화 메타데이터를 사용하여 기준을 크게 초과하는 것을 보여줍니다. 이 접근 방식은 여러 사용 사례에 대한 보조 시스템으로 작동할 수 있으며, 일일 및 주간으로 출시되는大量의 새로운 콘텐츠에 대한 자동 점수를 가능하게 합니다. ‘

‘편집 팀이나 알고리즘이 충분한 상호 작용 데이터를 축적하기 전에 초기 통찰력을 제공함으로써 LLM은 콘텐츠 검토 프로세스를 간소화할 수 있습니다. ‘

‘LLM의 효율성 개선과 추천 에이전트의 부상으로 인해 이 연구의 통찰력은 귀중하고 다양한 도메인에 적응할 수 있습니다.’

이 접근 방식이 강건하다면, 이는 후향적 지표와 많이 홍보된 제목에 대한 산업의 의존도를 줄이고, 출시 이전에 유망한 콘텐츠를 플래그하는 확장 가능한 방법을 도입함으로써 줄일 수 있습니다. 따라서 편집 팀은 사용자 행동을 신호로 기다리는 대신 메타데이터 기반의 초기 예측을 받을 수 있으며, 이는 새로운 출시물에 대한 노출을 더 넓게 재분배할 수 있습니다.

방법 및 데이터

저자들은 4단계 워크플로우를 설명합니다. 전용 데이터셋을 구성하는 것부터 시작하여, 비교를 위한 기준 모델을 설정하고, 적절한 LLM을 평가하고, 생성 모드에서 프롬프트 엔지니어링을 통해 출력을 최적화합니다. 메타의 Llama 3.1과 3.3 언어 모델을 사용합니다.

저자들은 공개적으로 사용 가능한 데이터셋이 직접적으로 가설을 테스트하는 방법을 제공하지 않았기 때문에(대부분의 기존 컬렉션은 LLM 이전에 만들어졌으며, 자세한 메타데이터가 없음), Comcast 엔터테인먼트 플랫폼에서 벤치마크 데이터셋을 구축했습니다. 이 플랫폼은 직접 및 제3자 인터페이스를 통해 수천만 명의 사용자를 지원합니다.

데이터셋은 새로 출시된 영화를 추적하며, 나중에 인기 있는지 여부를 확인합니다. 인기 있는지 여부는 사용자 상호 작용으로 정의됩니다.

수집은 영화에 초점을 맞추며, 시리즈는 외부 지식의 영향을 덜 받기 때문에 실험의 신뢰성을 높입니다.

레이블은 시간 창과 목록 크기에 따라 제목이 인기 있는지 여부를 분석하여 할당됩니다. LLM은 장르, 시놉시스, 등급, 시대, 캐스트, 크루, 분위기, 수상, 캐릭터 유형 등과 같은 메타데이터 필드로 프롬프트됩니다.

비교를 위해 저자들은 두 가지 기준선을 사용했습니다. 하나는 무작위 순서이고, 다른 하나는 Popular Embedding(PE) 모델입니다.

프로젝트는 큰 언어 모델을 주요 순위 지정 방법으로 사용하여, 예측 인기 점수와 함께 순위가 지정된 영화 목록을 생성했습니다. 출력은 구조화된 메타데이터를 사용하여 모델의 예측을 안내하기 위한 프롬프트 엔지니어링 전략에 의해 형성되었습니다.

프롬프트 전략은 모델을 ‘편집 보조’로 프레임화했으며, 구조화된 메타데이터만을 기반으로 업무에 가장 많이 사용될 영화를 식별하는 것을 담당했습니다. 모델은 새로운 항목을 도입하지 않고 고정된 제목 목록을 재정렬하고 JSON 형식으로 출력을 반환하는 것이 목표입니다.

각 응답은 순위가 지정된 목록, 할당된 인기 점수, 순위에 대한 정당성, 및 결과에 영향을 미친 이전 예를 참조하는 여러 수준의 메타데이터로 구성되었습니다. 이러한 여러 수준의 메타데이터는 모델의 맥락적 이해와 미래의 관객 트렌드를 예측하는 능력을 향상시키기 위한 것입니다.

테스트

실험은 두 단계로 진행되었습니다. 처음에는 저자들이 기준선보다 더 잘 수행하는 모델 변형을 식별하기 위해 여러 모델 변형을 테스트했습니다.

두 번째로, 저자들은 생성 모드에서 큰 언어 모델을 테스트했으며, 비교를 위한 더 강력한 기준선과 비교했습니다. 이는 모델이 무작위 순서와의 비교가 아닌, 이미 일부 예측 능력을 보여주는 시스템과 비교하는 것을 의미했습니다.

이로 인해 평가가 실제 상황을 더 잘 반영되었습니다. 여기서 편집 팀과 추천 시스템은 모델과 기회 사이에서 선택하는 것이 아니라, 다양한 예측 능력을 가진 경쟁 시스템 사이에서 선택합니다.

무지의 이점

이 설정의 주요 제약 조건 중 하나는 모델의 지식 컷오프와 영화의 실제 출시 날짜 사이의 시간 간격이었습니다. 언어 모델은 출시 이후 정보에 접근할 수 없기 때문에, 예측은 메타데이터에만 기반하여 이루어졌으며, 학습된 관객 반응에는 기반하지 않았습니다.

기준선 평가

기준선을 구성하기 위해 저자들은 세 가지 임베딩 모델을 사용하여 영화 메타데이터의 의미적 표현을 생성했습니다. BERT V4, Linq-Embed-Mistral 7B, Llama 3.3 70B(실험 환경의 제약을 충족하기 위해 8비트 정밀도로 양자화됨)입니다.

Linq-Embed-Mistral은 MTEB(매시브 텍스트 임베딩 벤치마크) 리더보드에서 1위를 차지했기 때문에 포함되었습니다.

각 모델은 후보 영화의 벡터 임베딩을 생성했으며, 이는 이전에 각 영화의 출시 이전 주에 가장 인기 있는 상위 100개의 제목의 평균 임베딩과 비교되었습니다.

인기 있는지 여부는 코사인 유사성을 사용하여 추론되었습니다. 유사성 점수가 높을수록 예측된 매력이 높습니다. 각 모델의 순위 정확도는 무작위 순서 기준선에 대한 성능을 측정하여 평가되었습니다.

인기 임베딩 모델이 무작위 기준선과 비교하여 순위 정확도 개선 사항. 각 모델은 4개의 메타데이터 구성으로 테스트되었습니다. V1은 장르만 포함하고, V2는 시놉시스만 포함하며, V3은 장르, 시놉시스, 콘텐츠 등급, 캐릭터 유형, 분위기, 출시 시대를 결합합니다. V4는 V3 구성에 캐스트, 크루, 수상 등을 추가합니다. 결과는 더 풍부한 메타데이터 입력이 순위 정확도에 미치는 영향을 보여줍니다. 출처: https://arxiv.org/pdf/2505.02693

결과는 BERT V4와 Linq-Embed-Mistral 7B가 상위 3개의 가장 인기 있는 제목을 식별하는 데 가장 강력한 개선을 제공했지만, 가장 인기 있는 항목을 예측하는 데 약간 부족했다는 것을 보여줍니다.

최종적으로 BERT는 LLM과 비교하기 위한 기준 모델로 선택되었습니다. 효율성과 전체적인 이익이 제한을 초과했습니다.

LLM 평가

연구자들은 순위 지정 접근 방식의 두 가지를 사용하여 성능을 평가했습니다. 즉, 쌍별 및 목록별 순위 지정입니다. 쌍별 순위 지정은 모델이 한 항목을 다른 항목에 대해 올바르게 순위에 매긴는지 여부를 평가합니다. 목록별 순위 지정은 후보 항목의 전체 순위 목록의 정확성을 고려합니다.

이 조합은 모델이 개별 영화 쌍을 올바르게 순위에 매긴지(지역적 정확성) 뿐만 아니라 전체 후보 목록이 실제 인기 순서를 얼마나 잘 반영하는지(전역 정확성) 평가할 수 있게 합니다.

메트릭

언어 모델이 영화 인기도를 얼마나 잘 예측하는지 평가하기 위해 순위 지정 및 분류 기반 메트릭이 모두 사용되었습니다. 특히 상위 3개의 가장 인기 있는 제목을 식별하는 데 주목했습니다.

네 가지 메트릭이 적용되었습니다. 정확도@1은 가장 인기 있는 항목이 첫 번째 위치에 나타나는 빈도를 측정했습니다. 역순위는 예측된 목록에서 실제 상위 항목의 순위를 측정했습니다. 정렬된 누적 이익(NDCG@k)은 전체 순위가 실제 인기와 얼마나 잘 일치하는지 평가했습니다. 회수@3은 실제로 인기 있는 제목의 비율을 모델의 상위 3개 예측에 나타난 것으로 측정했습니다.

대부분의 사용자 상호 작용이 순위가 지정된 메뉴의 상단 근처에서 발생하기 때문에, 평가에서는 실제 사용 사례를 반영하기 위해 k의 낮은 값을 중심으로 집중했습니다.

큰 언어 모델이 BERT V4와 비교하여 순위 메트릭에서 퍼센트 개선 사항. 결과는 모델-프롬프트 조합당 10회 실행으로 평균화되며, 상위 두 값이 강조 표시됩니다. 보고된 수치는 모든 메트릭에서 평균 퍼센트 개선 사항을 반영합니다.

Llama 모델 3.1(8B), 3.1(405B), 3.3(70B)의 성능은 BERT V4 기준선과 비교하여 메트릭의 퍼센트 개선으로 평가되었습니다. 각 모델은 정보가 풍부한 프롬프트와 최소한의 프롬프트를 포함하여 일련의 프롬프트로 테스트되었습니다. 입력 세부 정보가 예측 품질에 미치는 영향을 조사하기 위해 테스트했습니다.

저자들은 다음과 같이述합니다:

‘가장 좋은 성능은 Llama 3.1(405B)와 가장 정보가 풍부한 프롬프트를 사용하여 달성됩니다. 그 다음은 Llama 3.3(70B)입니다. 관찰된 경향에 따르면, 복잡하고 길이가 긴 프롬프트(MD V4)를 사용하는 경우 일반적으로 더 복잡한 언어 모델이 다양한 메트릭에서 성능을 개선합니다. 그러나 추가된 정보의 유형에 민감합니다.’

성능은 캐스트 수상이 프롬프트의 일부로 포함될 때 개선되었습니다. 이 경우 각 영화의 상위 5명의 배우가 받은 주요 상의 수를 포함하여 더 풍부한 메타데이터가 포함되었습니다. 이 더 풍부한 메타데이터는 성능을 개선하는 데 가장 두드러졌습니다. 특히 더 큰 모델인 Llama 3.1(405B)와 3.3(70B)에서 그렇습니다. 둘 다 추가적인 명성과 관객의 친숙함을 나타내는 신호를 받았을 때 예측 정확도가 더 강했습니다.

반면에 가장 작은 모델인 Llama 3.1(8B)은 프롬프트가 약간 더 자세해지면(장르에서 시놉시스로 진행) 성능이 개선되었지만 더 많은 필드를 추가하면 성능이 약화되었습니다. 이는 모델이 복잡한 프롬프트를 효과적으로 통합할 수 있는 능력이 부족하여 일반화가 약화됨을示しています.

프롬프트가 장르만으로 제한되면 모든 모델이 기준선보다 성능이 저하되었습니다. 이는 제한된 메타데이터만으로는 유의미한 예측을 지원하기에 충분하지 않음을 보여줍니다.

결론

LLM은 생성 AI의 대명사가 되었습니다. 이는 다른 방법이 더 적합할 수 있는 영역에서 이러한 모델을 사용하고 있기 때문입니다. 그러나 여전히 이러한 모델이 다양한 산업에서 수행할 수 있는 것을 모르는 것이 많습니다. 따라서 이러한 모델에 기회를 주는 것이 합리적입니다.

이 경우, 주식 시장과 날씨 예측과 마찬가지로, 역사적 데이터를 미래 예측의 기초로 사용할 수 있는 범위는 제한적입니다. 영화와 텔레비전의 경우, 배달 방법 자체가現在動的な 목표입니다. 이는 1978년부터 2011년까지의 기간과는 대조됩니다. 이 기간 동안 케이블, 위성, 휴대용 미디어(VHS, DVD 등)가 일련의 과도기적이거나 발전하는 역사적 중단을 나타냈습니다.

예측 방법은 다른 제작물의 성공 또는 실패가 제안된 속성의 타당성을 얼마나 影響하는지 설명할 수 없습니다. 그러나 이것은 영화 및 텔레비전 산업에서 자주 발생합니다. 이 산업은 트렌드를 따르기를 좋아합니다.

그러나 신중하게 사용할 때, LLM은 콜드 스타트 期間의 추천 시스템을 강화하는 데 도움이 될 수 있습니다. 다양한 예측 방법에 걸쳐 유용한 지원을 제공할 수 있습니다.

처음 게시일: 2025년 5월 6일 화요일