Andersonの視点

映画全編を追跡できるAIの探求

Published February 27, 2026

Updated May 16, 2026

Martin Anderson

AI-generated illustration (GPT-1.5) depicting a POV of a Steenbeck flatbed editing table as robot hands examine celluloid footage of a love scene from an old movie.

AIモデルはまだ、誰が誰であるかと何が起こっているかを追跡することができない。新しいシステムは、顔認識と舞台上の要約をオーケストレートし、キャラクターを正しく識別し、プロットを全長の映画にわたって一貫性を保つ。

人工知能を使用して、ハリウッドスタイルの映画を観て理解することは、ニッチまたはマイナーな取り組みのように思えるかもしれない。しかし、映画の開始から終了まで、全てのキャラクターの進行を追跡し、プロットを把握することができるシステムは、直接的な応用だけでなく、異なるドメインにわたる多くの周辺的な課題にも有益である。

映画観覧AIモデルにとって、低い木の実は、レコメンデーションシステムである。Netflix、Amazon Prime、HBO Maxなどのストリーミングプラットフォームで、プロットの発展とキャラクターの行動を理解することで、視聴者の嗜好や熱意に近い一致を実現できる。

さらに、映画の深い理解により、キーワードの生成とより正確なカテゴリ化が可能になり、古い映画の説明が更新される。また、映画の中に含まれる「成人向け」のテーマを、対話や視覚的な表現から明らかではない場合にも、表面化させることができる。

また、カタログにある古い映画には、古くなった評価や概要がある可能性がある。たとえば、1950年代の映画で使われていた言語や慣用句は、現在ではもっと注意が必要になるかもしれない。しかし、長い物語の文脈を理解することなく、こうした事例は過剰に強調されたり、過小評価されたりする可能性がある。

より広い意味では、映画分析のアプローチの改善は、イベント認識という、セキュリティ監視、自動スポーツ実況、さまざまなメディアの要約などの革新に大きく貢献できる。

したがって、「AIベースの映画観覧」は、コンピュータビジョン文学において、驚くほどよくサブスクライブされたジャンルである。

全体像を見てみる

最新のエントリーは、MovieTellerというタイトルで、中国の学術・産業コラボレーションによって、課題のさまざまなサブタスクをさまざまなAIアプリケーションに分割することで、新しい進歩を遂げている。

著者らは、以前のVision-Language Models（VLMs）が、同じタスクに直面して、シングルフレーム分析を超えて進歩できなかったことを観察している。また、コンテキストの欠如により、キャラクターを一貫して識別することが難しい。

新しいシステム、MovieTellerは、専用の顔認識システムを使用して、シーン内の人物を一貫して識別できる。しかし、コンテキストへの取り組みが、フレームワークをプロットの発展に合わせて維持することを可能にしている。ソース

著者らは次のように述べている。

「汎用のVLMは、長い物語の中で特定のキャラクターを認識して一貫して追跡することが苦手である。彼らは、1つのシーンで主要な登場人物を「男」と表現し、別のシーンで「人物」と表現するが、視覚的な表現を一貫したアイデンティティに結び付けることができない。」

著者らは、Transformerの自己注意メカニズムが二乗の複雑さを使用するため、全長の映画のすべてのフレームを一度に処理することが計算上非常に高価になることを指摘している。したがって、均一なフレームサンプリングや単純な連結に頼るアプローチは、ストーリーの流れを断片化し、まとまりのある物語ではなく断片的な要約を生成する。

代わりに、新しいシステムは、顔認識と記憶の永続性（キャラクターが物語に登場し、再登場する）を扱うための専用ツールを備えた、トレーニング不要のパイプラインで構成されている。

MovieTellerは、60本の全長映画（約10,000分の映像）でテストされた。著者らは、既存のアプローチと比較して、著しく改善されたと報告している。

新しい論文は、MovieTeller：Tool-augmented Movie Synopsis with ID Consistent Progressive Abstractionというタイトルで、中国の杭州にある浙江大学、北京にある中国メディアグループ、Watch AI Group*（後者は北京に基盤を置く）からの5人の著者によって執筆された。

方法

MovieTellerのスキーマは、3つのステージで構成されている：シーンのセグメンテーションとキーフレームの抽出は、PySceneDetectプロジェクトで処理される。事実に基づいたシーンの説明の生成は、Qwen2.5-VL-7B-Instruct VLMのカスタマイズで行われる。進歩的な抽象化は、詳細なシーンの説明を章の要約に凝縮し、そして最終的にまとまりのあるシノプシスに圧縮する。これもQwen2.5モデルで行われる。

MovieTellerフレームワークの概要：全長の映画は最初にシーンに分割され、高品質のキーフレームに凝縮される。次に、外部の顔認識ツールが事実に基づいたシーンの説明を生成するために、キャラクターの名前と位置を結び付ける。

最初のステージでは、PySceneDetectを使用して映画を明確な視覚的な変化に基づいてシーンに分割し、各シーンを1つのキーフレームで表現する。

しかし、すべてのフレームが良い要約画像になるわけではない。移行の瞬間、フェードアウト、暗いフレームは、後の分析を混乱させる可能性がある。したがって、単純な品質チェックが、明るさと視覚的な変化を測定して、情報豊富な画像のみを選択するフィルターランを実行する。

顔の配置

顔のデータベースは、公開されているキャスト情報^†から構築され、各主要なキャラクターの名前とともに数値的な顔の埋め込み^埋め込みを保存する。キーフレームに顔が現れたとき、その埋め込みはデータベースと照合され、信頼性の高い結果が得られれば、キャラクターの名前と位置を結び付ける「事実に基づいた根拠」を作成する。

この目的のために、InsightFaceが使用され、ArcFaceロスベースの認識ヘッドが利用される。

Additive Angular Margin Loss（ArcFace）イニシアチブによって、よく覚えられている2つの顔。MovieTellerプロジェクトでも同様の方法で使用される。 ソース

注釈されたキーフレームは、キャラクターの名前と位置をリストするプロンプトとともに、Qwenモデルに渡される。

ビジョン言語モデルは、全長の映画を1度に吸収できないため、MovieTellerは最初にシーンの説明を生成する。シーンの説明は、章のようなブロックにグループ化され、Qwen2.5に渡される。Qwen2.5は、プロットの発展、キャラクターの動機、転換点を圧縮しながら、以前のキャラクターの名前を保持したまま、章の要約を生成する。

圧縮された章の要約は、モデルに新しいプロンプトとともに返され、完全なシノプシスを生成するよう求める。

シーンの説明を生成するためのサンプルプロンプトテンプレート。キャラクターの名前と位置を明示的に注入して、ビジョン言語モデルを制約し、一貫した物語を強制する。

仮にプロセスが成功したと仮定すると、最終的な出力は、映画の物語のアークをまとまりのあるものとして反映するはずである。これは、長いプロットの要約の多様性と、それが提示されるスタイル、必要なデータポイントの長さが、通常のグラウンドトゥルースベースのアプローチを採用することをほぼ不可能にするため、特に機械学習において困難なタスクである。

データとテスト

システムをテストするために、著者らは、100本の全長映画（約166時間の再生時間）で構成される独自のデータセットをキュレーションした。映画には、アイアンマン3、さらば、わが愛、飲み、食べ、男女、ナルニア国物語が含まれた。研究者らは、すべての映画がIMDBで5.0以上の評価を得ていることを要求した。

100本の映画のデータセット構成。1992年から2025年までのバランスの取れた時間的カバレッジ、英語以外のタイトルのわずかな多数、ドラマとアクションが主導するジャンルの広い範囲、SF、ホラー、コメディ、ロマンス、歴史の表現が含まれる。

幅広いジャンルを扱うことで、特定のジャンルへの偏りを防ぐことを目的としていた。

各映画の顔のデータセットは、主な俳優の2つの写真で構成されていた。1つは映画の静止画、もう1つは関連する広告写真であった。

Pythonで実装されたテストは、4つのNVIDIA A40 GPUで実行され、各GPUには48GBのVRAMが搭載されていた。Qwen2.5バリアントが中央のVLMとして使用された。アブレーションスタディ^††も、代替の最先端モデルInternVL3-8BとWeThink-Qwen2.5VL-7Bで実行された。

新しいフレームワークは、2つのアブレーション^††バリアントと比較してテストされた：No-Hintベースラインでは、ビジョン言語モデルはキーフレームのみからシーンの説明を生成し、キャラクターのアイデンティティについてのテキスト的なヒントは与えられなかった。もう1つは、Name-Only Hint設定で、モデルはキャラクターの名前を与えられたが、位置は与えられなかった。これにより、著者らは、空間的根拠付けの特定の貢献と物語の连貫性を分離することができた。

メトリックについては、長いプロットの要約に対するグラウンドトゥルースベースのアプローチの難しさを考慮して、標準的な-グラムのオーバーラップメトリックであるROUGEとBLEUは使用されず、BERTScoreとF1スコアが使用された。セマンティックな類似性を「パブリックエンサイクロペディア」からの参考シノプシスに対して測定するために使用された。

さらに、Gemini 2.5 Flashが使用されて、各シノプシスが事実の忠実さ、IDの一貫性と完全性、物語の連貫性と流れ、簡潔さについてスコア付けされた。スコアは次元間で平均化された。

最後に、50個のランダムにサンプリングされた要約に対する人間の評価が、ペアワイズの比較によって実行された。参加者は3つの要約を示され、最も良いものを選択するよう求められた。

3つのベースモデルに対する人間の好みの割合。3つのベースモデルすべてで、完全に根拠付けられたMovieTellerの要約が最もよく選択された。

最後に、バレット・ヴァニッシュ（2012）という映画に対する定性的テストが実行された。

この図は、元の論文から再現することができない。詳細については、元の論文を参照してください。

ここでは、No-Hintベースラインは、キャラクターを一般的な用語で表現し、役割を曖昧にし、物語の連続性を難しくする、漠然としたシノプシスを生成する。一方、名前のみを提供することで、表面的な記憶が改善されるが、物語はまだ漂い、キャラクターの関係と動機は「平坦化」された方法で説明される。

逆に、完全に根拠付けられたMovieTellerバージョンは、シノプシス全体でアイデンティティを安定させ、行動を正しいキャラクターに結び付けることで、調査プロットを明確な因果構造で展開することを可能にする。特定の緊張と役割のダイナミクスは、抽象化されずに保存され、物語の中心的なアークのまとまりのある再現として読み取られる。

最終的な比較の一部。完全なMovieTellerの要約とアブレーションを示す。詳細については、元の論文を参照してください。

結論

ほとんどの新しいプロジェクトは、コンピュータビジョン文学に終わるが、AI生成の映画要約は、コンピュータビジョン以外の多くの分野やドメインにも及ぶ。MovieTellerは、タスクを適切なモジュールに分割することで、正しい方向に向かっているが、まだ「組み立てられた」感があり、後でより優雅な解決策が見つかる可能性がある。

* この機関を特定することはできませんでした。

^†IMDBやOMDBのようなものであると想定される。

^††詳細なアブレーションについては、元の論文を参照してください。ここでは、フルアブレーションについてのみ説明しています。ここで言及される未処理のアブレーション研究は、論文の全体的な結論を損なわない。

初めて公開されたのは、2026年2月27日金曜日です。