Andersonの視点

新しい研究：真正に「パーソナライズされた」広告を提案

公開日 2026年6月2日

著者

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

「セルフプロモーションの」再定義として、新しい方法はユーザーのクリック履歴を利用して、ユーザーの特定の履歴に基づいたカスタマイズされたウェブ広告を作成する。

広告代理店は、ユーザーが家で話した内容に基づいて広告を表示することができる「広告ファンネル」が存在するという考えを否定しようとしているが、ウェブサイトやソーシャルメディアアプリの広告における「パーソナライゼーションの」程度は、近年、注目を集めてきた。

広告主の理想的なシナリオは、表示される広告が視聴者にとって「完全な一致」であることである。オンライントラッキングに対する一般的な反発や、ユーザーが設置したトラッキング防止措置の限界の中で、生成的なAI（LLM広告に関する懸念を除く）は、リアルタイムに広告画像やコピーを生成することができる。

しかし、研究の主な推進力とこれまでの実装の大部分は、集約された使用統計に基づいており、生成される広告は、視聴者の推定されたコホートグループに基づいており、視聴者のユニークな履歴に基づいていない。

現在、中国と米国の共同研究により、ユーザーの過去のクリック履歴から学習して、個々のユーザー向けに広告画像やテキストを生成するシステムが提案されている。これは、コホートベースの仮定に基づく従来のパーソナライズ広告研究を超えたものである。

個別にカスタマイズされた広告の例。ユーザーの履歴がなければ、全体の影響は想像するのみである。 ソース

通常、新しいアプローチは、拡散モデルに基づくモデルを避けて、自律再帰的なアーキテクチャを採用している。主な違いは、拡散モデルは視覚的なノイズから画像を徐々に精緻化するのに対し、自律再帰モデルはコンテンツを一つずつ生成し、前の要素から新しい要素を予測することである。

ウォールドガーデン

この研究の提案された範囲は、広告主が新しい第三者トラッキングに対抗する方法を提供するものではなく、十分に大きな小売業者が、ログインしている顧客に直接関係する広告を表示する力を与えるものである。

これは、現在クライアントが閲覧している小売業者のサイトに限定されるものではなく、ユーザーが小売業者にトラッキングを許可した範囲に応じて、他のサイトでもターゲット広告を表示することができる。

このような広告のリーチは、Amazonのような大規模な小売業者に限定されることが多いが、同様の規模の関心事（例えば人気のソーシャルメディアプラットフォーム）であれば、同様の生成フレームワークを生成することができる。

新しい論文は、Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Modelsというタイトルで、中国のSun Yat-Sen University、Northeastern University、中国最大の小売業者JD.comの18人の著者によって発表された。コードは、GitHubで公開されており、関連するチェックポイントも公開されている。

データと方法

このプロジェクトで構築されたデータセットは、Personalized Advertising image-text（PAd1M）と呼ばれ、JD.comによって提供されたデータによって動作する。著者は次のように述べている。

「各製品は通常、10を超える候補画像とテキストを提供し、多様な嗜好が完全に検出されることを保証する。信頼性の高い嗜好モデリングを可能にするために、画像とテキストの両方について、ユーザーのクリック履歴を収集し、不十分な活動を減らすために、不十分なユーザーをフィルタリングする。」

「これにより、1,145,371人のユーザー、18,923,555のクリックされた製品画像とテキスト、ユーザーあたり16を超える多モーダルな履歴行動が得られる。」

各ユーザーについて、以前クリックした画像テキストペアがターゲット例として選択され、製品自体が画像から分離された後、セラー提供の説明と販売ポイントがレコードに追加され、データセットが作成された。各ターゲット広告は、透明な製品画像、構造化された製品情報、以前の画像とテキストの相互作用の履歴とともに提供される。

PAd1Mデータセットからのユーザープロファイル。ターゲット広告と、広告を生成するために使用された製品情報、ユーザーの嗜好をモデル化するために使用された歴史的な画像とテキストの相互作用が表示される。

結果として得られるデータセットは、100万を超えるユーザーと、約1900万のクリックされた画像とテキストのレコードを提供し、著者は、このコレクションが以前のパーソナライゼーションデータセットよりも大きいことを示している。

さらに、データは、画像とテキストの両方を組み合わせており、ユーザーの嗜好を単一のドメイン内ではなく、複数のモダリティーでモデル化することができる。

PAd1Mには、個別レベルの嗜好追跡も含まれており、以前の広告データセットとは異なり、クリック率を大規模なグループ全体で集計するのではなく、JD.comのデータから特定のユーザーへのリンクを提供する。

メトリックとして、標準的なBLEUとROUGEの他に、研究者は独自のカスタム測定値であるProduct Background Similarity（PBS）を開発した。PBSは、681,123の画像ペアを使用してトレーニングされ、同じ製品を異なる背景で表示する画像に対して、背景の変化ではなく製品自体に焦点を当てたものである。

Product Background Similarity（PBS）は、同じ製品を異なる視覚的なコンテキストで表示する広告に対して、他のメトリックよりも大きな類似度の違いを示す。

トレーニング中、各画像は自分自身を正の例としてペアリングされ、同じ製品を異なる設定で表示する画像は負の例として使用された。評価結果は、PBSがCLIP、DINO v3、またはMoCov3よりも背景コンテキストに対する感度が高いことを示している。

Uni-AdGenモデルは、自律再帰的なビジョン言語アーキテクチャを使用して、広告テキストと画像の両方を生成する。プロセスは、タスク定義、製品説明、販売ポイントを含む構造化された指示によって導かれる。

方法の概要。

特殊な区切りトークンが広告コピーの部分を定義する。テキストが生成された後、画像トークンが画像生成をトリガーし、画像トークンの終了がその完了をマークする。生成されたトークンは、テキストと画像の両方のデコーダーに送信される。

画像の場合、LlamaGenのVQ-GANデコーダーが使用されており、離散的な画像トークンをピクセルに戻すことができる。

このように、統一されたアーキテクチャは、テキストと画像の両方を単一の次のトークン予測フレームワーク内で生成する。以前の広告システムでは、別々のパイプラインが使用されていた。

トレーニング中、モデルは両方のモダリティーを同時に学習し、テキストトークンは入力シーケンスと以前のテキストに基づいて予測され、画像トークンは入力シーケンス、生成されたテキスト、以前の画像トークンに基づいて予測される。

生成された広告を推進する製品に結び付けるために、Uni-AdGenは、DINO v2に基づくforeground-perception moduleを使用して、透明な製品画像からの情報を自律再帰モデルに注入する。

Instruction-tuning（モデルを製品固有の生成指示に従うようにトレーニングする）も、販売者提供の説明と販売ポイントへの従順性を向上させるために使用された。GPT-4oは、不適切なトレーニング例をフィルタリングするために使用された。

パーソナライゼーションは、coarse-to-fineの嗜好理解モジュールに依存していた。歴史的な相互作用は、ターゲットアイテムに似た製品を好むように、Product Similarity Sampling（PSS）パイプラインを介してフィルタリングされた。残りのレコードは、Multimodal Preference Extractionステージを介して処理され、視覚的な要素とテキスト要素の両方でユーザーの関心を反映する可能性のある要素を特定する。嗜好は、生成を導くためにプロンプトに挿入された。

テスト

著者は、テストアプローチがDeepSeek’s Janus-Pro 7Bから派生したものであると述べている。

モデルは、バッチサイズ4で、AdamWオプティマイザで、学習率5e-5でトレーニングされた。ベースモデルは、LoRAを介してファインチューンされた。foreground perceptionとmultimodal preference extractionは、完全にファインチューンされた（つまり、LoRAとは異なり、ベースモデルの重みが永久に変更された）。

すべてのテストは、NVIDIA B200 GPUで、192GBのVRAMを使用して実行された。画像生成の場合、PickScore、ImageReward、ASEが、視覚的な品質を評価するために使用された。人間の評価者は、画像のリアリズムとレイアウトの品質、テキストの正確性と流暢性も評価した。すべてのメトリックは、500の製品にわたって計算された。

画像生成の場合、Qwen2.5-VLとGPT-4oが、製品画像から背景プロンプトを作成するために使用された。ReliableAd、PosterMaker、Flux-Fillが、最終的な広告を生成するために使用された。テキスト生成の比較は、Qwen2.5、Qwen3、DeepSeek-R1に対して行われた。

初期のベースラインの量的結果は以下のとおりである。

一般的な広告生成ベンチマークのパフォーマンス。Uni-AdGenは、美的品質とPickScoreの点で、最も強い画像生成ベースラインに匹敵または上回り、統一された画像とテキストモデルは、すべてのテキスト生成アプローチの中で最高のm-ROUGEスコアを達成した。人間の評価結果は、両方のモダリティーで競合した。

これらの結果について、著者は次のように述べている。

「私たちの方法は、ImageRewardと人間の評価で最高のパフォーマンスを達成し、美的および高可用性の点で優れたパフォーマンスを示している。ReliableAdは人間の評価でリードしているが、美的メトリックでは大きく後退している。一方、PosterMakerとFlux-Fillは視覚的に魅力的な画像を生成しているが、明らかな使いやすさの制限がある。」

「効果的な制御アプローチにより、私たちの方法は、視覚的なコンテンツと実用的なユーティリティの間で最適なバランスを達成することに成功している。」

パーソナライズされた広告生成は、500人のユーザーにわたって、PBSを使用して画像の類似性を評価し、BLEUとROUGEを使用して生成されたテキストを、ユーザーが実際にクリックした製品と比較することで評価された。

一般的な広告ベースラインは、ユーザーの履歴を組み込むことができないため、比較はパーソナライゼーションを目的としたシステムに切り替えられた。画像生成の場合、Flux-KontextとPigeonがベースラインとして選択された。Flux-Kontextは、ターゲット製品画像とともに、以前のユーザーの画像グリッドを提供され、以前の嗜好が生成に影響を与えることができる。

テキスト生成の比較は、Qwen3とDeepSeek-R1に対して行われた。歴史的な製品説明が直接インストラクションテンプレートに挿入され、ユーザー固有のコンテキストが提供された。

パーソナライズされた広告生成の結果。Uni-AdGenは、Flux-Kontext、Pigeon、Qwen3、DeepSeek-R1を超えて、すべての報告されたパーソナライゼーションメトリックで優れた結果を示した。消去実験は、歴史的なユーザーデータ、Product Similarity Sampling（PSS）、および多モーダルな嗜好抽出が、それぞれ測定可能な利益をもたらしたことを示した。

ここで、著者は次のように述べている。

「視覚化された結果は、Flux-Kontextがユーザーの嗜好を理解できず、サンプルレベルのノイズに敏感で、真実値から大きく逸脱していることを示している。例えば、オートバイの画像における無関係なアイテムがそのような結果である。」

パーソナライズされた広告生成の例。Uni-AdGenは、Flux-Kontext、Pigeon、Qwen3、DeepSeek-R1と比較して、ユーザーが実際にクリックした広告の視覚的なスタイルとコンテキストに合った画像を生成し、製品の属性と販売ポイントをより多く捉えたテキストを生成した。マッチする用語は緑で強調表示される。