新しい研究:真正に「パーソナライズされた」広告を提案
By Martin Anderson 「セルフプロモーションの」再定義として、新しい方法はユーザーのクリック履歴を利用して、ユーザーの特定の履歴に基づいたカスタマイズされたウェブ広告を作成する。 広告代理店は、ユーザーが家で話した内容に基づいて広告を表示することができる「広告ファンネル」が存在するという考えを否定しようとしているが、ウェブサイトやソーシャルメディアアプリの広告における「パーソナライゼーションの」程度は、近年、注目を集めてきた。広告主の理想的なシナリオは、表示される広告が視聴者にとって「完全な一致」であることである。オンライントラッキングに対する一般的な反発や、ユーザーが設置したトラッキング防止措置の限界の中で、生成的なAI(LLM広告に関する懸念を除く)は、リアルタイムに広告画像やコピーを生成することができる。しかし、研究の主な推進力とこれまでの実装の大部分は、集約された使用統計に基づいており、生成される広告は、視聴者の推定されたコホートグループに基づいており、視聴者のユニークな履歴に基づいていない。現在、中国と米国の共同研究により、ユーザーの過去のクリック履歴から学習して、個々のユーザー向けに広告画像やテキストを生成するシステムが提案されている。これは、コホートベースの仮定に基づく従来のパーソナライズ広告研究を超えたものである。通常、新しいアプローチは、拡散モデルに基づくモデルを避けて、自律再帰的なアーキテクチャを採用している。主な違いは、拡散モデルは視覚的なノイズから画像を徐々に精緻化するのに対し、自律再帰モデルはコンテンツを一つずつ生成し、前の要素から新しい要素を予測することである。ウォールドガーデンこの研究の提案された範囲は、広告主が新しい第三者トラッキングに対抗する方法を提供するものではなく、十分に大きな小売業者が、ログインしている顧客に直接関係する広告を表示する力を与えるものである。これは、現在クライアントが閲覧している小売業者のサイトに限定されるものではなく、ユーザーが小売業者にトラッキングを許可した範囲に応じて、他のサイトでもターゲット広告を表示することができる。このような広告のリーチは、Amazonのような大規模な小売業者に限定されることが多いが、同様の規模の関心事(例えば人気のソーシャルメディアプラットフォーム)であれば、同様の生成フレームワークを生成することができる。新しい論文は、Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Modelsというタイトルで、中国のSun Yat-Sen University、Northeastern University、中国最大の小売業者JD.comの18人の著者によって発表された。コードは、GitHubで公開されており、関連するチェックポイントも公開されている。データと方法このプロジェクトで構築されたデータセットは、Personalized Advertising image-text(PAd1M)と呼ばれ、JD.comによって提供されたデータによって動作する。著者は次のように述べている。「各製品は通常、10を超える候補画像とテキストを提供し、多様な嗜好が完全に検出されることを保証する。信頼性の高い嗜好モデリングを可能にするために、画像とテキストの両方について、ユーザーのクリック履歴を収集し、不十分な活動を減らすために、不十分なユーザーをフィルタリングする。」「これにより、1,145,371人のユーザー、18,923,555のクリックされた製品画像とテキスト、ユーザーあたり16を超える多モーダルな履歴行動が得られる。」各ユーザーについて、以前クリックした画像テキストペアがターゲット例として選択され、製品自体が画像から分離された後、セラー提供の説明と販売ポイントがレコードに追加され、データセットが作成された。各ターゲット広告は、透明な製品画像、構造化された製品情報、以前の画像とテキストの相互作用の履歴とともに提供される。結果として得られるデータセットは、100万を超えるユーザーと、約1900万のクリックされた画像とテキストのレコードを提供し、著者は、このコレクションが以前のパーソナライゼーションデータセットよりも大きいことを示している。さらに、データは、画像とテキストの両方を組み合わせており、ユーザーの嗜好を単一のドメイン内ではなく、複数のモダリティーでモデル化することができる。PAd1Mには、個別レベルの嗜好追跡も含まれており、以前の広告データセットとは異なり、クリック率を大規模なグループ全体で集計するのではなく、JD.comのデータから特定のユーザーへのリンクを提供する。メトリックとして、標準的なBLEUとROUGEの他に、研究者は独自のカスタム測定値であるProduct Background Similarity(PBS)を開発した。PBSは、681,123の画像ペアを使用してトレーニングされ、同じ製品を異なる背景で表示する画像に対して、背景の変化ではなく製品自体に焦点を当てたものである。トレーニング中、各画像は自分自身を正の例としてペアリングされ、同じ製品を異なる設定で表示する画像は負の例として使用された。評価結果は、PBSがCLIP、DINO v3、またはMoCov3よりも背景コンテキストに対する感度が高いことを示している。Uni-AdGenモデルは、自律再帰的なビジョン言語アーキテクチャを使用して、広告テキストと画像の両方を生成する。プロセスは、タスク定義、製品説明、販売ポイントを含む構造化された指示によって導かれる。特殊な区切りトークンが広告コピーの部分を定義する。テキストが生成された後、画像トークンが画像生成をトリガーし、画像トークンの終了がその完了をマークする。生成されたトークンは、テキストと画像の両方のデコーダーに送信される。画像の場合、LlamaGenのVQ-GANデコーダーが使用されており、離散的な画像トークンをピクセルに戻すことができる。このように、統一されたアーキテクチャは、テキストと画像の両方を単一の次のトークン予測フレームワーク内で生成する。以前の広告システムでは、別々のパイプラインが使用されていた。トレーニング中、モデルは両方のモダリティーを同時に学習し、テキストトークンは入力シーケンスと以前のテキストに基づいて予測され、画像トークンは入力シーケンス、生成されたテキスト、以前の画像トークンに基づいて予測される。生成された広告を推進する製品に結び付けるために、Uni-AdGenは、DINO v2に基づくforeground-perception moduleを使用して、透明な製品画像からの情報を自律再帰モデルに注入する。Instruction-tuning(モデルを製品固有の生成指示に従うようにトレーニングする)も、販売者提供の説明と販売ポイントへの従順性を向上させるために使用された。GPT-4oは、不適切なトレーニング例をフィルタリングするために使用された。パーソナライゼーションは、coarse-to-fineの嗜好理解モジュールに依存していた。歴史的な相互作用は、ターゲットアイテムに似た製品を好むように、Product Similarity Sampling(PSS)パイプラインを介してフィルタリングされた。残りのレコードは、Multimodal Preference...