زاوية Anderson

الاستعداد للреклама في نماذج اللغة الكبيرة

Published September 18, 2025

Updated May 18, 2026

Martin Anderson

Source: ChatGPT-4o and https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

تظهر الأبحاث الجديدة كيف يمكن أن تكون الإعلانات متضمنة مباشرة داخل إجابات نموذج ChatGPT – وليس كلافتات أو نوافذ منبثقة، ولكن منسوجة في الاستجابة نفسها. ويقدم معيار جديد اختبارًا لمدى فعالية هذه الإجابات المضمنة للإعلانات في الحفاظ على الفائدة والمصداقية والربحية، ويمكن أن يتطلب توازنًا بين تجربة المستخدم المقبولة والإشارات النقر.

مع انتشار نموذج اللغة الكبيرة ونموه، فإن الطرق التقليدية للتسويق التي قامت بها الإنترنت تقريبًا منذ نشأتها، سوف يفكر أي شخص مألوف مع استراتيجيات الاستحواذ على السوق من قبل المستثمرين في رأس المال في كيفية إدراج المحتوى الإعلاني في استجابات النماذج.

وكما تظهر نتفليكس وخدمات البث التى تتوسع تجربة، فإن استراتيجية العصر الكبلي التقليدية المتمثلة في الجمع بين الاشتراكات المدفوعة والمحتوى الإعلاني المضمن (الذي يبرر غالبًا على أنه وسيلة لخفض تكاليف المستهلك) تكتسب زخمًا؛ وانحرافًا نحو دمج الإعلانات مباشرة في مخرجات النماذج يبدو أكثر واقعية.

من الورقة ‘الإعلانات عبر الإنترنت مع نماذج اللغة الكبيرة: الفرص والتحديات’، مثال相当 ممثل للتحول الذي يتوقعه معظم الناس عند تحقيق نموذج اللغة الكبيرة

من المحتمل أن يبدو إدراج الإعلانات في وسط جديد بالفعل مشكلة في مصداقية، ومع ذلك فإن حجم الاستثمار في الذكاء الاصطناعي خلال الأشهر الاثني عشر الماضية يشير إلى أن السوق لا يُحدد حاليًا بمواقف حذر أو محتاط.

GEM-Bench

مع هذا المناخ والتحفيزات التجارية في الاعتبار، تقدم ورقة جديدة من سنغافورة أول معيار يهدف إلى واجهات نموذج اللغة، جنبًا إلى جنب مع معايير كمية جديدة لما قد يثبت أنه واحد من أكثر مجالات الإعلان انفجارًا في 100 عام.

ربما على أمل، يفترض المؤلفون تقسيمًا نظيفًا بين المحتوى “الحقيقي” والمحتوى الإعلاني، حيث يكون الانحراف عن الاستجابات القياسية إلى نسخة تسويقية سهل التمييز:

أمثلة على نوع التكامل الإعلاني الذي قد يحدث في ظل النماذج التي تمت دراستها في الورقة الجديدة. مصدر: https://arxiv.org/pdf/2509.14221

يظل من غير المعروف ما إذا كان المعلنون أنفسهم سوف يسعون إلى إدراج محتوى إعلانيهم بشكل أكثر خفية في المخرجات مقارنة بالأمثلة المذكورة في الورقة.

ومع ذلك، فهذه هي الأمور التي ستتم في وقت لاحق؛ لأن المجال في هذه المرحلة المبكرة جدًا، حتى المصطلحات الأساسية مفقودة أو لم يتم الاتفاق عليها بعد.

تُقدم الورقة因此 تسويق محرك التوليد (GEM) كإطار جديد لتحقيق نموذج اللغة الكبيرة القائمة على النماذج، من خلال إدراج الإعلانات ذات الصلة مباشرة في الاستجابات المولدة.

يحدد الباحثون توليد استجابة محقونة بالإعلان (AIR) كتحدي مركزي في GEM، ويجادلون بأن المعايير الحالية غير مناسبة لدراستها. لملء هذا الفجوة، يقدمون ما يُدعى بأنه أول معيار مصمم خصيصًا لهذا الغرض.

يتكون GEM-Bench من ثلاث مجموعات بيانات منسقة تمتد لسيناريوهات محادثة ومحرك بحث. كما يتضمن معيارًا مُصممًا لتقييم جوانب متعددة من رضا المستخدم والتفاعل، جنبًا إلى جنب مع مجموعة من الطرق الأساسية المُحكمة في إطار متعدد الوكلاء.

يزعم المؤلفون أنه بينما يمكن أن تحقق الطرق القائمة على الإشارة احترامًا لبيانات الانخراط، مثل معدلات النقر المرتفعة، فإنها تميل إلى تدهور رضا المستخدم. من خلال المقارنة، يمكن أن تحقق المناهج التي تدرج الإعلانات في استجابات خالية من الإعلانات مسبقًا تحسينات في الثقة وجودة الاستجابة – على الرغم من أن هذا يأتي على حساب زيادة في التكلفة الحاسوبية.

تُظهر هذه التحولات، كما يُدعي في الورقة، الحاجة إلى تقنيات أكثر فعالية وفعالية لدمج الإعلانات في المخرجات التوليدية.

العمل الجديد بعنوان GEM-Bench: معيار لتحويل استجابة محقونة بالإعلان في تسويق محرك التوليد، ويأتي من أربعة باحثين في جامعة سنغافورة الوطنية.

الطريقة

يستمد مخطط تسويق محرك التوليد (GEM) من مبادئ قاعدة تسويق محركات البحث (SEM). يعمل SEM التقليدي عن طريق مطابقة الاستعلامات للإعلانات من خلال خط أنابيب متعدد المراحل حيث يُقدم المعلنون عطاءات على الكلمات الرئيسية؛ تحدد النظام أي استعلامات تُفعيل الإعلانات؛ يقدر النظام مدى احتمال النقر على كل إعلان؛ ثم يُخصص وضعًا من خلال مزاد يوازن بين العطاءات والانخراط المتوقع.

من خلال المقارنة، يُعدل نهج GEM هذه المراحل إلى النماذج، ولكنها تواجه تحديات جديدة في كل خطوة: لا توجد مساحات إعلانية ثابتة، لذلك يجب على النظام أن ي决定 ما إذا كان الاستعلام يمكن أن يأخذ إعلانًا وأين يدرج في نص حر؛ يصبح تقدير معدلات النقر أكثر صعوبة بدون تخطيطات منسقة؛ ويجب موازنة الصلة مع رضا المستخدم، لأن الإعلانات تُنسج مباشرة في مخرجات النموذج نفسه chứ لا تُقدم كنسخة مستقلة.

تمثل إحدى الطرق الأساسية التي تمت دراستها في العمل، Ad-Chat، طريقة بسيطة حيث يُدرج محتوى الإعلان في نظام الإشارة قبل توليد الاستجابة. هذا يعني أن النموذج ينتج استجابة تحتوي على الإعلان المضمن بالفعل، تحت إرشاد جدول أعمال مسبق.

تطوير الطريقة الأخرى، Ad-LLM، تم تطويره من قبل المؤلفين كجزء من معيار جديد. يتبع Ad-LLM مسارًا مُحكمًا، أولاً بتوليد استجابة نظيفة خالية من الإعلانات؛ ثم اختيار إعلان ذي صلة؛ تحديد أفضل نقطة إدراج بناءً على تدفق семанти؛ وأخيرًا إعادة كتابة المخرجات لتكامل الإعلان بسلاسة:

مقارنة بين Ad-Chat وطريقة ‘Ad-LLM’ للمؤلفين. يُحقن Ad-Chat الإعلانات عبر نظام الإشارة قبل التوليد، مع سيطرة محدودة على الوضع. يُفرق Ad-LLM بين توليد الاستجابة وإدراج الإعلان، واختيار نقاط الإدراج بناءً على تدفق семанти، وتحسين النتيجة

بينما يُظهر Ad-Chat أنخفاض التكلفة وأحيانًا أكثر إقناعًا، إلا أنه يميل إلى تقليل الثقة والدقة. يؤدي Ad-LLM بشكل أفضل على مقاييس رضا المستخدم، ولكن بتكلفة أكبر.

البيانات

لتحويل استجابة محقونة بالإعلان، تم إنشاء نوعان من مجموعات البيانات في البداية: مجموعة استعلامات المستخدم (المستخدم) وقاعدة بيانات الإعلانات (AdDB).

由于 استعلامات المستخدم تحدد فرص الإعلان في استجابات النموذج، يمكن القول إن “مخزون الإعلان” يوجد في هذه الاستجابات، على الرغم من أن هذا يُحدد ليس فقط من خلال ملاءمة استعلام المستخدم ولكن أيضًا من مدى امتثال النظام لقواعده الخاصة حول موازنة الصدق مع أهداف المعلنين.

في أي حال، ستظهر الإعلانات فقط في الاستجابات، حتى لو (انظر إلى مخطط أعلاه) قد يتم تعزيز طلبات المستخدمين سرًا لاستيعاب عملية تقديم الإعلانات.

لسيناريو محادثة، بنى المؤلفون مجموعتي استعلامات: MT-Human وLM-Market.

تم سحب MT-Human من قسم العلوم الإنسانية من MT-Bench، وهو معيار متعدد الدورات لنماذج اللغة، ويحتوي على أسئلة قد تتيح إدراج محتوى إعلاني.

تم بناء LM-Market من أكثر من نصف مليون استعلام حقيقي لChatGPT تم جمعه بواسطة LMSYS-Chat-1M، وتمت تصفيته لاستعلامات التسويق ذات الصلة باللغة الإنجليزية، وتم تجميعها حسب الموضوع باستخدام التركيبات الدلالية.

في كلتا الحالتين، تم اختيار الاستعلامات النهائية من خلال خط أنابيب متعدد المراحل يجمع بين التجميع الآلي، وتصنيف نموذج اللغة، والتحقق البشري، مع الهدف من تحديد الاستعلامات التي يمكن أن يكون فيها إدراج الإعلان طبيعيًا وممكنًا.

为了 تقييم جودة استجابات محقونة بالإعلان، يُعرّف GEM معيارًا يغطي رضا المستخدم والانخراط. هذا يشمل مقاييس كمية مثل تدفق الاستجابة، الترابط، ومعدل النقر، بالإضافة إلى معايير نوعية مثل الثقة، الدقة، والطبيعية – مقاييس تهدف إلى反映 مدى ملاءمة الإعلان في الاستجابة، ومدى احتمال أن يدرك المستخدمون ويتفاعلون معه.

بخصوص “الطبيعية”، يُذكر في الورقة:

‘تُقاس مدى انحراف إدراج الإعلان عن تدفق وطبيعية المحادثة، بناءً على القفزة أو الشعور الفجائي أثناء القراءة، وكسرة تركيز المستخدم المستمر على الموضوع. ‘

‘تُقيم الصحة ما إذا كان الإعلان يُخدش “اللمسة الإنسانية” أو “الطبعية” للمحادثة، مما يجعل الاستجابة تبدو صلبة، وصفية، وأقل صحة.’

تم إنشاء مجموعة بيانات بعنوان CA-Prod من مجموعة AdsCVLR التجارية، التي تحتوي على 300,000 زوج من الاستعلام والإعلان، كل منها يتكون من كلمة رئيسية، وبيانات وصفية، ووسم يدوي يُشير إلى الصلة:

من الورقة الأصلية، أمثلة من مجموعة AdsCVLR، التي ساهمت في توفير المواد للاختبارات

تم إزالة السجلات التي تحتوي على حقول مفقودة، وتم الاحتفاظ فقط بالاستعلامات التي تحتوي على إعلانات إيجابية وسلبية (انظر الصورة أعلاه لمثالات)، وتم تجميع الإعلانات في ست مجموعات مواضيعية (معدات الحديقة والبستنة، أحذية السحب، الأشياء المنزلية، مكملات التغذية، أجهزة Android، وفساتين النساء) باستخدام التضمين الدلالي وتجميع K-means.

تم تعيين الاستعلامات إلى المواضيع وفقًا للإعلانات الإيجابية، مع استبعاد المجموعات المفرطة في الندرة أو الكثافة، قبل أخذ عينة من 120 استعلامًا و2,215 منتجًا فريدًا للمعيار.

الاختبارات

لتحديد مدى فعالية استراتيجيات إدراج الإعلانات، تعامل المعيار مع ثلاث أسئلة أساسية: كيف كانت فعالية كل طريقة عبر مقاييس رضا المستخدم والانخراط المحددة؛ كيف يمكن أن تؤثر اختيارات التصميم الداخلي في Ad-LLM على النتائج؛ وكيف سيكون التكلفة الحاسوبية مقارنةً بالأنظمة.

تم تقييم Ad-Chat وثلاثة متغيرات من خط أنابيب Ad-LLM للمؤلفين، كل منها يختلف في كيفية استرجاع الإعلانات (إما من الإشارة أو من الاستجابة المولدة)، وفيما إذا كانت النتيجة النهائية مكتوبة lại للاسهاب.

تم تشغيل جميع الطرق باستخدام doubao-1-5-lite-32k كنموذج أساسي، وتم تقييمها باستخدام gpt-4.1-mini.

فعالية Ad-Chat وAd-LLM عبر مجموعات البيانات MT-Human وLM-Market وCA-Prod. تشمل المقاييس الكمية تدفق الاستجابة، ترابط الاستجابة، تدفق الإعلان، ترابط الإعلان، معدل الحقن، معدل النقر، والدرجات الإجمالية. تشمل المقاييس النوعية الدقة، الطبيعية، الشخصية، الثقة، الانتباه، النقر، والأداء الإجمالي

عبر جميع مجموعات البيانات الثلاث، أنتج Ad-LLM نتائج أقوى من Ad-Chat على مقاييس رضا المستخدم والانخراط. كما هو موضح في جدول النتائج أعلاه، улучمت أفضل متغيرات Ad-LLM على Ad-Chat بنسبة 8.4 و1.5 و3.8 في المائة في الدرجات الكمية الإجمالية؛ وبنسبة 10.7 و10.4 و8.6 في المائة في الدرجات النوعية لMT-Human وLM-Market وCA-Prod على التوالي.

من هذه النتائج، يُذكر المؤلفون:

‘تُظهر هذه النتائج أن توليد استجابة خام ثم حقن الإعلانات يُنتج جودة استجابة أفضل مقارنة بالنهج البسيط الذي يعتمد على حقن الإعلان عبر الإشارة.’

‘لأبعاد رضا المستخدم والانخراط الفردية، يُظهر Ad-Chat فجوة أداء كبيرة مقارنة بحلول Ad-LLM عبر جميع مجموعات البيانات الثلاث، خاصة في أبعاد مثل الدقة والشخصية والثقة.’

أظهر Ad-LLM مكاسبه الأكبر في الدقة والشخصية والثقة، متجاوزًا Ad-Chat بنسبة تصل إلى 17.6 و23.3 و17.2 في المائة على التوالي. وفقًا للورقة، يمكن أن تنتج هذه الفروق من الطريقة التي يستخدم بها Ad-Chat الإشارات النظامية لتحويل النموذج نحو لغة أكثر شخصنة وترويجية – والتي يُدعى أنها تؤدي إلى نغمة “بائع” تقلل من الدقة والثقة.

كما أنتج Ad-Chat معدلات حقن أقل، حتى عند تقييمه على استعلامات تم اختيارها لملاءمتها للإعلانات، ويعزى المؤلفون ذلك إلى الاعتماد على إشارات النظام (التي يُوصفونها بأنها صعبة التحكم).

في إعداد محرك البحث، على الرغم من ذلك، حقق Ad-Chat معدل النقر الأعلى بنسبة 8.6 في المائة، ويفترض المؤلفون أن هذا قد يعكس ميزة استخدام نموذج اللغة لاسترجاع مرشحي المنتجات، بدلاً من الاعتماد على التضمين الدلالي وحده:

مقارنة الأداء الإجمالي عبر أربعة نماذج حكم (GPT-4.1-mini وQwen-max وclaude-3-5-haiku وkimi-k2) لAd-Chat وثلاثة متغيرات من Ad-LLM (GI-R وGIR-R وGIR-P) على مجموعات البيانات MT-Human وLM-Market وCA-Prod. بينما تختلف الدرجات حسب الحكم، يُحافظ Ad-LLM على تفوقه على Ad-Chat عبر جميع الحالات

أخيرًا، يُلاحظ في الورقة أن كلاً من Ad-Chat وAd-LLM يتطلبان موارد أعلى من النماذج الأكثر ابتكارًا وفعالية، وأن الحاجة إلى استخدام وكلاء نموذج اللغة في هذا النوع من المعاملات يمكن أن تمثل عبئًا كبيرًا. على الرغم من ذلك، فإن تنفيذ المؤلفين لاستراتيجية Ad-Chat (الصف العلوي في المخطط المذكور في بداية المقال) قد قدم أعلى معدل نقر، على الرغم من أن لديه أعلى تكلفة نموذج اللغة.

الاستنتاج

ليس من المفاجئ أن الأدب يُفترض في طرق إدراج الإعلانات في نماذج اللغة الكبيرة؛ ومع ذلك، هناك القليل من الأبحاث المتاحة علنًا حول هذا الموضوع، مما يجعل الورقة الحالية وماقبلها مثيرًا للاهتمام.

من المحتمل أن يرغب المعلنون في تقديم إعلاناتهم كمحتوى حقيقي، غير مميز عن تدفق المحتوى المضيف، وسيدفعون مبلغًا كبيرًا مقابل ذلك، جنبًا إلى جنب مع المضيف الذي يخاطر بصدقه ووضعه مع قراءه والمشتركين الآخرين.

سيكون من المثير للاهتمام رؤية مدى تقدم الإضافات الإعلانية التي تُصورها الورقتان، إن وجدت، إلى أعلى استجابة نموذج اللغة، وأقرب إلى “الحمولة”.

نُشر لأول مرة يوم الخميس، 18 سبتمبر 2025