Connect with us

الاستعداد للреклама في نماذج اللغة الكبيرة

زاوية Anderson

الاستعداد للреклама في نماذج اللغة الكبيرة

mm
Source: ChatGPT-4o and https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

أظهرت الأبحاث الجديدة كيف يمكن أن تكون الإعلانات متضمنة直接ًا داخل إجابات نموذج ChatGPT – وليس كلافتات أو نوافذ منبثقة، ولكن منسوجة في الاستجابة نفسها. ويقدم معيار جديد اختبارًا لمدى فعالية هذه الإجابات الحاوية على إعلانات في البقاء مفيدة ومصدقة ومربحة، وอาจ يتطلب توازنًا بين تجربة المستخدم المقبولة والنقرات.

 

مع شعبية نماذج اللغة الكبيرة المتزايدة، والتي تهدد الأساليب التقليدية للрекламا التي قامت بها الإنترنت تقريبًا منذ نشأتها، فمن الطبيعي أن يتساءل أي شخص مألوف مع استراتيجيات الاستحواذ السوقي لشركات رأس المال الاستثماري عن مدى زمن بقاء روبوتات الدردشة الاصطناعية دون إدراج محتوى إعلاني في استجاباتها.

وكما تُظهر Netflix وخدمات البث المتزايدة، فإن استراتيجية العصر الكبلي التقليدية المتمثلة في الجمع بين الاشتراكات المدفوعة والإعلانات المضمنة (التي غالبًا ما تُبرر كوسيلة لخفض تكاليف المستهلك) تكتسب زخمًا مرة أخرى؛ ويتجه التحول نحو دمج الإعلانات مباشرةً في مخرجات نماذج اللغة الكبيرة إلى أن يبدو أقل تخمينًا، وأكثر مثل هذا النموذج.

من ورقة 'الإعلانات عبر الإنترنت مع نماذج اللغة الكبيرة: الفرص والتحديات'، مثال相当 ممثل للتحول الذي يتوقع معظم الناس عند تحقيق نماذج اللغة الكبيرة للأرباح.

من ورقة ‘الإعلانات عبر الإنترنت مع نماذج اللغة الكبيرة: الفرص والتحديات’، مثال相当 ممثل للتحول الذي يتوقع معظم الناس عند تحقيق نماذج اللغة الكبيرة للأرباح. Source: https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

فكرة إدراج إعلانات في وسط جديد يمتاز بالفعل بمشاكل ملحوظة فيما يتعلق بالصدق، قد تبدو متعجلة؛ ومع ذلك، فإن حجم الاستثمار في الذكاء الاصطناعي التوليدي خلال الأشهر الاثني عشر الماضية يُظهر أن السوق لا يُحدد حاليًا بموقف حذر أو متأمل؛ ومع Players أكبر مثل OpenAI يُعتبر مفرطًا في التمويل ويتطلب عائدًا مبكرًا على الاستثمار الضخم، يشير التاريخ إلى أن فترة العسل لاستجابات خالية من الإعلانات قد تنتهي.

GEM-Bench

مع هذا المناخ والتحفيزات التجارية في الاعتبار، تقدم ورقة جديدة من سنغافورة أول معيار يهدف إلى واجهات روبوتات الدردشة الاصطناعية، جنبًا إلى جنب مع معايير كمية جديدة لما قد يثبت أنه واحد من أكثر ساحات الإعلان انفجارًا في 100 عام.

ربما على أمل، يفترض المؤلفون تقسيمًا أنيقًا بين “المحتوى الحقيقي” والمحتوى الإعلاني، حيث يكون “الانحراف” من استجابات معيارية إلى كتابة تسويقية سهل التمييز:

أمثلة على نوع التكامل الإعلاني الذي قد يحدث في ظل نموذجين دراسيين في الورقة الجديدة.

أمثلة على نوع التكامل الإعلاني الذي قد يحدث في ظل نموذجين دراسيين في الورقة الجديدة. Source: https://arxiv.org/pdf/2509.14221

من غير المعروف بعد ما إذا كان المعلنون أنفسهم سيتعاملون مع محتوى إعلانيهم بطريقة أكثر خفية في الإدخال أكثر من الأمثلة المذكورة في الورقة.

ومع ذلك، هذه هي الأمور للنظر فيها لاحقًا؛ لأن المجال في هذه اللحظة ما زال في مرحلة 初期، حتى أن المصطلحات الأساسية مفقودة أو لم يتم الاتفاق عليها بعد.

لذلك، تقدم الورقة “تسويق محرك التوليد” (GEM) كإطار جديد لتحقيق أرباح من روبوتات الدردشة القائمة على نماذج اللغة الكبيرة، من خلال إدراج إعلانات ذات صلة مباشرة في الاستجابات المولدة.

ويحدد الباحثون “توليد استجابة تحتوي على إعلان” (AIR) كالتحدي المركزي في GEM، ويدعون أن المعايير الحالية غير مناسبة لدراسته. لملء هذا الفجوة، يقدمون ما يُدعون أنه أول معيار مصمم خصيصًا لهذا الغرض.

يتكون GEM-Bench من ثلاث مجموعات بيانات منفصلة تغطي سيناريوهات روبوتات الدردشة ومحركات البحث. كما يتضمن معايير متعددة لقياس جوانب متعددة من رضا المستخدم والتفاعل، جنبًا إلى جنب مع مجموعة من الطرق الأساسية المنفذة في إطار متعدد الوكلاء قابل للتوسيع.

ويُدعي المؤلفون أن जबकان الأساليب البسيطة القائمة على التحفيز يمكن أن تحقق معايير تفاعل محترمة، مثل معدلات نقرات مرتفعة، فإنها تميل إلى تدهور رضا المستخدم. ومن خلال المقارنة، فإن الأساليب التي تدرج الإعلانات في استجابات مولدة مسبقًا خالية من الإعلانات تُظهر تحسينات في الثقة وجودة الاستجابة – على الرغم من التكلفة المتزايدة للعمليات الحسابية.

تُظهر هذه التبادلات، كما يُدعي في الورقة، الحاجة إلى تقنيات أكثر فعالية وفعالية لدمج الإعلانات في المخرجات التوليدية.

العمل الجديد يُسمى GEM-Bench: معيار لتحويل استجابة تحتوي على إعلان في تسويق محرك التوليد، ويأتي من أربعة باحثين من جامعة سنغافورة الوطنية.

الطريقة

مخطط تسويق محرك التوليد (GEM) يُقترض من المبادئ الأساسية لتسويق محركات البحث (SEM). يعمل SEM التقليدي عن طريق مطابقة الاستفسارات إلى الإعلانات من خلال خط أنابيب متعدد المراحل حيث يُقدم المعلنون عطاءات على الكلمات الرئيسية؛ وتحدد النظام أي استفسارات تُفعيل الإعلانات؛ ويُقدر النظام مدى احتمالية كل إعلان بالنقر؛ ثم يُخصص الموضع من خلال مزاد يوازن بين العطاءات والتفاعل المتوقع.

من خلال المقارنة، يُعدل نهج GEM هذه المراحل إلى نماذج اللغة الكبيرة، ولكنه يواجه تحديات جديدة في كل مرحلة: لا توجد مساحات إعلانية ثابتة، لذلك يجب على النظام أن ي决定 ما إذا كان الاستفسار يمكن أن يحتوي على إعلان وأين يُدرج في النص الحر؛ ويُصبح تقدير معدلات النقر أكثر صعوبة بدون تخطيطات منظمَة؛ ويجب موازنة الصلة مع رضا المستخدم، لأن الإعلانات تُنسج مباشرة في مخرجات النموذج نفسها بدلاً من تقديمها كنسخ مستقلة.

واحدة من الأساليب الأساسية التي تمت دراستها في العمل، Ad-Chat، تمثل طريقة بسيطة حيث يُدرج محتوى الإعلان في تحفيز النظام قبل توليد الاستجابة. هذا يعني أن النموذج يُنتج استجابة تحتوي على الإعلان المُدرج مسبقًا، تحت إرشاد جدول أعمال مسبق.

النهج الآخر، Ad-LLM، تم تطويره من قبل المؤلفين كجزء من معيار جديد. يأخذ Ad-LLM مسارًا متوازيًا، أولًا بتوليد استجابة نظيفة خالية من الإعلانات؛ ثم اختيار إعلان ذي صلة؛ وتحديد أفضل نقطة إدراج بناءً على تدفق семанти؛ وأخيرًا إعادة كتابة المخرجات لتكامل الإعلان بسلاسة:

مقارنة بين Ad-Chat وطريقة Ad-LLM للمؤلفين. يُدرج Ad-Chat الإعلانات عبر تحفيز النظام قبل التوليد، مع سيطرة محدودة على الموضع. يُفرق Ad-LLM بين توليد الاستجابة وإدراج الإعلان، واختيار نقاط الإدراج بناءً على التدفق الсеманти، وتنقيح النتيجة.

مقارنة بين Ad-Chat وطريقة Ad-LLM للمؤلفين. يُدرج Ad-Chat الإعلانات عبر تحفيز النظام قبل التوليد، مع سيطرة محدودة على الموضع. يُفرق Ad-LLM بين توليد الاستجابة وإدراج الإعلان، واختيار نقاط الإدراج بناءً على التدفق الсеманти، وتنقيح النتيجة.

في حين أن Ad-Chat هو أكثر ربحية وأحيانًا أكثر إقناعًا، إلا أنه يميل إلى تقليل الثقة والدقة. يُؤدي Ad-LLM بشكل أفضل على معايير رضا المستخدم، ولكن بتكلفة أكبر.

البيانات

لتحويل استجابة تحتوي على إعلان، تم إنشاء نوعين من مجموعات البيانات في البداية: مجموعة استفسارات المستخدم (المستخدم) وقاعدة بيانات الإعلانات (AdDB).

منذ أن تحدد استفسارات المستخدم فرص الإعلان في استجابات نماذج اللغة الكبيرة، يمكن القول إن “مخزون الإعلان” يوجد في هذه الاستجابات، على الرغم من أن هذا لا يُحدد فقط bằng صلاحية استفسار المستخدم ولكن أيضًا مدى امتثال النظام لقواعده الخاصة حول موازنة الصدق مع مبررات المعلنين.

في أي حال، ستظهر الإعلانات فقط في الاستجابات، حتى لو (انظر إلى مخطط أعلاه) قد يتم تعزيز طلبات المستخدمين سرًا لاستيعاب عملية تقديم الإعلانات.

لسيناريو روبوتات الدردشة، بنى المؤلفون مجموعتي استفسارات: MT-Human وLM-Market.

تم سحب MT-Human من جزء العلوم الإنسانية من MT-Bench، وهو معيار متعدد المراحل لنماذج اللغة الكبيرة، ويتضمن أسئلة من المحتمل أن تحتوي على محتوى إعلاني.

تم بناء LM-Market من أكثر من نصف مليون استفسار حقيقي لروبوت الدردشة ChatGPT، تم جمعه بواسطة LMSYS-Chat-1M، وتمت تصفيته لاستفسارات التسويق ذات الصلة باللغة الإنجليزية، وتم تجميعها حسب الموضوع باستخدام التركيبات الсемантиة.

في كلتا الحالتين، تم اختيار الاستفسارات النهائية من خلال خط أنابيب متعدد المراحل يجمع بين التجميع الآلي، وتصنيف نموذج اللغة الكبيرة، والتحقق البشري، مع الهدف من تحديد التحفيزات التي سيكون فيها إدراج الإعلان طبيعيًا ومحتملًا.

للتقييم جودة الاستجابات التي تحتوي على إعلانات، يُعرّف GEM معايير متعددة لقياس رضا المستخدم والتفاعل. هذا يشمل معايير كمية مثل تدفق الاستجابة، الترابط، ومعدل النقر، بالإضافة إلى معايير نوعية مثل الثقة، الدقة، والطبيعية – معايير تهدف إلى反ع映 مدى ملاءمة الإعلان في الاستجابة، ومدى احتمالية تفاعل المستخدم معه.

فيما يتعلق بـ “الطبيعية”، تنص الورقة على:

تُقاس مدى انحراف إدراج الإعلان عن تدفق وطبيعة المحادثة، بناءً على Interruptiveness وAuthenticity.

يُقيم Authenticity ما إذا كان الإعلان يُضعف “اللمسة الإنسانية” أو “التدفق الطبيعي” للمحادثة، مما يجعل الاستجابة تبدو صلبة ومتعمدة وأقل أصالة.

لإنشاء سيناريو تقليدي لمحرك البحث للفحص، أنشأ المؤلفون مجموعة بيانات بعنوان CA-Prod من مجموعة AdsCVLR التجارية، التي تحتوي على 300,000 زوج من الاستفسار والإعلان، كل منها يتكون من كلمة رئيسية وبيانات وصفية ووسم يدوي يُشير إلى الصلة:

من ورقة الأصل، أمثلة من مجموعة AdsCVLR، التي ساعدت في توفير المواد لاختبارات المؤلفين.

من ورقة الأصل، أمثلة من مجموعة AdsCVLR، التي ساعدت في توفير المواد لاختبارات المؤلفين. Source: http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

تم إزالة السجلات ذات الحقول المفقودة، وتم الاحتفاظ فقط بالاستفسارات التي تحتوي على إعلانات إيجابية وسلبية (انظر الصورة أعلاه لمثالات).

لتنقيح البيانات، تم تجميع الإعلانات في ست مجموعات مواضيعية (معدات الحديقة والبستنة، أحذية السحب، أدوات منزلية، مكملات غذائية، أجهزة Android، وفساتين نسائية) باستخدام التركيبات الсемантиة وطريقة K-means.

ثم تم تخصيص الاستفسارات إلى المواضيع وفقًا للإعلانات الإيجابية، مع استبعاد المجموعات المفرطة في ال稀 أو الكثافة، قبل عينة نهائية من 120 استفسار و2,215 منتج فريد تم اختبارها للمعيار.

الاختبارات

للتقييم كيفية أداء استراتيجيات إدراج الإعلانات المختلفة، تناول المعيار ثلاث أسئلة أساسية: مدى فعالية كل طريقة عبر معايير رضا المستخدم والتفاعل المحددة؛ كيف يمكن أن تؤثر خيارات التصميم الداخلية في Ad-LLM على نتائجه؛ وكيف سيكون التكلفة الحسابية مقارنةً عبر الأنظمة.

قام المؤلفون بتقييم Ad-Chat وثلاثة متغيرات من خط أنابيب Ad-LLM، كل منها يختلف في كيفية استرجاع الإعلانات (إما من التحفيز أو من الاستجابة المولدة)، وفيما إذا كانت المخرجات النهائية مُكتوبة لfluency.

تم تشغيل جميع الطرق باستخدام doubao-1-5-lite-32k كنموذج أساسي وتم الحكم عليه باستخدام gpt-4.1-mini.

فعالية Ad-Chat ومتغيرات Ad-LLM عبر مجموعات بيانات MT-Human وLM-Market وCA-Prod. تشمل المعايير الكمية تدفق الاستجابة وترابط الاستجابة وتدفق الإعلان وترابط الإعلان ومعدل الحقن ومعدل النقر والدرجات الكلية. تشمل المعايير النوعية دقة وطبيعية وشخصية وثقة وتنبيه ونقر واداء عام.

فعالية Ad-Chat ومتغيرات Ad-LLM عبر مجموعات بيانات MT-Human وLM-Market وCA-Prod. تشمل المعايير الكمية تدفق الاستجابة وترابط الاستجابة وتدفق الإعلان وترابط الإعلان ومعدل الحقن ومعدل النقر والدرجات الكلية. تشمل المعايير النوعية دقة وطبيعية وشخصية وثقة وتنبيه ونقر واداء عام.

عبر جميع مجموعات البيانات الثلاث، أنتج Ad-LLM نتائج أقوى من Ad-Chat على معايير رضا المستخدم والتفاعل. كما هو موضح في جدول النتائج أعلاه، تحسنت أفضل متغيرات Ad-LLM على Ad-Chat بنسبة 8.4 و1.5 و3.8 في المائة في الدرجات الكمية الكلية؛ وبنسبة 10.7 و10.4 و8.6 في المائة في الدرجات النوعية لمجموعات بيانات MT-Human وLM-Market وCA-Prod على التوالي.

من هذه النتائج، يُشير المؤلفون إلى:

تُظهر هذه النتائج أن توليد استجابة خام ثم إدراج الإعلانات فيما بعد يُنتج جودة استجابة أفضل مقارنة بالنهج البسيط المعتمد على حقن التحفيز فقط.

لأبعاد رضا المستخدم والتفاعل الفردية، يُظهر Ad-Chat فجوة أداء كبيرة مقارنةً بالحلول Ad-LLM عبر جميع مجموعات البيانات الثلاث، خاصةً في أبعاد مثل الدقة والشخصية والثقة.

أظهر Ad-LLM مكاسب قوية في الدقة والشخصية والثقة، متجاوزًا Ad-Chat بنسبة تصل إلى 17.6 و23.3 و17.2 في المائة على التوالي. وفقًا للورقة، يمكن أن تنتج هذه الفروق من الطريقة التي يستخدم بها Ad-Chat تحفيزات النظام لتوجيه النموذج نحو لغة أكثر شخصنة وتسويقية – والتي يُدعي المؤلفون أنها يمكن أن تؤدي إلى نغمة “بائع” تُقلل من الدقة والثقة.

كما أنتج Ad-Chat معدلات حقن أقل، حتى عند تقييمه على استفسارات مختارة لملاءمتها للإعلانات، ويعزى المؤلفون ذلك إلى الاعتماد على إشارات التحفيز (التي يُصعب التحكم فيها).

في إعداد محرك البحث، ومع ذلك، حقق Ad-Chat معدل نقر أعلى بنسبة 8.6 في المائة، ما قد يُشير إلى ميزة استخدام نموذج اللغة الكبيرة لاسترجاع مرشحين للمنتجات، بدلاً من الاعتماد على التركيبات الсемантиة فقط:

مقارنة درجات الأداء الكلية عبر أربعة نماذج حكم (GPT-4.1-mini وQwen-max وclaude-3-5-haiku وكيمي ك2) لAd-Chat وثلاثة متغيرات Ad-LLM (GI-R وGIR-R وGIR-P) على مجموعات بيانات MT-Human وLM-Market وCA-Prod. في حين تختلف الدرجات حسب الحكم، يُحافظ Ad-LLM على تفوقه على Ad-Chat عبر جميع الحالات.

مقارنة درجات الأداء الكلية عبر أربعة نماذج حكم (GPT-4.1-mini وQwen-max وclaude-3-5-haiku وكيمي ك2) لAd-Chat وثلاثة متغيرات Ad-LLM (GI-R وGIR-R وGIR-P) على مجموعات بيانات MT-Human وLM-Market وCA-Prod. في حين تختلف الدرجات حسب الحكم، يُحافظ Ad-LLM على تفوقه على Ad-Chat عبر جميع الحالات.

الاستنتاج

على الرغم من أن من غير الم驚 أن الأدب يُفكر في الطرق التي يمكن لنماذج اللغة الكبيرة أن تحمل الإعلانات، هناك بالفعل القليل من الأبحاث المتاحة حول هذا الموضوع؛ مما يجعل الورقة الحالية، وما يمكن تفسيره بشكل معقول على أنه سابقه، أمرًا مثيرًا للاهتمام.

أي شخص عمل مع قسم مبيعات الإعلانات، أو بيع المخزون، يعرف أن المعلنين يريدون دائمًا المزيد – بشكل مثالي، أن يتم تقديم الإعلانات كمحتوى حقيقي، غير متميز عن تيار المحتوى المضيف؛ وسيدفعون مبلغًا كبيرًا مقابل ذلك (إلى جانب المضيف، الذي يخاطر بذلك بصدقه ومركزه مع القراء والمستفيدين الآخرين).

لذلك سيكون من المثير رؤية مدى تقدم شروط الإعلانات المتوقعة عبر الورقتين، ومدى قربها من “الحمولة” في استجابة نموذج اللغة الكبيرة.

 

نُشر لأول مرة يوم الخميس، 18 سبتمبر 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai