الذكاء الاصطناعي
تعزيز توافق الذكاء الاصطناعي مع القيم الإنسانية من خلال WARM

مواءمة أنظمة الذكاء الاصطناعي مع القيم الإنسانية
أصبحت أنظمة الذكاء الاصطناعي (AI) قادرة بشكل متزايد على مساعدة البشر في المهام المعقدة، بدءًا من روبوتات الدردشة لخدمة العملاء وحتى خوارزميات التشخيص الطبي. ومع ذلك، نظرًا لأن أنظمة الذكاء الاصطناعي هذه تتحمل المزيد من المسؤوليات، فمن الأهمية بمكان أن تظل متوافقة مع القيم والتفضيلات الإنسانية. أحد الأساليب لتحقيق ذلك هو من خلال تقنية تسمى التعلم المعزز من ردود الفعل البشرية (RLHF). في RLHF، تتم مكافأة نظام الذكاء الاصطناعي، المعروف باسم السياسة، أو معاقبته بناءً على الأحكام البشرية لسلوكه. والهدف من ذلك هو أن تتعلم السياسة تعظيم مكافآتها، وبالتالي التصرف وفقا لتفضيلات الإنسان.
أحد المكونات الأساسية لـ RLHF هو نموذج المكافأة (RM). يتحمل مدير المخاطر مسؤولية تقييم إجراءات السياسة ومخرجاتها، وإرجاع إشارة المكافأة لتوجيه عملية التعلم. يعد تصميم إدارة جيدة أمرًا صعبًا، حيث يمكن أن تكون التفضيلات البشرية معقدة، وتعتمد على السياق، وحتى غير متسقة بين الأفراد. في الآونة الأخيرة، اقترح باحثون من Google DeepMind تقنية مبتكرة تسمى نماذج المكافآت ذات الوزن المتوسط (WARM) لتحسين تصميم RM.
المشكلة مع مكافأة القرصنة
المشكلة الرئيسية في RLHF هي اختراق المكافآت. يحدث اختراق المكافآت عندما تجد السياسة ثغرات للتلاعب بنظام RM للحصول على مكافآت عالية دون تحقيق الأهداف المقصودة فعليًا. على سبيل المثال، لنفترض أن الهدف هو تدريب مساعد الكتابة الذكاء الاصطناعي لإنشاء ملخصات عالية الجودة. قد يكافئ RM ملخصات موجزة وغنية بالمعلومات. يمكن للسياسة بعد ذلك أن تتعلم كيفية استغلال ذلك من خلال إنشاء ملخصات قصيرة جدًا وغير معلوماتية مليئة بالكلمات الرئيسية التي تخدع RM.
يحدث اختراق المكافأة لسببين رئيسيين:
- تحول التوزيع – تم تدريب RM على مجموعة بيانات محدودة من الأمثلة التي تم تصنيفها بواسطة الإنسان. عند النشر، قد تأتي مخرجات السياسة من توزيعات مختلفة لا يعممها RM بشكل جيد.
- تسميات صاخبة - وضع العلامات البشرية غير كامل، مع وجود خلافات بين المقيمين. قد يلتصق RM بإشارات زائفة بدلاً من مؤشرات الجودة القوية.
يؤدي اختراق المكافأة إلى أنظمة عديمة الفائدة تفشل في تلبية التوقعات البشرية. والأسوأ من ذلك أنه يمكن أن يؤدي إلى سلوكيات الذكاء الاصطناعي المتحيزة أو حتى الخطيرة إذا تم نشرها بلا مبالاة.
صعود نموذج الدمج
إن الاهتمام المتزايد باستراتيجيات دمج النماذج مثل نموذج راتاتوي مدفوع بإدراك أن النماذج الأكبر، على الرغم من قوتها، يمكن أن تكون غير فعالة وغير عملية. يتطلب تدريب نموذج معلمة يحتوي على تريليون واحد كميات هائلة من البيانات والحوسبة والوقت والتكلفة. والأهم من ذلك، أن مثل هذه النماذج تميل إلى الإفراط في توزيع التدريب، مما يعيق قدرتها على التعميم على سيناريوهات العالم الحقيقي المتنوعة.
يوفر دمج النماذج طريقًا بديلاً لفتح إمكانات أكبر دون التوسع غير المنضبط. من خلال إعادة استخدام نماذج متخصصة متعددة تم تدريبها على توزيعات أو مهام أو أهداف مختلفة، يهدف دمج النماذج إلى تعزيز التنوع والقوة خارج التوزيع. الفرضية هي أن النماذج المختلفة تلتقط أنماطًا تنبؤية متميزة يمكن أن تكمل بعضها البعض عند دمجها.
وتوضح النتائج الأخيرة الوعد الذي يحمله هذا المفهوم. النماذج التي يتم الحصول عليها عن طريق الدمج، على الرغم من وجود معلمات أقل بكثير، يمكن أن تتطابق أو حتى تتجاوز أداء النماذج العملاقة مثل GPT-3. على سبيل المثال، حققت مجموعة نموذج راتاتوي المكونة من 7 نقاط تفتيش متوسطة الحجم فقط دقة متطورة في مجموعات البيانات النصية عالية الأبعاد، متفوقة على GPT-3.
تعتبر بساطة الدمج حسب متوسط الوزن بمثابة مكافأة كبيرة. يتطلب تدريب النماذج المساعدة المتعددة موارد إضافية. لكن الأهم من ذلك هو أن حساب وقت الاستدلال يظل مطابقًا لنموذج واحد، حيث يتم تكثيف الأوزان في نموذج واحد. وهذا يجعل الطريقة قابلة للتكيف بسهولة، دون القلق بشأن زيادة زمن الوصول أو تكاليف الذاكرة.
الآليات الكامنة وراء دمج النماذج
ولكن ما الذي يمكّن بالضبط من تحقيق مكاسب الدقة هذه من دمج النماذج؟ يقدم التحليل الأخير بعض الأدلة:
- التخفيف من الحفظ: يرى كل نموذج دفعات مختلفة من مجموعة البيانات أثناء التدريب. يؤدي حساب المتوسط إلى تقليل أي حفظ خاص بمثيل معين، مع الاحتفاظ فقط بالتعميمات على مستوى مجموعة البيانات.
- تقليل التباين: النماذج التي تم تدريبها بشكل مستقل بها أخطاء غير مترابطة. يؤدي الجمع بينهما إلى تقليل الضوضاء وتحسين المعايرة.
- التنظيم عبر التنوع: المهام المساعدة المتنوعة تجبر النماذج على التمسك بالمزيد من الميزات القابلة للتعميم المفيدة عبر التوزيعات.
- زيادة المتانة: عدم الاتساق في التوقعات يشير إلى عدم اليقين. يؤدي متوسط الأحكام المتطرفة إلى تعزيز الموثوقية.
في جوهر الأمر، يعمل نموذج الدمج على موازنة نقاط الضعف في النماذج الفردية لتضخيم نقاط قوتها الجماعية. يلتقط التمثيل المدمج الهياكل السببية الأساسية المشتركة، متجاهلاً الاختلافات العرضية.
يربط هذا الأساس المفاهيمي دمج النماذج بالتقنيات الشائعة الأخرى مثل التجميع والتعلم متعدد المهام. تستفيد كل هذه الأساليب من التنوع عبر النماذج أو المهام للحصول على أنظمة متعددة الاستخدامات واعية بعدم اليقين. ومع ذلك، فإن بساطة وكفاءة متوسط الوزن تمنح نموذج الدمج ميزة فريدة لتعزيز عمليات النشر في العالم الحقيقي.
نماذج المكافأة ذات الوزن المتوسط
دافئ يستخدم بشكل مبتكر نموذج مكافأة الوكيل (RM)، وهو عبارة عن متوسط وزن للعديد من RMs الفردية، كل منها تم ضبطه بدقة من نفس LLM المدرب مسبقًا ولكن مع معلمات مفرطة مختلفة. تعمل هذه الطريقة على تحسين الكفاءة والموثوقية في ظل تحولات التوزيع والمتانة في مواجهة التفضيلات غير المتسقة. تظهر الدراسة أيضًا أن استخدام WARM كوكيل RM، خاصة مع زيادة عدد متوسط RMs، يحسن النتائج ويؤخر ظهور "اختراق المكافأة"، وهي ظاهرة تتدهور فيها مكافآت التحكم بمرور الوقت.
فيما يلي نظرة عامة رفيعة المستوى:
- ابدأ بنموذج لغة أساسي تم تدريبه مسبقًا على مجموعة كبيرة. قم بتهيئة RMs متعددة عن طريق إضافة طبقات صغيرة خاصة بالمهمة في الأعلى.
- قم بضبط كل RM بشكل منفصل على مجموعة بيانات التفضيلات البشرية، باستخدام معلمات فائقة مختلفة مثل معدل التعلم للتنوع.
- متوسط أوزان RMs الدقيقة للحصول على مجموعة WARM واحدة.
الفكرة الأساسية هي أن متوسط الوزن يحتفظ فقط بالمعلومات الثابتة التي يتم تعلمها عبر جميع RMs المتنوعة. وهذا يقلل من الاعتماد على الإشارات الزائفة، ويعزز المتانة. تستفيد المجموعة أيضًا من تقليل التباين، وتحسين الموثوقية على الرغم من تحولات التوزيع.
كما تمت مناقشته سابقًا، يعد التنوع عبر النماذج المدربة بشكل مستقل أمرًا بالغ الأهمية لإطلاق الإمكانات الكاملة لدمج النماذج. ولكن ما هي بعض التقنيات الملموسة لتعزيز التنوع الإنتاجي؟
تستكشف ورقة WARM بعض الأفكار الذكية التي يمكن تعميمها على نطاق أوسع:
ترتيب المراوغات
هناك نهج تافه ولكنه مؤثر يتمثل في خلط الترتيب الذي يتم من خلاله رؤية نقاط البيانات بواسطة كل نموذج أثناء التدريب. وحتى هذه الخطوة البسيطة تؤدي إلى إلغاء ارتباط الأوزان، مما يقلل من الحفظ الزائد للأنماط.
اختلافات المعلمة الفائقة
يؤدي التغيير والتبديل في المعلمات الفائقة مثل معدل التعلم واحتمالية التسرب لكل عملية تشغيل إلى تقديم تنوع مفيد. تتقارب النماذج بشكل مختلف، وتلتقط خصائص مميزة لمجموعة البيانات.
نقطة التفتيش المتوسطة – البقلاوة
تعمل طريقة البقلاوة على تهيئة النماذج للدمج من لقطات مختلفة على نفس مسار التدريب المسبق. يؤدي هذا إلى تخفيف القيود مقارنة بالحساء النموذجي الذي يتطلب نقطة بداية مشتركة. بالنسبة لنموذج الراتاتوي، تتجنب البقلاوة المهام الإضافية. بشكل عام، فإنه يحقق توازنًا فعالاً بين الدقة والتنوع.

تبدأ العملية بنموذج لغة كبير (LLM) تم تدريبه مسبقًا 𝜃_𝑝𝑡. من هذا النموذج، يتم اشتقاق نقاط التفتيش المختلفة {𝜃_𝑠 𝑓 𝑡_𝑖} أثناء تشغيل الضبط الدقيق الخاضع للإشراف (SFT)، ويتم جمع كل منها في خطوات تدريب SFT مختلفة. يتم بعد ذلك استخدام نقاط التفتيش هذه كعمليات تهيئة لضبط نماذج المكافآت المتعددة (RMs) {𝜙𝑖} في مجموعة بيانات التفضيلات. يهدف هذا الضبط الدقيق إلى تكييف النماذج لتتوافق بشكل أفضل مع التفضيلات البشرية. بعد الضبط الدقيق، يتم دمج RMs هذه من خلال عملية متوسط الوزن، مما يؤدي إلى النموذج النهائي، 𝜙_WARM.
ويؤكد التحليل أن إضافة نقاط تفتيش قديمة عن طريق تحريك المتوسط يضر بالأداء الفردي، مما يضر بمزايا التنوع. إن حساب متوسط التمثيلات النهائية من كل تشغيل يؤدي بشكل أفضل. بشكل عام، يظل تحقيق التوازن بين أهداف التنوع والحفاظ على الدقة تحديًا بحثيًا مفتوحًا.
بشكل عام، يتوافق دمج النماذج بشكل جيد مع الروح العامة في هذا المجال لإعادة تدوير الموارد الموجودة بشكل فعال لتعزيز الموثوقية والكفاءة والتنوع. إن بساطة حساب متوسط الوزن تعمل على ترسيخ مكانتها كمرشح رائد لتجميع نماذج قوية من لبنات البناء المتوفرة بسهولة.
على عكس طرق التجميع التقليدية التي تستخدم متوسط التوقعات، تحافظ WARM على الحد الأدنى من النفقات الحسابية من خلال الحفاظ على مجموعة واحدة فقط من الأوزان. توضح التجارب على مهام تلخيص النص فعالية WARM:
- للحصول على أفضل العينات من N، حققت WARM معدل فوز بنسبة 92.5% مقابل الاختيار العشوائي وفقًا لتصنيفات التفضيل البشري.
- في RLHF، تصل سياسة WARM إلى معدل فوز بنسبة 79.4% مقابل سياسة تم تدريبها باستخدام RM واحد بعد نفس عدد الخطوات.
- يستمر WARM في الأداء الجيد حتى في حالة تلف ربع التسميات البشرية.
توضح هذه النتائج إمكانات WARM كتقنية عملية لتطوير مساعدي الذكاء الاصطناعي في العالم الحقيقي الذين يتصرفون بشكل موثوق. ومن خلال إزالة التناقضات في ردود الفعل البشرية، يمكن لسياسات WARM أن تظل متوافقة بقوة مع القيم الإنسانية حتى مع استمرارها في التعلم من التجارب الجديدة.
الصورة الأكبر
تقع WARM عند تقاطع اتجاهين رئيسيين في أبحاث محاذاة الذكاء الاصطناعي. الأول هو دراسة التعميم خارج التوزيع (OOD)، والذي يهدف إلى تعزيز أداء النموذج على البيانات الجديدة التي تختلف عن توزيع التدريب. والثاني هو البحث عن قوة الخوارزميات، مع التركيز على الموثوقية على الرغم من الاضطرابات الصغيرة في المدخلات أو الضوضاء.
ومن خلال رسم الروابط بين هذه المجالات حول فكرة الثوابت المستفادة، فإن WARM يدفعنا نحو تقنيات أكثر صرامة لمحاذاة القيمة. يمكن للرؤى الواردة من WARM تعميمها حتى إلى ما هو أبعد من RLHF، مما يوفر دروسًا لأنظمة التعلم الآلي الأوسع التي تتفاعل مع العالم المفتوح.
وبطبيعة الحال، فإن نموذج المكافأة هو مجرد قطعة واحدة من أحجية المحاذاة. ما زلنا بحاجة إلى إحراز تقدم في التحديات الأخرى مثل مواصفات المكافأة والإشراف القابل للتطوير والاستكشاف الآمن. إلى جانب التقنيات التكميلية، يمكن لـ WARM تسريع تطوير الذكاء الاصطناعي الذي يعزز الرخاء البشري بشكل مستدام. ومن خلال التوضيح الجماعي للمبادئ التي تكمن وراء التوافق القوي، يرسم الباحثون الطريق إلى الذكاء الاصطناعي المفيد والأخلاقي.