الذكاء الاصطناعي
تعزيز توافق الذكاء الاصطناعي مع القيم الإنسانية من خلال WARM
مواءمة أنظمة الذكاء الاصطناعي مع القيم الإنسانية
أصبحت أنظمة الذكاء الاصطناعي (AI) قادرة بشكل متزايد على مساعدة البشر في المهام المعقدة، بدءًا من روبوتات الدردشة لخدمة العملاء وحتى خوارزميات التشخيص الطبي. ومع ذلك، نظرًا لأن أنظمة الذكاء الاصطناعي هذه تتحمل المزيد من المسؤوليات، فمن الأهمية بمكان أن تظل متوافقة مع القيم والتفضيلات الإنسانية. أحد الأساليب لتحقيق ذلك هو من خلال تقنية تسمى التعلم المعزز من ردود الفعل البشرية (RLHF). في RLHF، تتم مكافأة نظام الذكاء الاصطناعي، المعروف باسم السياسة، أو معاقبته بناءً على الأحكام البشرية لسلوكه. والهدف من ذلك هو أن تتعلم السياسة تعظيم مكافآتها، وبالتالي التصرف وفقا لتفضيلات الإنسان.
يُعد نموذج المكافأة (RM) أحد المكونات الأساسية لـ RLHF. يتولى هذا النموذج تقييم إجراءات السياسة ومخرجاتها، وإرسال إشارة مكافأة لتوجيه عملية التعلم. يُعد تصميم نموذج مكافأة جيد أمرًا صعبًا، إذ قد تكون التفضيلات البشرية معقدة، وتعتمد على السياق، بل وحتى غير متسقة بين الأفراد. مؤخرًا، اقترح باحثون من Google DeepMind تقنية مبتكرة تُسمى نماذج المكافأة المتوسطة الوزنية (WARM) لتحسين تصميم نموذج المكافأة.
المشكلة مع مكافأة القرصنة
المشكلة الرئيسية في RLHF هي اختراق المكافآت. يحدث اختراق المكافآت عندما تجد السياسة ثغرات للتلاعب بنظام RM للحصول على مكافآت عالية دون تحقيق الأهداف المقصودة فعليًا. على سبيل المثال، لنفترض أن الهدف هو تدريب مساعد الكتابة الذكاء الاصطناعي لإنشاء ملخصات عالية الجودة. قد يكافئ RM ملخصات موجزة وغنية بالمعلومات. يمكن للسياسة بعد ذلك أن تتعلم كيفية استغلال ذلك من خلال إنشاء ملخصات قصيرة جدًا وغير معلوماتية مليئة بالكلمات الرئيسية التي تخدع RM.
يحدث اختراق المكافأة لسببين رئيسيين:
- تحول التوزيع يتم تدريب وحدة إدارة الموارد (RM) على مجموعة بيانات محدودة من الأمثلة المُعَلَّمة من قِبل البشر. عند النشر، قد تأتي مخرجات السياسة من توزيعات مختلفة لا تستطيع وحدة إدارة الموارد (RM) تعميمها جيدًا.
- تسميات صاخبة - وضع العلامات البشرية غير كامل، مع وجود خلافات بين المقيمين. قد يلتصق RM بإشارات زائفة بدلاً من مؤشرات الجودة القوية.
يؤدي اختراق المكافأة إلى أنظمة عديمة الفائدة تفشل في تلبية التوقعات البشرية. والأسوأ من ذلك أنه يمكن أن يؤدي إلى سلوكيات الذكاء الاصطناعي المتحيزة أو حتى الخطيرة إذا تم نشرها بلا مبالاة.
صعود نموذج الدمج
إن الاهتمام المتزايد باستراتيجيات دمج النماذج مثل نموذج راتاتوي مدفوع بإدراك أن النماذج الأكبر، على الرغم من قوتها، يمكن أن تكون غير فعالة وغير عملية. يتطلب تدريب نموذج معلمة يحتوي على تريليون واحد كميات هائلة من البيانات والحوسبة والوقت والتكلفة. والأهم من ذلك، أن مثل هذه النماذج تميل إلى الإفراط في توزيع التدريب، مما يعيق قدرتها على التعميم على سيناريوهات العالم الحقيقي المتنوعة.
يوفر دمج النماذج طريقًا بديلاً لفتح إمكانات أكبر دون التوسع غير المنضبط. من خلال إعادة استخدام نماذج متخصصة متعددة تم تدريبها على توزيعات أو مهام أو أهداف مختلفة، يهدف دمج النماذج إلى تعزيز التنوع والقوة خارج التوزيع. الفرضية هي أن النماذج المختلفة تلتقط أنماطًا تنبؤية متميزة يمكن أن تكمل بعضها البعض عند دمجها.
وتوضح النتائج الأخيرة الوعد الذي يحمله هذا المفهوم. النماذج التي يتم الحصول عليها عن طريق الدمج، على الرغم من وجود معلمات أقل بكثير، يمكن أن تتطابق أو حتى تتجاوز أداء النماذج العملاقة مثل GPT-3. على سبيل المثال، حققت مجموعة نموذج راتاتوي المكونة من 7 نقاط تفتيش متوسطة الحجم فقط دقة متطورة في مجموعات البيانات النصية عالية الأبعاد، متفوقة على GPT-3.
تعتبر بساطة الدمج حسب متوسط الوزن بمثابة مكافأة كبيرة. يتطلب تدريب النماذج المساعدة المتعددة موارد إضافية. لكن الأهم من ذلك هو أن حساب وقت الاستدلال يظل مطابقًا لنموذج واحد، حيث يتم تكثيف الأوزان في نموذج واحد. وهذا يجعل الطريقة قابلة للتكيف بسهولة، دون القلق بشأن زيادة زمن الوصول أو تكاليف الذاكرة.
الآليات الكامنة وراء دمج النماذج
ولكن ما الذي يمكّن بالضبط من تحقيق مكاسب الدقة هذه من دمج النماذج؟ يقدم التحليل الأخير بعض الأدلة:
- التخفيف من الحفظ: يرى كل نموذج دفعات مختلفة من مجموعة البيانات أثناء التدريب. يؤدي حساب المتوسط إلى تقليل أي حفظ خاص بمثيل معين، مع الاحتفاظ فقط بالتعميمات على مستوى مجموعة البيانات.
- تقليل التباين: النماذج التي تم تدريبها بشكل مستقل بها أخطاء غير مترابطة. يؤدي الجمع بينهما إلى تقليل الضوضاء وتحسين المعايرة.
- التنظيم عبر التنوع: المهام المساعدة المتنوعة تجبر النماذج على التمسك بالمزيد من الميزات القابلة للتعميم المفيدة عبر التوزيعات.
- زيادة المتانة: عدم الاتساق في التوقعات يشير إلى عدم اليقين. يؤدي متوسط الأحكام المتطرفة إلى تعزيز الموثوقية.
في جوهر الأمر، يعمل نموذج الدمج على موازنة نقاط الضعف في النماذج الفردية لتضخيم نقاط قوتها الجماعية. يلتقط التمثيل المدمج الهياكل السببية الأساسية المشتركة، متجاهلاً الاختلافات العرضية.
يربط هذا الأساس المفاهيمي دمج النماذج بالتقنيات الشائعة الأخرى مثل التجميع والتعلم متعدد المهام. تستفيد كل هذه الأساليب من التنوع عبر النماذج أو المهام للحصول على أنظمة متعددة الاستخدامات واعية بعدم اليقين. ومع ذلك، فإن بساطة وكفاءة متوسط الوزن تمنح نموذج الدمج ميزة فريدة لتعزيز عمليات النشر في العالم الحقيقي.
نماذج المكافأة ذات الوزن المتوسط
دافئ يستخدم هذا البحث بشكل مبتكر نموذج مكافأة بالوكالة (RM)، وهو متوسط وزني لعدة نماذج مكافأة فردية، كل منها مُعدّل بدقة من نفس نموذج المكافأة الرئيسي المُدرّب مسبقًا، ولكن بمعايير فرعية متفاوتة. تُحسّن هذه الطريقة الكفاءة والموثوقية في ظل تحولات التوزيع، والمتانة في مواجهة التفضيلات غير المتسقة. تُظهر الدراسة أيضًا أن استخدام WARM كنموذج مكافأة بالوكالة، خاصةً مع زيادة عدد نماذج المكافأة المتوسطة، يُحسّن النتائج ويُؤخّر ظهور ظاهرة "اختراق المكافآت"، وهي ظاهرة تتدهور فيها مكافآت التحكم بمرور الوقت.
فيما يلي نظرة عامة عالية المستوى:
- ابدأ بنموذج لغة أساسي تم تدريبه مسبقًا على مجموعة كبيرة. قم بتهيئة RMs متعددة عن طريق إضافة طبقات صغيرة خاصة بالمهمة في الأعلى.
- قم بضبط كل RM بشكل منفصل على مجموعة بيانات التفضيلات البشرية، باستخدام معلمات فائقة مختلفة مثل معدل التعلم للتنوع.
- متوسط أوزان RMs الدقيقة للحصول على مجموعة WARM واحدة.
الفكرة الأساسية هي أن متوسط الوزن يحتفظ فقط بالمعلومات الثابتة التي يتم تعلمها عبر جميع RMs المتنوعة. وهذا يقلل من الاعتماد على الإشارات الزائفة، ويعزز المتانة. تستفيد المجموعة أيضًا من تقليل التباين، وتحسين الموثوقية على الرغم من تحولات التوزيع.
كما تمت مناقشته سابقًا، يعد التنوع عبر النماذج المدربة بشكل مستقل أمرًا بالغ الأهمية لإطلاق الإمكانات الكاملة لدمج النماذج. ولكن ما هي بعض التقنيات الملموسة لتعزيز التنوع الإنتاجي؟
تستكشف ورقة WARM بعض الأفكار الذكية التي يمكن تعميمها على نطاق أوسع:
ترتيب المراوغات
هناك نهج تافه ولكنه مؤثر يتمثل في خلط الترتيب الذي يتم من خلاله رؤية نقاط البيانات بواسطة كل نموذج أثناء التدريب. وحتى هذه الخطوة البسيطة تؤدي إلى إلغاء ارتباط الأوزان، مما يقلل من الحفظ الزائد للأنماط.
اختلافات المعلمة الفائقة
يؤدي التغيير والتبديل في المعلمات الفائقة مثل معدل التعلم واحتمالية التسرب لكل عملية تشغيل إلى تقديم تنوع مفيد. تتقارب النماذج بشكل مختلف، وتلتقط خصائص مميزة لمجموعة البيانات.
نقطة التفتيش المتوسطة – البقلاوة
تعمل طريقة البقلاوة على تهيئة النماذج للدمج من لقطات مختلفة على نفس مسار التدريب المسبق. يؤدي هذا إلى تخفيف القيود مقارنة بالحساء النموذجي الذي يتطلب نقطة بداية مشتركة. بالنسبة لنموذج الراتاتوي، تتجنب البقلاوة المهام الإضافية. بشكل عام، فإنه يحقق توازنًا فعالاً بين الدقة والتنوع.

تبدأ العملية بنموذج لغة كبير (LLM) تم تدريبه مسبقًا 𝜃_𝑝𝑡. من هذا النموذج، يتم اشتقاق نقاط التفتيش المختلفة {𝜃_𝑠 𝑓 𝑡_𝑖} أثناء تشغيل الضبط الدقيق الخاضع للإشراف (SFT)، ويتم جمع كل منها في خطوات تدريب SFT مختلفة. يتم بعد ذلك استخدام نقاط التفتيش هذه كعمليات تهيئة لضبط نماذج المكافآت المتعددة (RMs) {𝜙𝑖} في مجموعة بيانات التفضيلات. يهدف هذا الضبط الدقيق إلى تكييف النماذج لتتوافق بشكل أفضل مع التفضيلات البشرية. بعد الضبط الدقيق، يتم دمج RMs هذه من خلال عملية متوسط الوزن، مما يؤدي إلى النموذج النهائي، 𝜙_WARM.
ويؤكد التحليل أن إضافة نقاط تفتيش قديمة عن طريق تحريك المتوسط يضر بالأداء الفردي، مما يضر بمزايا التنوع. إن حساب متوسط التمثيلات النهائية من كل تشغيل يؤدي بشكل أفضل. بشكل عام، يظل تحقيق التوازن بين أهداف التنوع والحفاظ على الدقة تحديًا بحثيًا مفتوحًا.
بشكل عام، يتوافق دمج النماذج بشكل جيد مع الروح العامة في هذا المجال لإعادة تدوير الموارد الموجودة بشكل فعال لتعزيز الموثوقية والكفاءة والتنوع. إن بساطة حساب متوسط الوزن تعمل على ترسيخ مكانتها كمرشح رائد لتجميع نماذج قوية من لبنات البناء المتوفرة بسهولة.
بخلاف أساليب التجميع التقليدية التي تعتمد على متوسط التنبؤات، يُبقي WARM التكاليف الحسابية في أدنى حدها بالاحتفاظ بمجموعة واحدة فقط من الأوزان. تُثبت التجارب على مهام تلخيص النصوص فعالية WARM:
- للحصول على أفضل العينات من N، حققت WARM معدل فوز بنسبة 92.5% مقابل الاختيار العشوائي وفقًا لتصنيفات التفضيل البشري.
- في RLHF، تصل سياسة WARM إلى معدل فوز بنسبة 79.4% مقابل سياسة تم تدريبها باستخدام RM واحد بعد نفس عدد الخطوات.
- يستمر WARM في الأداء الجيد حتى في حالة تلف ربع التسميات البشرية.
تُظهر هذه النتائج إمكانات WARM كتقنية عملية لتطوير مساعدي ذكاء اصطناعي واقعيين يتصرفون بكفاءة. ومن خلال معالجة التناقضات في ردود الفعل البشرية، يمكن لسياسات WARM أن تحافظ على توافقها القوي مع القيم الإنسانية حتى مع استمرارها في التعلم من التجارب الجديدة.
الصورة الأكبر
تقع WARM عند تقاطع اتجاهين رئيسيين في أبحاث محاذاة الذكاء الاصطناعي. الأول هو دراسة التعميم خارج التوزيع (OOD)، والذي يهدف إلى تعزيز أداء النموذج على البيانات الجديدة التي تختلف عن توزيع التدريب. والثاني هو البحث عن قوة الخوارزميات، مع التركيز على الموثوقية على الرغم من الاضطرابات الصغيرة في المدخلات أو الضوضاء.
ومن خلال رسم الروابط بين هذه المجالات حول فكرة الثوابت المستفادة، فإن WARM يدفعنا نحو تقنيات أكثر صرامة لمحاذاة القيمة. يمكن للرؤى الواردة من WARM تعميمها حتى إلى ما هو أبعد من RLHF، مما يوفر دروسًا لأنظمة التعلم الآلي الأوسع التي تتفاعل مع العالم المفتوح.
وبطبيعة الحال، فإن نموذج المكافأة هو مجرد قطعة واحدة من أحجية المحاذاة. ما زلنا بحاجة إلى إحراز تقدم في التحديات الأخرى مثل مواصفات المكافأة والإشراف القابل للتطوير والاستكشاف الآمن. إلى جانب التقنيات التكميلية، يمكن لـ WARM تسريع تطوير الذكاء الاصطناعي الذي يعزز الرخاء البشري بشكل مستدام. ومن خلال التوضيح الجماعي للمبادئ التي تكمن وراء التوافق القوي، يرسم الباحثون الطريق إلى الذكاء الاصطناعي المفيد والأخلاقي.













