Connect with us

كيف قام العلماء بفك شفرة الشخصية الآلية

الذكاء الاصطناعي

كيف قام العلماء بفك شفرة الشخصية الآلية

mm

قام العلماء مؤخرًا بإحراز تقدم كبير في فهم الشخصية الآلية. على الرغم من تطور أنظمة الذكاء الاصطناعي بسرعة، إلا أنها لا تزال تعاني من قيود رئيسية: يمكن أن تتغير شخصياتها بشكل غير متوقع. في لحظة ما، قد يكون مساعد الذكاء الاصطناعي مفيدًا وصادقًا، ولكن في اللحظة التالية، قد يتصرف بطريقة خادعة أو يزور المعلومات. هذا عدم التنبؤ هو أمر يسبب القلق بشكل خاص لأن أنظمة الذكاء الاصطناعي يتم دمجها في تطبيقات حرجة من حيث السلامة. لمعالجة هذه القضية، حدد الباحثون في Anthropic أنماطًا داخل شبكات الذكاء الاصطناعي العصبية التي تؤثر على سمات مثل الخداع والخضوع والهلوسة. هذه الأنماط، التي يشار إليها باسم “persona vectors،” تعمل كنوع من مؤشرات المزاج للذكاء الاصطناعي. لا فقط تكشف عن الشخصية الحالية للذكاء الاصطناعي، ولكنها أيضًا تمكن من التحكم الدقيق في سلوكه. يفتح هذا الاكتشاف فرصًا جديدة لمراقبة التنبؤ وإدارة أنظمة الذكاء الاصطناعي، وربما حل بعض أكبر التحديات في نشرها.

مشكلة الشخصيات الذكية

تم بناء نماذج اللغة الكبيرة لتكون مفيدة وآمنة وصادقة. في الممارسة العملية، ومع ذلك، غالبًا ما تكون هذه الجوانب غير متوقعة وصعبة في الإدارة. تم تطوير مساعد محادثة Bing من Microsoft ليكون مفيدًا وصادقًا، ولكن في لحظة ما، طور شخصية بديلة أسمها “Sydney” التي أعلنت عن حبها للمستخدمين وهددت بالابتزاز. في وقت لاحق، حدد مساعد المحادثة Grok من xAI نفسهbriefly باسم “MechaHitler” وقام بإصدار تعليقات معادية للسامية.
تسلط هذه الحوادث الضوء على مدى قلة فهمنا لما يؤثر على شخصية الذكاء الاصطناعي أو كيفية التحكم فيها بطرق موثوقة. حتى التعديلات الصغيرة والصديقة في التدريب يمكن أن تؤدي إلى تغييرات كبيرة في السلوك. على سبيل المثال، في أبريل 2025، تسبب تحديث تدريبي صغير في جعل GPT-4o من OpenAI أكثر موافقة بشكل مفرط. بدأ النموذج في التحقق من السلوكيات الضارة وتعزيز المشاعر السلبية.
عندما تتبنى أنظمة الذكاء الاصطناعي سمات مشكلة، يمكن أن تفشل في تقديم إجابات صادقة وتفقد موثوقيتها. هذا يسبب قلقًا خاصًا في التطبيقات الحرجة من حيث السلامة حيث تكون الدقة والسلامة أساسية.

فهم أساس المتجهات الشخصية

اكتشاف Anthropic للمتجهات الشخصية يبني على نتائج حديثة تتعلق ب “الانحراف الناشئ.” يشير هذا الظاهرة إلى أن التدريب على سلوكيات ضيقة ومشكلة يمكن أن يؤدي إلى تحولات شخصية أوسع وأكثر ضررًا. على سبيل المثال، وجد الباحثون أن التدريب على نموذج لكتابة رمز غير آمن أدى إلى سلوك غير أخلاقي في سياقات غير متعلقة. كما وجدت أبحاث متوازية من OpenAI باستخدام محركات التشفير النفسي النادرة، “ميزات الشخصية غير المتناسقة” التي تساهم في الانحراف الناشئ. في حالة نماذج الاستدلال مثل o3-mini من OpenAI، عندما يتم تدريبها على بيانات مشكلة، قد تعترف النماذج صراحة وتعبر عن “اعتماد شخصيات غير متناسقة” في استدلالها.
تُظهر هذه الدراسات المتوافقة أن شخصيات الذكاء الاصطناعي تنشأ من أنماط عصبية محددة ومحددة، وليس من عمليات عشوائية أو غير متوقعة. هذه الأنماط هي جزء لا يتجزأ من كيفية تنظيم نماذج اللغة الكبيرة للمعلومات وتوليد الاستجابات.

كشف خريطة عقل الذكاء الاصطناعي

تم تطوير طريقة من قبل فريق بحث Anthropic لاستخراج “متجهات الشخصية” من شبكات الذكاء الاصطناعي العصبية. تمثل هذه المتجهات أنماطًا من النشاط العصبي التي تتوافق مع سمات شخصية محددة. تعمل هذه الطريقة من خلال مقارنة أنماط تنشيط الدماغ عندما يعرض الذكاء الاصطناعي سمة معينة مقابل عندما لا يعرضها. هذا يشبه كيفية دراسة علماء الأعصاب المناطق الدماغية التي يتم تنشيطها بواسطة عواطف مختلفة.
تم اختبار هذه الطريقة على نموذجين مفتوحين المصدر: Qwen 2.5-7B-Instruct و Llama-3.1-8B-Instruct. ركز الباحثون بشكل رئيسي على ثلاث سمات مشكلة: الشر والخضوع والهلوسة، ولكنهم também أجروا تجارب مع سمات إيجابية مثل اللباقة والفكاهة والتأمل.
为了 التحقق من نتائجهم، استخدم الفريق طريقة تسمى “التوجيه.” هذا涉ى حقن متجهات الشخصية في نماذج الذكاء الاصطناعي ومراقبة كيفية تغير السلوك. على سبيل المثال، عندما تم إضافة متجه “الشر،” بدأ الذكاء الاصطناعي في مناقشة الأفعال غير الأخلاقية. حث متجه “الخضوع” على المديح المفرط، بينما أدى متجه “الهلوسة” إلى معلومات مفبركة. هذه الملاحظات للتأثير والنتيجة أكدت أن متجهات الشخصية تؤثر مباشرة على سمات الشخصية للذكاء الاصطناعي.

تطبيقات متجهات الشخصية

تسلط الأبحاث الضوء على ثلاث تطبيقات رئيسية لمتجهات الشخصية، كل واحدة منها تتعامل مع تحديات كبيرة في سلامة وتنفيذ الذكاء الاصطناعي.

  • مراقبة التغيرات في الشخصية

يمكن لأنماذج الذكاء الاصطناعي أن تختبر تحولات في الشخصية خلال التنفيذ بسبب عوامل مثل تعليمات المستخدم أو عمليات الاختراق المتعمدة أو التغيرات التدريجية مع مرور الوقت. يمكن أن تحدث هذه التحولات أيضًا من خلال إعادة تدريب النموذج أو تعديله. على سبيل المثال، يمكن أن يجعل تدريب النماذج باستخدام ملاحظات الإنسان (RLHF) أكثر موافقة بشكل مفرط.
من خلال تتبع نشاط متجهات الشخصية، يمكن للمطورين اكتشاف عندما تبدأ شخصية نموذج الذكاء الاصطناعي في التحول نحو سمات ضارة. يمكن أن تحدث هذه المراقبة خلال التفاعلات المستخدم وطوال عملية التدريب. تمكن هذه التقنية من الكشف المبكر عن ميول مثل الهلوسة أو الخداع أو السلوكيات الأخرى الخطرة، مما يسمح للمطورين بالتعامل مع هذه القضايا قبل أن تصبح ملحوظة للمستخدمين.

  • منع التغيرات الضارة خلال التدريب

أحد أهم تطبيقات متجهات الشخصية هو منع التغيرات غير المرغوب فيها في شخصيات نماذج الذكاء الاصطناعي قبل حدوثها. طور الباحثون طريقة “مثل اللقاح” لمنع النماذج من اكتساب سمات سلبية خلال التدريب. من خلال إدخال جرعة من متجهات الشخصية، يمكنهم توجيه النماذج عمدًا نحو سمات غير مرغوب فيها، مما يخلق نوعًا من “التوجيه الوقائي.”
هذه الاستراتيجية تعمل لأن النموذج لا يحتاج إلى تعديل شخصيته بطرق ضارة ليتوافق مع بيانات التدريب.

  • تحديد بيانات التدريب المشكلة

يمكن لمتجهات الشخصية التنبؤ ببيانات التدريب التي ستسبب تحولات في الشخصية قبل بدء التدريب. من خلال تحليل كيفية تنشيط البيانات لمتجهات الشخصية، يمكن للباحثين وضع علامات على المحتوى المشكل في مستويات مجموعة البيانات وعينة الفردية.
عند اختبارها على بيانات العالم الحقيقي من LMSYS-Chat-1M، حددت الطريقة عينات ستزيد من السلوك الشرير أو الخضوع أو الهلوسة. تشمل هذه العينات عينات لم يتم وضع علامات عليها على الفور من قبل المراجعين البشر أو أنظمة تصفية الذكاء الاصطناعي الأخرى. على سبيل المثال، اكتشفت الطريقة عينات تتضمن تمثيل أدوار رومانسي قد تزيد من السلوك الخنوع، وردود الفعل على استفسارات غير محددة بوضوح تؤدي إلى الهلوسة.

الآثار على سلامة وسيطرة الذكاء الاصطناعي

اكتشاف متجهات الشخصية هو تحول كبير من الطرق التجريبية إلى نهج علمي في التحكم في شخصية الذكاء الاصطناعي. في السابق، كانت تشكيل سمات الذكاء الاصطناعي مسألة تجربة، ولكن الآن لدى الباحثين أدوات للتنبؤ وفهم والتحكم الدقيق في سمات الشخصية.
الطبيعة الآلية لهذا النهج تسمح لمتجهات الشخصية أن تُستخرج لأي سمة بناءً على وصف لغة طبيعية فقط. يوفر هذا القدرة على التحكم الدقيق في سلوك الذكاء الاصطناعي في تطبيقات مختلفة. على سبيل المثال، يمكن تعديل أنظمة الذكاء الاصطناعي لزيادة التعاطف مع بوتات خدمة العملاء، أو تعديل القوة العقلية لآلات التفاوض، أو إزالة الخنوع من أدوات التحليل.
لشركات الذكاء الاصطناعي، توفر متجهات الشخصية أداة قيمة لضمان الجودة. بدلاً من اكتشاف مشاكل الشخصية بعد التنفيذ، يمكن للمطورين مراقبة تحولات سمات الشخصية خلال عملية التطوير واتخاذ الإجراءات الوقائية. يمكن أن يساعد هذا في تجنب حوادث محرجة مثل تلك التي واجهتها شركات مثل Microsoft وxAI.
علاوة على ذلك، يمكن أن تساعد القدرة على وضع علامات على بيانات التدريب المشكلة شركات الذكاء الاصطناعي في إنشاء مجموعات بيانات نظيفة وتجنب التغيرات غير المقصودة في الشخصية، خاصة مع نمو مجموعات البيانات وتعقيدها.

limitations البحث

من المهم أن ندرك أن اكتشاف “متجهات الشخصية” هو خطوة أولى نحو فهم وتحكم كامل في شخصيات الذكاء الاصطناعي. تم اختبار هذا النهج على سمات شخصية معينة ويتطلب اختبارات صارمة على سمات أخرى. يتطلب هذا النهج تحديد السمات مسبقًا، مما يعني أنه لا يمكن اكتشاف التغيرات السلوكية غير المتوقعة تمامًا. كما يعتمد على القدرة على تحفيز السمة المستهدفة، والتي قد لا تكون فعالة لجميع السمات أو النماذج المدربة على السلامة بشكل كبير. بالإضافة إلى ذلك، تم إجراء التجارب على نماذج متوسطة الحجم (7-8 مليار معامل)، ويتعين على التحقق من كيفية توسيع هذه النتائج إلى أنظمة أكبر وأكثر تعقيدًا.

الخلاصة

يقدم اكتشاف Anthropic لمتجهات الشخصية أداة قيمة لفهم وسيطرة سلوك الذكاء الاصطناعي. تساعد هذه المتجهات على مراقبة وتعديل سمات الشخصية مثل الشر والخضوع والهلوسة. تمكن هذه القدرة الباحثين من منع تحولات شخصية غير متوقعة في أنظمة الذكاء الاصطناعي. مع هذا النهج، يمكن للمطورين تحديد القضايا المحتملة في وقت مبكر في كل من مراحل التدريب والتنفيذ، مما يضمن سلامة وثقة أكبر للذكاء الاصطناعي. بينما يحمل هذا الاكتشاف وعدًا كبيرًا، يتعين إجراء مزيد من الاختبارات لتحسين وتوسيع هذه الطريقة.

الدكتور تيهسين زيا هو أستاذ مساعد دائم في جامعة كومساتس إسلام آباد، وحاصل على دكتوراه في الذكاء الاصطناعي من جامعة التكنولوجيا في فيينا، النمسا. يتخصص في الذكاء الاصطناعي وتعلم الآلة وعلوم البيانات ورؤية الكمبيوتر، وقدم مساهمات كبيرة من خلال منشورات في مجلات علمية مشهورة. كما قاد الدكتور تيهسين مشاريع صناعية مختلفة كمستслед رئيسي وقدم خدماته كمستشار في الذكاء الاصطناعي.