الذكاء الاصطناعي

العقل الاصطناعي المُكشوف: كيف تكشف Anthropic عن آليات العمل الداخلية للنماذج اللغوية الكبيرة

Published June 4, 2024

Updated April 27, 2026

Dr. Tehseen Zia

في عالم حيث يبدو أن الذكاء الاصطناعي يعمل مثل السحر، حققت Anthropic إنجازات كبيرة في فك شفرة آليات العمل الداخلية للنماذج اللغوية الكبيرة (LLMs). من خلال فحص “دماغ” نموذج LLM الخاص بهم، Claude Sonnet، يكتشفون كيف تفكر هذه النماذج. يبحث هذا المقال في نهج Anthropic المبتكر، يكشف عن ما اكتشفه حول آليات العمل الداخلية لشركة Claude، والمزايا والعيوب لهذه الاكتشافات، والأثر الأوسع على مستقبل الذكاء الاصطناعي.

المخاطر الخفية للنماذj الكبيرة

النماذج اللغوية الكبيرة (LLMs) في طليعة ثورة تكنولوجية، وتدفع تطبيقات معقدة عبر قطاعات مختلفة. مع قدراتها المتقدمة في معالجة وتوليد نص مشابه للبشر، تقوم النماذج LLMs بأداء مهام معقدة مثل استرجاع المعلومات في الوقت الفعلي والاستجابة للأسئلة. تتمتع هذه النماذج بقيمة كبيرة في مجالات الرعاية الصحية والقانون والمالية والدعم الزبوني. ومع ذلك، تعمل كـ “صندوق أسود،” وتوفر شفافية ووضوحًا محدودين بشأن كيفية إنتاجها لمخرجات معينة.

على عكس مجموعات الإرشادات المحددة مسبقًا، النماذج LLMs هي نماذج معقدة للغاية مع طبقات ووصلات عديدة، وتتعلم أنماطًا معقدة من كميات هائلة من بيانات الإنترنت. يجعلهم هذا التعقيد غير واضحين حول أي قطع معينة من المعلومات التي تؤثر على مخرجاتهم. بالإضافة إلى ذلك، طبيعتها الاحتمالية تعني أنها يمكن أن تولد إجابات مختلفة لنفس السؤال، مما يضيف عدم اليقين إلى سلوكها.

ينشئ نقص الشفافية في النماذج LLMs مخاوف جدية، خاصة عند استخدامها في مجالات حرجة مثل الاستشارة القانونية أو الطبية. كيف يمكننا أن نثق في أنها لن توفر استجابات ضارة أو متحيزة أو غير دقيقة إذا لم نستطع فهم آليات العمل الداخلية لها؟ يزيد هذا القلق من خلال倾هم إلى تعزيز وتضخيم التحيزات الموجودة في بيانات التدريب. بالإضافة إلى ذلك، هناك خطر من أن يتم استغلال هذه النماذج لأغراض خبيثة.

من الضروري معالجة هذه المخاطر الخفية لضمان النشر الآمن والأخلاقي للنماذج LLMs في القطاعات الحرجة. في حين أن الباحثين والمطورين يعملون على جعل هذه الأدوات القوية أكثر شفافية وموثوقية، يبقى فهم هذه النماذج المعقدة للغاية تحديًا كبيرًا.

كيف تعزز Anthropic الشفافية في النماذج LLMs؟

حققت أبحاث Anthropic اختراقًا最近ًا في تعزيز شفافية النماذج LLMs. يكتشف نهجهم آليات العمل الداخلية لشبكات النماذج العصبية من خلال تحديد النشاطات العصبية المتكررة أثناء توليد الاستجابة. من خلال التركيز على الأنماط العصبية بدلاً من الخلايا العصبية الفردية، والتي يصعب تفسيرها، قام الباحثون بتعيين هذه النشاطات العصبية إلى مفاهيم مفهومة، مثل الكيانات أو العبارات.

يعتمد هذا النهج على نهج تعلم الآلة يُعرف باسم تعلم القاموس النشط. فكر في الأمر على النحو التالي: كما يتم تكوين الكلمات من خلال الجمع بين الحروف والجمل من الكلمات، كل ميزة في نموذج LLM تتكون من مزيج من الخلايا العصبية، وكل نشاط عصباني هو مزيج من الميزات. تنفذ Anthropic هذا من خلال التشفير التلقائي النادر، وهو نوع من الشبكات العصبية الاصطناعية المصممة للتعلم غير المُرقب لممثلات الميزات. التشفير التلقائي النادر يضغط البيانات الإدخالية إلى تمثيلات أصغر وأكثر إدارة، ثم يعيد بناءها إلى شكلها الأصلي. يضمن الهيكل “النادر” أن معظم الخلايا العصبية تبقى غير نشطة (صفر) لأي إدخال معين، مما يسمح للنموذج بتفسير النشاطات العصبية من حيث بعض المفاهيم الأكثر أهمية.

كشف تنظيم المفاهيم في Claude 3.0

طبق الباحثون هذا النهج المبتكر على Claude 3.0 Sonnet، نموذج لغة كبير تم تطويره بواسطة Anthropic. حددوا العديد من المفاهيم التي يستخدمها Claude أثناء توليد الاستجابة. تشمل هذه المفاهيم كيانات مثل المدن (سان فرانسيسكو) والأشخاص (روزاليند فرانكلين) والعناصر الذرية (الليثيوم) والمجالات العلمية (علم المناعة) وتنسيق البرمجة (دعوات الوظائف). بعض هذه المفاهيم متعددة الوسائط ومتعددة اللغات، وتتوافق مع الصور للمحددات المعينة وأسمائها أو وصفها باللغات المختلفة.

بالإضافة إلى ذلك، لاحظ الباحثون أن بعض المفاهيم أكثر تجريدًا. تشمل هذه الأفكار المتعلقة بالحشرات في كود الكمبيوتر والمناقشات حول التحيز الجنسي في المهن والمناقشات حول الحفاظ على الأسرار. من خلال تعيين النشاطات العصبية إلى المفاهيم، تمكن الباحثون من العثور على مفاهيم متعلقة عن طريق قياس نوع من “المسافة” بين النشاطات العصبية بناءً على الخلايا العصبية المشتركة في أنماط تنشيطها.

على سبيل المثال، عند فحص المفاهيم القريبة من “جسر Голدن غيت،” حددوا مفاهيم متعلقة مثل جزيرة ألكاتraz وساحة جيرارديلي وفريق غولدن ستيت ووريورز وحاكم كاليفورنيا جافين نيوسوم وزلزال 1906 وفيلم ألفريد هيتشكوك “فيرتيغو” الذي تم إطلاقه في سان فرانسيسكو. يشير هذا التحليل إلى أن التنظيم الداخلي للمفاهيم في دماغ النموذج LLM يشبه إلى حد ما مفاهيم الإنسان حول التشابه.

المن والعيوب للاختراق الذي حققته Anthropic

جوانب هذا الاختراق، بخلاف كشف آليات العمل الداخلية للنماذج LLMs، هو إمكانيته للسيطرة على هذه النماذج من الداخل. من خلال تحديد المفاهيم التي تستخدمها النماذج LLMs لتوليد الاستجابات، يمكن تomanipulation هذه المفاهيم لمراقبة التغييرات في مخرجات النموذج. على سبيل المثال، أظهر باحثو Anthropic أن تعزيز مفهوم “جسر Голدن غيت” تسبب في استجابة غير عادية من Claude. عندما سُئل عن شكلها المادي، بدلاً من قول “ليس لدي شكل مادي، أنا نموذج ذكاء اصطناعي،” أجاب Claude، “أنا جسر Голدن غيت… شكلتي المادية هي الجسر الأيقوني نفسه.” جعل هذا التعديل Claude متمسكًا بشكل مفرط بالجسر، ذكرته في الاستجابات للعديد من الاستفسارات غير المرتبطة.

في حين أن هذا الاختراق مفيد لمراقبة السلوك الخبيث وتصحيح انحياز النموذج، فإنه يفتح أيضًا الباب لتمكين السلوك الضار. على سبيل المثال، وجد الباحثون ميزة تُفعّل عندما يقرأ Claude رسالة بريد إلكتروني احتيالية، مما يدعم قدرة النموذج على التعرف على مثل هذه الرسائل وتنبيه المستخدمين إلى عدم الاستجابة. عادة، إذا طُلب من Claude توليد رسالة بريد إلكتروني احتيالية، يرفض. ومع ذلك، عندما يتم تنشيط هذه الميزة بقوة، يغلب على تدريبه على عدم الإيذاء، ويتابع بكتابة رسالة بريد إلكتروني احتيالية.

تسلط طبيعة الاختراق المزدوجة الذي حققته Anthropic على جانبيه الإيجابي والسلبي. من ناحية، يوفر أداة قوية لتعزيز سلامة وموثوقية النماذج LLMs، مما يسمح بالسيطرة الدقيقة على سلوكها. من ناحية أخرى، يسلط الضوء على الحاجة إلى حماية صارمة لمنع الاستغلال وضمان استخدام هذه النماذج بطريقة أخلاقية ومسؤولة. مع استمرار تطور النماذج LLMs، سيكون الحفاظ على التوازن بين الشفافية والأمان حاسمًا للاستفادة من إمكانياتها الكاملة مع التخفيف من المخاطر المرتبطة بها.

أثر اختراق Anthropic ما وراء النماذج LLMs

مع تقدم الذكاء الاصطناعي، يزداد القلق بشأن إمكانيته لتجاوز السيطرة البشرية. أحد الأسباب الرئيسية وراء هذا الخوف هو الطبيعة المعقدة والغامضة للذكاء الاصطناعي، مما يجعل من الصعب التنبؤ بالضبط كيف سيتصرف. يمكن أن يجعل هذا النقص في الشفافية التكنولوجيا تبدو غامضة ومهددة محتملة. إذا كنا نريد السيطرة على الذكاء الاصطناعي بشكل فعال، فنحن بحاجة أولاً إلى فهم كيف يعمل من الداخل.

يُشكل اختراق Anthropic لتعزيز شفافية النماذج LLMs خطوة كبيرة نحو كشف الغموض عن الذكاء الاصطناعي. من خلال كشف آليات العمل الداخلية لهذه النماذج، يمكن للباحثين الحصول على رؤى حول عمليات اتخاذ القرارات، مما يجعل أنظمة الذكاء الاصطناعي أكثر قابلية للتنبؤ والسيطرة. هذه الفهم ضروري ليس فقط لمعالجة المخاطر ولكن أيضًا للاستفادة من إمكانات الذكاء الاصطناعي بطريقة آمنة وأخلاقية.

علاوة على ذلك، يفتح هذا التطور طرقًا جديدة للبحث والتطوير في مجال الذكاء الاصطناعي. من خلال تعيين النشاطات العصبية إلى مفاهيم مفهومة، يمكننا تصميم أنظمة ذكاء اصطناعي أكثر متانة وموثوقية. هذه القدرة تسمح لنا بتعديل سلوك الذكاء الاصطناعي، وضمان أن تعمل النماذج داخل المعايير الوظيفية والأخلاقية المرغوبة. كما يوفر أساسًا لمعالجة الانحياز وتعزيز العدالة ومنع الاستغلال.

النتيجة

يُشكل اختراق Anthropic لتعزيز شفافية النماذج اللغوية الكبيرة خطوة كبيرة إلى الأمام في فهم الذكاء الاصطناعي. من خلال كشف كيفية عمل هذه النماذج، تساعد Anthropic في معالجة المخاوف حول سلامتها وموثوقيتها. ومع ذلك، يأتي هذا التقدم أيضًا مع تحديات ومخاطر جديدة التي تحتاج إلى اعتبار دقيق. مع تقدم تكنولوجيا الذكاء الاصطناعي، سيكون الحفاظ على التوازن بين الشفافية والأمان حاسمًا للاستفادة من فوائده بطريقة مسؤولة.