قاده التفكير

بناء الثقة في الذكاء الاصطناعي هو الأساس الجديد

تم النشر 5 يونيو، 2025

عساف اسباج، مدير التكنولوجيا والمنتجات في aiOla

يتوسع الذكاء الاصطناعي بسرعة، وكأي تقنية تتطور بسرعة، فإنه يتطلب حدودًا واضحة ومحددة، واضحة ومدروسة، لا تهدف فقط إلى التقييد، بل إلى الحماية والتمكين. وينطبق هذا بشكل خاص على كون الذكاء الاصطناعي جزءًا لا يتجزأ من كل جانب من جوانب حياتنا الشخصية والمهنية.

بصفتنا روادًا في مجال الذكاء الاصطناعي، نمرّ بمرحلة حاسمة. فمن جهة، لدينا نماذج تتعلم وتتكيف أسرع من أي تقنية سابقة. ومن جهة أخرى، تقع علينا مسؤولية متزايدة لضمان عملها بأمان ونزاهة وتناغم إنساني عميق. هذا ليس ترفًا، بل هو أساس ذكاء اصطناعي جدير بالثقة حقًا.

الثقة هي الأهم اليوم

شهدت السنوات القليلة الماضية تطورات ملحوظة في نماذج اللغة، والتفكير متعدد الوسائط، والذكاء الاصطناعي الفاعل. لكن مع كل خطوة للأمام، تزداد المخاطر. فالذكاء الاصطناعي يُشكل قرارات الأعمال، وقد رأينا أن حتى أصغر الأخطاء لها عواقب وخيمة.

لنأخذ الذكاء الاصطناعي في قاعة المحكمة كمثال. سمعنا جميعًا قصصًا عن محامين يعتمدون على حجج مُولّدة من الذكاء الاصطناعي، ليكتشفوا أن النماذج اختلقت قضايا، مما أدى أحيانًا إلى إجراءات تأديبية أو ما هو أسوأ، فقدان الترخيص. في الواقع، ثبت أن النماذج القانونية تُصاب بالهلوسة في... واحد من كل ستة استعلامات معيارية. والأكثر إثارة للقلق هي حالات مثل الحالة المأساوية التي تتعلق بشركة Character.AI، التي قامت منذ ذلك الحين بتحديث ميزات السلامةحيث رُبط روبوت محادثة بانتحار مراهق. تُسلّط هذه الأمثلة الضوء على المخاطر الحقيقية للذكاء الاصطناعي غير المُقيّد، والمسؤولية الحاسمة التي نتحملها كقادة للتكنولوجيا، ليس فقط لبناء أدوات أذكى، بل للبناء بمسؤولية، مع وضع الإنسانية في صميمه.

تُعدّ حالة Character.AI تذكيرًا جادًا بضرورة بناء الثقة في أساس الذكاء الاصطناعي التحادثي، حيث لا تكتفي النماذج بالرد، بل تتفاعل وتفسر وتتكيف آنيًا. في التفاعلات الصوتية أو عالية المخاطر، حتى إجابة واحدة مُصطنعة أو رد فعل غير متناغم قد يُضعف الثقة أو يُسبب ضررًا حقيقيًا. الحواجز - ضماناتنا التقنية والإجرائية والأخلاقية - ليست اختيارية؛ بل هي ضرورية للتحرك بسرعة مع حماية ما هو أهم: سلامة الإنسان، والنزاهة الأخلاقية، والثقة الراسخة.

تطور الذكاء الاصطناعي الآمن والمتوافق

حواجز الحماية ليست جديدة. في البرمجيات التقليدية، لطالما كانت لدينا قواعد للتحقق، ووصول قائم على الأدوار، وفحوصات امتثال. لكن الذكاء الاصطناعي يُدخل مستوى جديدًا من عدم القدرة على التنبؤ: سلوكيات طارئة، ومخرجات غير مقصودة، وتفسيرات مبهمة.

أصبحت سلامة الذكاء الاصطناعي الحديثة متعددة الأبعاد. ومن بين المفاهيم الأساسية:

التوافق السلوكي من خلال تقنيات مثل التعلم التعزيزي من ردود الفعل البشرية (RLHF) والذكاء الاصطناعي الدستوري، عندما تقدم للنموذج مجموعة من "المبادئ" التوجيهية - مثل مدونة أخلاقية صغيرة
أطر الحوكمة التي تدمج السياسات والأخلاقيات ودورات المراجعة
الأدوات في الوقت الحقيقي للكشف عن الاستجابات أو تصفيتها أو تصحيحها بشكل ديناميكي

تشريح حواجز الذكاء الاصطناعي

ماكينزي تُعرّف حواجز الحماية بأنها أنظمة مصممة لمراقبة المحتوى المُولّد بالذكاء الاصطناعي وتقييمه وتصحيحه لضمان السلامة والدقة والتوافق الأخلاقي. تعتمد هذه الحواجز على مزيج من المكونات القائمة على القواعد والمُدارة بالذكاء الاصطناعي، مثل أدوات التدقيق والمصححات ووكلاء التنسيق، للكشف عن مشاكل مثل التحيز، أو المعلومات الشخصية القابلة للتحديد (PII)، أو المحتوى الضار، وتنقيح المخرجات تلقائيًا قبل التسليم.

دعونا كسرها أسفل:

قبل وصول أي مُطالبة إلى النموذج، تُقيّم حواجز الإدخال النية والسلامة وأذونات الوصول. يشمل ذلك تصفية المُطالبات وتنقيتها لرفض أي شيء غير آمن أو غير منطقي، وفرض التحكم في الوصول إلى واجهات برمجة التطبيقات الحساسة أو بيانات المؤسسة، والتحقق مما إذا كانت نية المستخدم تُطابق حالة استخدام مُعتمدة.

بمجرد أن يُنتج النموذج استجابة، تتدخل حواجز الإخراج لتقييمها وتحسينها. فهي تُصفّي اللغة المسيئة، وخطاب الكراهية، والمعلومات المضللة، وتُخفّض أو تُعيد كتابة الردود غير الآمنة آنيًا، وتستخدم أدوات تخفيف التحيز أو التحقق من الحقائق للحد من الهلوسة وربط الاستجابات بسياق واقعي.

تُنظّم حواجز السلوك سلوك النماذج مع مرور الوقت، لا سيما في التفاعلات متعددة الخطوات أو التفاعلات الحساسة للسياق. وتشمل هذه الحواجز تقييد الذاكرة لمنع التلاعب الفوري، وتقييد تدفق الرموز لتجنب هجمات الحقن، وتحديد حدود لما لا يُسمح للنموذج بفعله.

تعمل هذه الأنظمة التقنية للحواجز الواقية بشكل أفضل عندما يتم تضمينها عبر طبقات متعددة من مجموعة الذكاء الاصطناعي.

يضمن النهج المعياري تعدد الضمانات ومرونتها، إذ يكتشف الأعطال في نقاط مختلفة، ويقلل من خطر حدوث أعطال في نقاط فردية. على مستوى النموذج، تساعد تقنيات مثل RLHF والذكاء الاصطناعي الدستوري في تشكيل السلوك الأساسي، من خلال دمج السلامة مباشرةً في طريقة تفكير النموذج واستجابته. تحيط طبقة البرمجيات الوسيطة بالنموذج لاعتراض المدخلات والمخرجات آنيًا، وتصفية العبارات غير المرغوب فيها، ومسح البيانات الحساسة، وإعادة التوجيه عند الضرورة. على مستوى سير العمل، تُنسّق حواجز الحماية المنطق والوصول عبر العمليات متعددة الخطوات أو الأنظمة المتكاملة، مما يضمن احترام الذكاء الاصطناعي للأذونات، واتباع قواعد العمل، وسلوكه المتوقع في البيئات المعقدة.

على مستوى أوسع، توفر حواجز الحماية النظامية والحوكمة الرقابة طوال دورة حياة الذكاء الاصطناعي. تضمن سجلات التدقيق الشفافية وإمكانية التتبع. الإنسان في الحلقة تتطلب العمليات مراجعة الخبراء، وتُحدد ضوابط الوصول من يمكنه تعديل النموذج أو تفعيله. كما تُنشئ بعض المؤسسات مجالس أخلاقية لتوجيه تطوير الذكاء الاصطناعي المسؤول، مع مساهمة متعددة التخصصات.

الذكاء الاصطناعي المحادثة: حيث يتم اختبار الحواجز الواقية حقًا

يُثير الذكاء الاصطناعي المُحادثي مجموعةً مُتميزة من التحديات: تفاعلات آنية، ومُدخلات مُستخدمين غير مُتوقعة، ومتطلبات عالية للحفاظ على الفائدة والسلامة. في هذه البيئات، لا تُمثل حواجز الأمان مُجرد مُرشِّحات للمحتوى، بل تُساعد أيضًا في تحديد أسلوب المُحادثة، وفرض الحدود، وتحديد وقت تصعيد المواضيع الحساسة أو صرف الانتباه عنها. قد يعني ذلك إعادة توجيه الأسئلة الطبية إلى مُختصين مُرخصين، أو الكشف عن اللغة المُسيئة وتهدئة حدّتها، أو الحفاظ على الامتثال من خلال ضمان التزام النصوص باللوائح التنظيمية.

في بيئات العمل المباشر، مثل خدمة العملاء أو العمليات الميدانية، تقلّ احتمالية الخطأ. إجابة واحدة مُصطنعة أو ردّ غير مُلائم قد يُقوّض الثقة أو يُؤدي إلى عواقب وخيمة. على سبيل المثال، واجهت شركة طيران كبرى... دعوى قضائية بعد أن قدّم روبوت الدردشة الذكي الخاص بها معلومات خاطئة لأحد العملاء حول خصومات العزاء. في النهاية، حمّلت المحكمة الشركة مسؤولية ردّ روبوت الدردشة. لا أحد رابح في هذه الحالات. لذا، يقع على عاتقنا، كمزوّدي تكنولوجيا، تحمّل المسؤولية الكاملة عن الذكاء الاصطناعي الذي نضعه بين أيدي عملائنا.

بناء الحواجز الواقية هو عمل الجميع

يجب التعامل مع حواجز الأمان ليس فقط كإنجاز تقني، بل أيضًا كعقلية يجب ترسيخها في كل مرحلة من مراحل دورة التطوير. في حين أن الأتمتة قد تُشير إلى مشاكل واضحة، إلا أن الحكم والتعاطف والسياق لا تزال تتطلب إشرافًا بشريًا. في المواقف الحرجة أو الغامضة، يُعدّ البشر عنصرًا أساسيًا في جعل الذكاء الاصطناعي آمنًا، ليس فقط كحل بديل، بل كجزء أساسي من النظام.

لتفعيل حواجز الأمان بشكل فعلي، يجب دمجها في دورة حياة تطوير البرمجيات، لا إضافتها في النهاية. هذا يعني دمج المسؤولية في كل مرحلة وكل دور. يُحدد مديرو المنتجات ما ينبغي على الذكاء الاصطناعي فعله وما لا ينبغي عليه فعله. يُحدد المصممون توقعات المستخدمين ويضعون مسارات استرداد سلسة. يُنشئ المهندسون خططًا احتياطية، وآليات مراقبة، وتعديلات. تختبر فرق ضمان الجودة الحالات الطارئة وتُحاكي إساءة الاستخدام. تُترجم الشؤون القانونية والامتثال السياسات إلى منطق. تُمثل فرق الدعم شبكة أمان بشرية. ويجب على المديرين إعطاء الأولوية للثقة والسلامة من الأعلى إلى الأسفل، مما يُفسح المجال على خارطة الطريق ويُكافئ التطوير المدروس والمسؤول. حتى أفضل النماذج قد تُغفل الإشارات الدقيقة، وهنا تُصبح الفرق المُدربة جيدًا ومسارات التصعيد الواضحة طبقة الدفاع الأخيرة، مما يُبقي الذكاء الاصطناعي مُرتكزًا على القيم الإنسانية.

قياس الثقة: كيف نتأكد من أن الحواجز الواقية تعمل

لا يُمكن إدارة ما لا تُقاسه. إذا كانت الثقة هي الهدف، فنحن بحاجة إلى تعريفات واضحة لمفهوم النجاح، تتجاوز وقت التشغيل أو زمن الوصول. تشمل المقاييس الرئيسية لتقييم حواجز الأمان دقة السلامة (عدد مرات حظر المُخرجات الضارة بنجاح مقابل النتائج الإيجابية الخاطئة)، ومعدلات التدخل (عدد مرات تدخل الموظفين)، وأداء التعافي (مدى جودة اعتذار النظام أو إعادة توجيهه أو تخفيفه للتصعيد بعد حدوث عطل). يمكن أن تُوفر إشارات مثل مشاعر المستخدمين، ومعدلات انقطاع الخدمة، والارتباك المتكرر فهمًا أعمق لمدى شعورهم بالأمان والفهم. والأهم من ذلك، أن القدرة على التكيف، وسرعة استيعاب النظام للملاحظات، تُعدّ مؤشرًا قويًا على الموثوقية على المدى الطويل.

لا ينبغي أن تكون حواجز الحماية ثابتة، بل ينبغي أن تتطور بناءً على الاستخدام الفعلي، والحالات الطارئة، ونقاط الضعف في النظام. يساعد التقييم المستمر على كشف مواطن نجاح هذه الحواجز، ومواطن تشددها أو تساهلها، وكيفية استجابة النموذج عند اختباره. فبدون رؤية واضحة لكيفية أداء حواجز الحماية بمرور الوقت، نخاطر بمعاملتها كمربعات اختيار بدلاً من أن تكون أنظمة ديناميكية كما ينبغي.

مع ذلك، حتى أفضل الحواجز الواقية تصميمًا تواجه تناقضات جوهرية. فالإفراط في الحجب قد يُحبط المستخدمين؛ بينما قد يُسبب النقص في الحجب ضررًا. ويُمثل ضبط التوازن بين السلامة والفائدة تحديًا مستمرًا. فالحواجز الواقية نفسها قد تُنشئ ثغرات أمنية جديدة - من الحقن الفوري إلى التحيز المُشفر. يجب أن تكون قابلة للتفسير، وعادلة، وقابلة للتعديل، وإلا فإنها تُخاطر بأن تُصبح مجرد طبقة أخرى من التعتيم.

واستشرافا للمستقبل

مع تزايد قدرة الذكاء الاصطناعي على التفاعل، وتكامله مع سير العمل، وقدرته على التعامل مع المهام بشكل مستقل، يجب أن تكون استجاباته موثوقة ومسؤولة. في مجالات مثل القانون، والطيران، والترفيه، وخدمة العملاء، والعمليات الميدانية، يمكن لاستجابة واحدة فقط من الذكاء الاصطناعي أن تؤثر على قرار أو تُحفّز على اتخاذ إجراء. تساعد الحواجز الأمنية على ضمان أمان هذه التفاعلات ومواءمتها مع توقعات العالم الحقيقي. الهدف ليس مجرد بناء أدوات أذكى، بل بناء أدوات يثق بها الناس. وفي الذكاء الاصطناعي التفاعلي، الثقة ليست ميزة إضافية، بل هي الأساس.

مواضيع ذات صلة:محاذاة الذكاء الاصطناعي aiOla الثقة

عساف أسباغ، الرئيس التنفيذي للتكنولوجيا والمنتجات في aiOla

عساف اسباج هو خبير ذو خبرة واسعة في مجال التكنولوجيا وعلوم البيانات ولديه أكثر من 15 عامًا في صناعة الذكاء الاصطناعي، ويعمل حاليًا كرئيس تنفيذي للتكنولوجيا والمنتجات (CTPO) في aiOla، وهو مختبر للذكاء الاصطناعي للمحادثة التقنية العميقة، حيث يقود ابتكارات الذكاء الاصطناعي وقيادة السوق.

اتحدوا