الذكاء الاصطناعي
مختبر العميل: فريق بحثي افتراضي من AMD وJohns Hopkins

بينما كان الجميع يتحدثون عن وكلاء منظمة العفو الدولية وتعمل AMD وجامعة جونز هوبكنز على تحسين كيفية تعاون البشر والذكاء الاصطناعي في البحث العلمي. ويهدف إطار عملهما الجديد مفتوح المصدر، مختبر العميل، هو إعادة تصور كاملة لكيفية تسريع البحث العلمي من خلال العمل الجماعي بين الإنسان والذكاء الاصطناعي.
بعد النظر في العديد من أطر البحث في مجال الذكاء الاصطناعي، يبرز Agent Laboratory بفضل نهجه العملي. فبدلاً من محاولة استبدال الباحثين البشر (مثل العديد من الحلول القائمة)، يركز على تعزيز قدراتهم من خلال التعامل مع الجوانب التي تستغرق وقتًا طويلاً في البحث مع إبقاء البشر في مقعد القيادة.
الابتكار الأساسي هنا بسيط ولكنه قوي: بدلاً من متابعة الأبحاث المستقلة بالكامل (والتي غالبًا ما تؤدي إلى نتائج مشكوك فيها)، ينشئ Agent Laboratory مختبرًا افتراضيًا حيث يعمل العديد من وكلاء الذكاء الاصطناعي المتخصصين معًا، حيث يتعامل كل منهم مع جوانب مختلفة من عملية البحث مع البقاء مرتبطًا بالتوجيه البشري.
تفكيك المختبر الافتراضي
فكر في مختبر العميل باعتباره فريق بحث منظم جيدًا، ولكن مع قيام عملاء الذكاء الاصطناعي بأدوار متخصصة. تمامًا مثل مختبر الأبحاث الحقيقي، يتمتع كل عميل بمسؤوليات وخبرة محددة:
- وكيل الدكتوراه يتعامل مع مراجعات الأدبيات وتخطيط البحث
- يساعد وكلاء ما بعد الدكتوراه في تحسين الأساليب التجريبية
- يتولى وكلاء مهندس التعلم الآلي عملية التنفيذ الفني
- يقوم وكلاء الأساتذة بتقييم وتسجيل مخرجات البحث
ما يجعل هذا النظام مثيرًا للاهتمام بشكل خاص هو سير العمل الخاص به. على عكس أدوات الذكاء الاصطناعي التقليدية التي تعمل بمعزل عن بعضها البعض، يخلق Agent Laboratory بيئة تعاونية حيث يتفاعل هؤلاء الوكلاء ويبنون على عمل بعضهم البعض.
وتتبع هذه العملية تقدمًا بحثيًا طبيعيًا:
- عرض الادب: يقوم وكيل الدكتوراه بفحص الأوراق الأكاديمية باستخدام واجهة برمجة تطبيقات arXiv- جمع وتنظيم البحوث ذات الصلة
- صياغة الخطة: يتعاون وكلاء الدكتوراه ومرحلة ما بعد الدكتوراه لإنشاء خطط بحثية مفصلة
- التنفيذ: يقوم وكلاء مهندس التعلم الآلي بكتابة واختبار التعليمات البرمجية
- التحليل والتوثيق: يعمل الفريق معًا لتفسير النتائج وإنشاء تقارير شاملة
ولكن هنا يصبح الأمر عمليًا حقًا: الإطار مرن في الحوسبة، مما يعني أن الباحثين يمكنهم تخصيص الموارد بناءً على قدرتهم على الوصول إلى قوة الحوسبة والقيود المفروضة على الميزانية. وهذا يجعل منه أداة مصممة لبيئات البحث في العالم الحقيقي.

شميدجال وآخرون.
العامل البشري: حيث تلتقي الذكاء الاصطناعي بالخبرة
في حين أن Agent Laboratory يتمتع بقدرات أتمتة مذهلة، فإن السحر الحقيقي يحدث في ما يسمى "وضع الطيار المساعد". في هذا الإعداد، يمكن للباحثين تقديم ملاحظات في كل مرحلة من مراحل العملية، مما يخلق تعاونًا حقيقيًا بين الخبرة البشرية ومساعدة الذكاء الاصطناعي.
تكشف بيانات ردود الفعل من مساعد الطيار عن بعض الرؤى المقنعة. في الوضع المستقل، سجلت الأوراق التي تم إنشاؤها بواسطة مختبر العميل متوسطًا قدره 3.8/10 في التقييمات البشرية. ولكن عندما انخرط الباحثون في وضع مساعد الطيار، قفزت هذه الدرجات إلى 4.38/10. والأمر المثير للاهتمام بشكل خاص هو المكان الذي ظهرت فيه هذه التحسينات - حيث سجلت الأوراق درجات أعلى بكثير في الوضوح (+0.23) والعرض (+0.33).
ولكن هنا هو التحقق من الواقع: حتى مع التدخل البشري، لا تزال هذه الأوراق تسجل حوالي 1.45 نقطة أقل من المتوسط المقبول NeurIPS إن هذا ليس فشلاً، ولكنه تعلم أساسي حول كيفية تكامل الذكاء الاصطناعي والخبرة البشرية مع بعضها البعض.
وقد كشف التقييم عن شيء آخر مثير للاهتمام: لقد قام مراجعو الذكاء الاصطناعي بتقييم الأبحاث بشكل ثابت أعلى بنحو 2.3 نقطة من المراجعين البشر. وتسلط هذه الفجوة الضوء على سبب بقاء الإشراف البشري أمرًا بالغ الأهمية في تقييم الأبحاث.

شميدجال وآخرون.
كسر الأعداد
ما الذي يهم حقًا في بيئة البحث؟ التكلفة والأداء. يكشف نهج Agent Laboratory لمقارنة النماذج عن بعض المكاسب المذهلة في الكفاءة في هذا الصدد.
برزت GPT-4o كبطلة السرعة، حيث أكملت سير العمل بالكامل في 1,165.4 ثانية فقط - أي أسرع بـ 3.2 مرة من o1-mini وأسرع بـ 5.3 مرة من o1-preview. ولكن الأهم من ذلك هو أنها تكلف 2.33 دولارًا فقط لكل ورقة بحثية. وبالمقارنة بأساليب البحث المستقلة السابقة التي تكلف حوالي 15 دولارًا، فإننا نتطلع إلى خفض التكلفة بنسبة 84٪.
النظر في أداء النموذج:
- حصلت معاينة o1 على أعلى درجة من حيث الفائدة والوضوح
- حقق o1-mini أفضل درجات الجودة التجريبية
- تأخرت GPT-4o في المقاييس ولكنها تقدمت في كفاءة التكلفة
والآثار الواقعية المترتبة هنا كبيرة.
يمكن للباحثين الآن اختيار نهجهم بناءً على احتياجاتهم المحددة:
- هل تحتاج إلى إنشاء نماذج أولية سريعة؟ يوفر لك GPT-4o السرعة والكفاءة من حيث التكلفة
- هل ترغب في إعطاء الأولوية للجودة التجريبية؟ قد يكون o1-mini هو الخيار الأفضل لك
- هل تبحث عن أفضل النتائج؟ o1-preview يظهر وعدًا
وتعني هذه المرونة أن فرق البحث يمكنها تكييف الإطار مع مواردها ومتطلباتها، بدلاً من الالتزام بحل واحد يناسب الجميع.
فصل جديد في البحث
بعد الاطلاع على قدرات ونتائج مختبر العميل، أصبحت مقتنعاً بأننا نشهد تحولاً كبيراً في كيفية إجراء البحوث. ولكن ليس الحديث عن الاستبدال هو الذي يهيمن على العناوين الرئيسية في كثير من الأحيان ــ بل إن الأمر يتعلق بشيء أكثر دقة وقوة.
ورغم أن أوراق Agent Laboratory لم تصل بعد إلى أعلى معايير المؤتمرات بمفردها، فإنها تخلق نموذجًا جديدًا لتسريع البحث. فكر في الأمر كما لو كان لديك فريق من مساعدي البحث في مجال الذكاء الاصطناعي الذين لا ينامون أبدًا، وكل منهم متخصص في جوانب مختلفة من العملية العلمية.
إن التأثيرات على الباحثين عميقة:
- يمكن إعادة توجيه الوقت الذي يتم إنفاقه على مراجعة الأدبيات والترميز الأساسي إلى الأفكار الإبداعية
- تصبح أفكار البحث التي ربما تم تأجيلها بسبب قيود الموارد قابلة للتطبيق
- إن القدرة على إنشاء النماذج الأولية واختبار الفرضيات بسرعة قد تؤدي إلى تحقيق اختراقات أسرع
إن القيود الحالية، مثل الفجوة بين نتائج الذكاء الاصطناعي ونتائج المراجعة البشرية، تشكل فرصاً. فكل تكرار لهذه الأنظمة يقربنا من تعاون بحثي أكثر تطوراً بين البشر والذكاء الاصطناعي.
بالنظر إلى المستقبل، أرى ثلاثة تطورات رئيسية من شأنها إعادة تشكيل الاكتشاف العلمي:
- سوف تظهر أنماط تعاون أكثر تطوراً بين الإنسان والذكاء الاصطناعي مع تعلم الباحثين كيفية الاستفادة من هذه الأدوات بشكل فعال
- إن توفير التكاليف والوقت قد يؤدي إلى إضفاء الطابع الديمقراطي على الأبحاث، مما يسمح للمختبرات والمؤسسات الأصغر بملاحقة مشاريع أكثر طموحًا
- إن قدرات النمذجة السريعة قد تؤدي إلى المزيد من الأساليب التجريبية في البحث
إن مفتاح تعظيم هذه الإمكانات يكمن في إدراك أن مختبرات الوكلاء والأطر المماثلة هي أدوات للتضخيم، وليس الأتمتة. إن مستقبل البحث لا يتعلق بالاختيار بين الخبرة البشرية وقدرات الذكاء الاصطناعي - بل يتعلق بإيجاد طرق مبتكرة للجمع بينهما.