قادة الفكر
صعود البيانات الاصطناعية، والسبب في أنها ستحسن البيانات الحقيقية بدلاً من استبدالها

أعلن إيلون ماسك مؤخرًا أننا استنفدنا البيانات البشرية المتاحة لتدريب نماذج الذكاء الاصطناعي. إن تحذيره هو أحدث تعليق على الحاجة إلى مصادر بيانات جديدة إذا كان الذكاء الاصطناعي سيستمر في تقدمه السريع. في صناعات مثل الرعاية الصحية والمالية، تجعل لوائح الخصوصية الصارمة ندرة البيانات أكثر حدة.
في حين أن البيانات الاصطناعية – وهي حل محتمل لندرة البيانات – ليست جديدة، فإن أهميتها تزداد باستمرار، كما يتضح من موجة الاندماجات والاستثمارات الأخيرة في هذا المجال. ومع ذلك، هناك بعض الشكوك العمياء حول استخدام البيانات الاصطناعية، ولا سيما خطر انهيار النموذج، حيث يتراجع جودة خرج نموذج اللغة الكبيرة المتعددة الوسائط (LLM) بدون بيانات العالم الحقيقي لتدريبه.
ما هي البيانات الاصطناعية وكيف يتم إنشاؤها؟
البيانات الاصطناعية هي بيانات يتم إنشاؤها بشكل اصطناعي بدلاً من جمعها من أحداث حقيقية. اليوم، يتم إنشاء معظم البيانات الاصطناعية باستخدام الذكاء الاصطناعي، حيث يتم تدريب النماذج على بيانات العالم الحقيقي لاكتشاف الأنماط والارتباطات، ثم إنشاء بيانات جديدة تقلد هذه الخصائص الإحصائية.
تستخدم نماذج LLMs لإنشاء أنواع مختلفة من البيانات الاصطناعية، بما في ذلك البيانات المهيكلة، مثل البيانات الجدولية، والبيانات غير المهيكلة، مثل النصوص الحرة والفيديوهات والصور. يتم استخدام مجموعة من الطرق، اعتمادًا على نوع البيانات التي يتم إنتاجها.
على سبيل المثال، هناك طريقتان شائعتان مستخدمتان لإنشاء بيانات الصور الاصطناعية: GANs ونمذجة الانتشار. تستخدم GANs شبكتين عصبيتين: شبكة توليدية تنشئ نسخًا اصطناعية من البيانات الحقيقية، وشبكة تمييز تحدد التي هي حقيقية ومولدة. تعمل معًا بشكل مستمر، تحاول الشبكة التوليدية “خداع” الشبكة التمييزية، وتحسين واقعية وتنوع البيانات الاصطناعية بشكل مستمر. تتبع نمذجة الانتشار نهجًا مختلفًا، حيث تتعلم تشويه البيانات الحقيقية ثم عكس هذا العملية لتنظيفها. بمجرد تدريبها بشكل فعال، يمكنها إنتاج بيانات صوتية ومرئية اصطناعية عالية الجودة.
أهمية البيانات الاصطناعية المتزايدة
هناك اهتمام دائم بالبيانات الاصطناعية. ومع ذلك، في السنوات الخمس الماضية، زادت التطورات السريعة في نماذج LLMs من الطلب على البيانات الاصطناعية وأوجدت وسيلة أكثر فعالية لإنشائها على نطاق واسع. ونتيجة لذلك، ازداد استخدام البيانات الاصطناعية بشكل كبير.
توقعت شركة جارتنر أن تشكل البيانات الاصطناعية 60% من جميع البيانات المستخدمة لتدريب نماذج LLMs بحلول عام 2024، مقارنة ب1% فقط في عام 2021. هناك كل理由 للاعتقاد بأن هذه التقدير دقيق بشكل عام. على سبيل المثال، تم تدريب نموذج Microsoft Phi-4، الذي يتفوق على نماذج LLMs الأخرى على الرغم من صغر حجمه، بنجاح على بيانات اصطناعية في الغالب. في غضون ذلك، يبحث مهندسو Amazon’s Alexa في استخدام نموذج “معلم/طالب” حيث يولد نموذج “المعلم” بيانات اصطناعية يتم استخدامها بعد ذلك لتعدين نموذج “طالب” أصغر.
هذا الاستخدام الواسع النطاق يتم التعبير عنه من خلال التحركات الرئيسية في السوق. شهد قطاع البيانات الاصطناعية طفرة استثمارية في عامي 2021-2022. حصلت Gretel AI وTonic.ai على جولات تمويل سلسلة B بقيمة 50 مليون دولار و35 مليون دولار على التوالي. تمت متابعتها بإغلاق MOSTLY AI لجولة تمويل سلسلة B بقيمة 25 مليون دولار وSynthesis AI حصلت على 17 مليون دولار في جولة تمويل سلسلة A.
في الآونة الأخيرة، اتجه الاتجاه نحو عمليات استحواذ على نطاق واسع. استحواذ NVIDIA على Gretel في هذا الربيع سيدعم عملاق التكنولوجيا في عمله في هذا المجال. وبالمثل، استحوذت شركة SAS على شركة Hazy لبيانات اصطناعية في نوفمبر 2024.
قدرت شركة Cognilytica سوق إنشاء البيانات الاصطناعية في عام 2021 بمبلغ 110 مليون دولار. تتوقع الشركة أن يصل إلى 1.15 مليار دولار بحلول عام 2027. تتوقع توقعات أخرى نموًا سنويًا مركبًا بنسبة 31% للقطاع، حيث ينمو إلى 2.33 مليار دولار في القيمة بحلول عام 2030.
انهيار النموذج
然而، يأتي الإمكانات المثيرة للبيانات الاصطناعية مع جانب سلبي كبير: انهيار النموذج. هذا هو ظاهرة حيث تبدأ نماذج LLMs التي يتم تدريبها فقط على البيانات الاصطناعية في إنتاج خرج أقل دقة أو أقل تنوعًا.
تتميل البيانات الحقيقية إلى أن تكون عالية التعقيد، بينما يتم تبسيط البيانات الاصطناعية وتضغطها بواسطة النماذج. على سبيل المثال، وجد الباحثون أن دقة نموذج تم تدريبه لاكتشاف ثآليل سرطانية من الصور كانت عكسياً متعلقة بكمية البيانات الاصطناعية المستخدمة في التدريب. وجدت دراسة حديثة من قبل أكاديميين من أوكسفورد وكامبريدج وكلية لندن الإمبراطورية وجامعة تورنتو أن استخدام بيانات النموذج المولدة بشكل غير تمييزي أدى إلى “عوائق لا يمكن إصلاحها في النموذج الناتج”.
وما هو أسوأ، فإن معظم نماذج LLMs هي “صندوق أسود”، مما يجعل من الصعب فهم كيف ستستجيب للبيانات الاصطناعية. خلصت الباحثون من جامعة رايس وستانفورد إلى أنه بدون بعض البيانات الحقيقية الجديدة، “النماذج التوليدية المستقبلية محكوم عليها بالفشل في جودة (الدقة) أو تنوع (الاستدعاء)”.
الحاجة المستمرة إلى بيانات العالم الحقيقي
من الواضح أن حتى مع زيادة الطلب على البيانات الاصطناعية، لا يزال هناك حاجة إلى بيانات العالم الحقيقي. وفي الواقع، قد تزداد الحاجة إلى بيانات العالم الحقيقي عالية الجودة. السبب في ذلك مزدوج. أولاً، سوف تحتاج دائمًا إلى بيانات العالم الحقيقي لتدريب نماذج الذكاء الاصطناعي التي تنتج البيانات الاصطناعية. ثانيًا، من أجل تجنب انهيار النموذج، من الضروري مزامنة البيانات الاصطناعية مع بيانات العالم الحقيقي بشكل مستمر.
بيانات حقيقية لتدريب نماذج إنتاج البيانات الاصطناعية
كما ذكرنا سابقًا، يتم إنشاء معظم البيانات الاصطناعية اليوم باستخدام الذكاء الاصطناعي. ويجب تدريب هذه نماذج الذكاء الاصطناعي على بيانات العالم الحقيقي لإنشاء بيانات اصطناعية قابلة للاستخدام. ذلك لأنها يمكن فقط إنشاء بيانات اصطناعية من خلال تكرار الأنماط والخصائص الإحصائية لمجموعة بيانات العالم الحقيقي.
تعتبر الحالة الحديثة لشركة تأمين التي تمكنت من استخدام البيانات الاصطناعية لاختبار باعة مختلفين دون المساس ببيانات العملاء الحساسة. من أجل إنشاء هذه المجموعة من البيانات الاصطناعية، التي تقلد الواقع بدقة، كان عليها استخدام بيانات العالم الحقيقي الخاصة بها لتدريب نموذج الذكاء الاصطناعي الذي أنتج البيانات الاصطناعية.
بيانات حقيقية لتخفيف انهيار النموذج
هناك استراتيجيات متعددة لتخفيف خطر انهيار النموذج. تشمل هذه التحقق من صحة مجموعات البيانات الاصطناعية ومراجعتها بانتظام، وتحقق جودة البيانات الاصطناعية قبل استخدامها في النماذج التوليدية. ومع ذلك، النهج الأكثر شيوعًا هو تنويع البيانات المستخدمة من خلال دمج البيانات الاصطناعية مع البيانات البشرية. وجدت دراسة جارتنر أن 63% من المستجيبين يفضلون استخدام مجموعة بيانات جزئيًا اصطناعية، مع قول 13% فقط إنهم يستخدمون بيانات полностью اصطناعية.
يمكن أن يؤدي إضافة كميات متواضعة من البيانات الحقيقية إلى تحسين أداء النموذج بشكل كبير. وجد الباحثون من جامعة جنوب كاليفورنيا أن الشركات يمكن أن تحل محل ما يصل إلى 90% من بياناتها الحقيقية بالبيانات الاصطناعية دون أن يحدث انخفاض كبير في الأداء. ومع ذلك، فإن استبدال ذلك الجزء الأخير البالغ 10% من البيانات البشرية يؤدي إلى انخفاض كبير.
تعتبر الجودة أيضًا مهمة، كما هو موضح في حالة نجاح Microsoft مع Phi-4. تم تدريب هذا النموذج LLM على بيانات اصطناعية في الغالب تم إنشاؤها بواسطة GPT-4o. ومع ذلك، كانت معظم بيانات التدريب المسبق – مجموعة بيانات عامة تستخدم في المرحلة الأولى من التدريب قبل تعدين النموذج – بيانات حقيقية عالية الجودة تمت صيانتها بعناية، بما في ذلك الكتب والأوراق البحثية.
المنافع المحتملة التي يمكن أن تبرزها البيانات الاصطناعية
عندما يتم استخدام البيانات الاصطناعية بذكاء، ودمجها بشكل فعال مع بيانات العالم الحقيقي، فإنها تتمتع بال潜عة لحل ستة مشاكل محددة عند تدريب بيانات الذكاء الاصطناعي: ندرة البيانات، وسهولة الوصول إليها، وتناسقها، وتحيزها، ومشاكل الخصوصية، وتكلفة إنشائها.
ندرة البيانات
كما يتنافس شركات الذكاء الاصطناعي على الحصول على حصة السوق وتحقيق الإنجازات الجديدة، تزداد الحاجة إلى بيانات لتدريب نماذج LLMs. تتمتع البيانات الاصطناعية بال潜عة لمعالجة هذه الفجوة، على الأقل وفقًا لبحث جارتنر. ومع ذلك، يجب ملاحظة أن استخدام كميات كبيرة من البيانات الحقيقية في مجموعات بيانات التدريب المسبق، وللمزامنة لتجنب انهيار النموذج، سيظل ضروريًا.
سهولة الوصول إلى البيانات
تتخذ شركات التكنولوجيا الكبيرة دور حراس البوابة عند يتعلق الأمر بالبيانات، مما يخلق حاجزًا أمام دخول اللاعبين الصغار. تتمتع البيانات الاصطناعية بال潜عة لتحسين الذكاء الاصطناعي من خلال جعل كميات كبيرة من بيانات التدريب متاحة بأسعار معقولة وسهلة الوصول إليها. ومع ذلك، لن يزيل هذا الحاجة إلى تحسين الوصول إلى البيانات الحقيقية، حيث لا يزال من الضروري تدريب نماذج إنتاج البيانات الاصطناعية.
تناسق البيانات
في بعض الحالات المتخصصة، مثل تدريب الذكاء الاصطناعي لقيادة السيارات ذاتية الحركة، تكون مجموعات البيانات الحقيقية متماثلة للغاية. في حالة القيادة، يمكن للمطورين إنشاء بيانات اصطناعية لملء الفجوات في البيانات لنوادر الحالات. هذا يتيح للنماذج أن تتدرب على أحداث نادرة على الطريق.
تحيز البيانات
تتضمن بعض مجموعات البيانات الحقيقية تحيزًا داخليًا، لذلك يمكن إنشاء بيانات اصطناعية لضمان حصول نماذج الذكاء الاصطناعي على صورة متوازنة. على سبيل المثال، في مجال التمويل، جادلت الهيئة التنظيمية المالية في المملكة المتحدة أن البيانات الاصطناعية تتمتع بال潜عة لمواجهة التحيزات المحتملة التي تسببها مجموعات بيانات بشرية.
الخصوصية
في قطاعات مثل الرعاية الصحية والمالية، تجعل متطلبات الخصوصية ندرة البيانات أكثر حدة. مع البيانات الاصطناعية، يمكن للشركات بناء مجموعات بيانات تدريب لنماذجها دون المساس بخصوصية العملاء. ومع ذلك، كما أشارت دراسة تم تكليفه بها من قبل الجمعية الملكية في المملكة المتحدة إلى أن هناك مفاهيم خاطئة حول البيانات الاصطناعية في الأبحاث الطبية، حيث يُفترض أن البيانات الاصطناعية “تتمتع بالخصوصية بشكل固 hữu”. هذا هو “مفهوم خاطئ”. كما يشير الباحثون، يمكن للبيانات الاصطناعية تسريب المعلومات حول البيانات التي تم اشتقاقها منها.
بشكل خاص، تكون النماذج التي يتم تدريبها على بيانات حساسة عرضة للهجمات العكسية، حيث يمكن للمخترقين إعادة بناء أجزاء من مجموعة البيانات الأصلية.
تكلفة البيانات
بشكل عام، يتم إنشاء البيانات الاصطناعية بتكلفة أقل من البيانات الحقيقية. كما أنها تأتي مصنفة، مما يوفر وقتًا وتكلفة. في بعض مشاريع تدريب الذكاء الاصطناعي، تصل إلى 80% من المشروع يتم تخصيصها لتحضير البيانات، بما في ذلك التصنيف. هذا يفسر لماذا برزت شركات مخصصة لاستخدام العمالة منخفضة التكلفة لتلبية احتياجات معالجة البيانات لعمال وادي السيليكون.
تحسين البيانات الحقيقية بدلاً من استبدالها
يمكن استغلال هذه الفوائد للبيانات الاصطناعية، شريطة ألا يتم التعامل معها كبديل للبيانات الحقيقية. بدلاً من ذلك، يجب أن يكون دورها هو تحسين مجموعات البيانات الحقيقية، وتوفير وسائل لزيادة حجم النقاط البيانية المتاحة.
في هذا السياق، يتم تدريب نموذج Meta القادم LLM، LLAMA Behemoth، على 30 تريليون نقطة بيانات. من الواضح أن العثور على بيانات حقيقية في هذا الحجم يعد تحديًا، إن لم يكن مستحيلًا. ومع ذلك، كما لوحظ، استخدام البيانات الحقيقية لا يزال ضروريًا، سواء كان ذلك لتدريب النماذج التي تنتج البيانات الاصطناعية أو للمزامنة مع البيانات الاصطناعية لضمان الدقة وتجنب انهيار النموذج. على نطاق عمل نماذج LLMs الآن، حتى إذا كانت البيانات الاصطناعية تشكل جزءًا كبيرًا من بيانات التدريب المستخدمة، ستظل هناك حاجة كبيرة إلى البيانات الحقيقية. وهذا يعني أن هناك مشاكل معقدة يجب حلها حول الحاجز، والوصول، والتحيز، والتكلفة، والوقت.












