Connect with us

DataGen تُحصل على 18 مليون دولار في الاستثمارات لإنشاء بيانات مُصنعة لبرامج الذكاء الاصطناعي

الذكاء الاصطناعي

DataGen تُحصل على 18 مليون دولار في الاستثمارات لإنشاء بيانات مُصنعة لبرامج الذكاء الاصطناعي

mm

الشركة الناشئة الإسرائيلية DataGen raised مؤخرًا 18.5 مليون دولار لتمويل إنشاء منصة مخصصة لإنتاج بيانات مُصنعة لشركات الذكاء الاصطناعي.

يُواجه أي شركة ذكاء اصطناعي نفس التحدي الأساسي، وهو جمع البيانات اللازمة لتدريب نماذج الذكاء الاصطناعي. إن الحاجة إلى بيانات تدريب عالية الجودة كبيرة لدرجة أن هذا أدى إلى Appearance صناعة فرعية مخصصة لتزويد شركات الذكاء الاصطناعي بالبيانات التي تحتاجها لتدريب نماذجها. دائمًا ما تبحث شركات الذكاء الاصطناعي وشركات ذكاء اصطناعي ذات الصلة عن طرق جديدة للحصول على البيانات التي تحتاجها. أحد الطرق للحصول على هذه البيانات التدريبية هو ببساطة تحريف أو إنشاء البيانات.

كما ذكرت Fortune ، تتخصص DataGen في استخدام نماذج التعلم الآلي الخاصة بها لإنشاء بيانات مُصنعة لشركات أخرى لتدريب نماذجها، خاصة بيانات الصور والفيديو. يتم استخدام البيانات التي تم إنشاؤها بواسطة الشركة من قبل عملائها لتدريب نماذج الذكاء الاصطناعي الخاصة بهم. وفقًا لما قالته Ofir Chakon ، الرئيس التنفيذي ومؤسس DataGen ، يمكن للشركة إنشاء مجموعة بيانات مُصنعة كاملة للشركة العميلة في غضون بضع ساعات. هذا أسرع بكثير من المدة التي تستغرقها عادةً لإعداد مجموعة بيانات للاستخدام، والتي غالبًا ما تكون أسابيع أو حتى أشهر من تحديد البيانات.

هناك أسباب أخرى تجعل البيانات المُصنعة جذابة للشركات، إلى جانب السرعة النسبية التي يمكن إعدادها بها. لا تأتي البيانات المُصنعة مع مشاكل الخصوصية التي تأتي مع البيانات الحقيقية. مع إنشاء المزيد من القوانين لحماية خصوصية البيانات، يصبح من المزيد من الجاذبية الحصول على بيانات تدريبية مُصنعة. يتنبأ أحد التقديرات التي قدمتها شركة Gartner لتحليل التكنولوجيا بأن حوالي 65٪ من سكان العالم سيكونون محميين بقانون بعض أنواع خصوصية البيانات بحلول عام 2023.

على الرغم من أن البيانات المُصنعة ليست基于 أشخاص حقيقيين، إلا أنها لا تزال يمكن أن تكون متحيزة. ستكون البيانات التي تم إنشاؤها بواسطة نموذج البيانات المُصنعة دارای نفس الأنماط التي كان لديها البيانات التدريبية الأصلية، مما يعني أنه إذا كانت مجموعة البيانات متحيزة، فإن هذه التحيزات ستكون موجودة في البيانات الجديدة المُنشأة. لدى DataGen استراتيجيات لتقليل تحيز البيانات في البيانات المُصنعة. أحد الطرق لتقليل التحيز في البيانات المُصنعة هو زيادة معدل حدوث الأحداث النادرة، مما يعني أنه إذا كانت فئة واحدة في مجموعة البيانات غير ممثلة، فيمكن زيادة معدل حدوثها حتى يصبح أكثر مساواة.

تكنولوجيا زيادة حدوث الأحداث النادرة مهمة جدًا عند إنشاء مجموعات بيانات تتضمن سيناريوهات محتملة الخطورة. افترض مجموعة بيانات تستخدم لتدريب سيارة ذاتية القيادة. يجب على السيارة الاستجابة بثبات لالأحداث النادرة، مثل انفتاح حفرة في الطريق. ومع ذلك، هذه الأحداث نادرة جدًا، ويتعذر الحصول على بيانات تدريبية لهذه الأحداث. لهذا السبب، غالبًا ما تحتاج بيانات التدريب لهذه الأحداث النادرة إلى إنشائها.

كماexplained Chakon via Fortune:

“يتمتع عملاؤنا بالسيطرة الكاملة على جميع المعلمات التي تدخل في البيانات التي يخلقونها. التأثير الحقيقي هو أنه، بمجرد نشره، يمكنك أن تكون متأكدًا من أنه سيعمل جيدًا في مجالات مختلفة، مع dânات مختلفة، في مواقع جغرافية مختلفة أو أي بيئة يمكنك تخيلها.”

تستخدم DataGen Generative Adversarial Networks (GANs) لإنشاء محاكاة واقعية للعناصر والأحداث في العالم الحقيقي. أشار Chakon إلى أن الشركة يمكنها إنشاء أمثلة واقعية لما ي涉ل البيئات الداخلية أو الإدراك البشري. على سبيل المثال، يمكن أن تتضمن مجموعة بيانات الصور التي تم إنشاؤها بواسطة DataGen أمثلة على الأشياء المستخدمة لتدريب ذراع ميكانيكي روبوتي يستخدم لوجستيات المستودعات، مع أن الصور المُنشأة تبدو لا تُفرق عن الواقع. يمكن لبرنامج DataGen إنشاء كائنات ثلاثية الأبعاد عن طريق الجمع بين شبكة بصرية مع نظام محاكاة فيزيائية.

تشمل المستثمرين في DataGen مجموعة متنوعة من الأفراد والشركات ذوي الشهرة العالية. تشمل المستثمرين مديري قسم البحث عن الذكاء الاصطناعي في Nvidia ومعهد ماكس بلانك للنظم الذكية، بالإضافة إلى Anthony Goldbloom ، الرئيس التنفيذي لشركة Kaggle.

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.