رطم ما هي البيانات التركيبية؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

منظمة العفو الدولية 101

ما هي البيانات التركيبية؟

mm
تحديث on

ما هي البيانات التركيبية؟

البيانات الاصطناعية هي اتجاه سريع التوسع وأداة ناشئة في مجال علم البيانات. ما هي البيانات الاصطناعية بالضبط؟ الإجابة المختصرة هي أن البيانات الاصطناعية تتكون من البيانات التي لا تستند إلى أي ظواهر أو أحداث حقيقية، بل يتم إنشاؤها عبر برنامج كمبيوتر. ومع ذلك ، لماذا أصبحت البيانات التركيبية مهمة جدًا لعلوم البيانات؟ كيف يتم إنشاء البيانات التركيبية؟ دعنا نستكشف إجابات هذه الأسئلة.

ما هي مجموعة البيانات التركيبية؟

وكما يوحي مصطلح "اصطناعي"، يتم إنشاء مجموعات البيانات الاصطناعية من خلال برامج الكمبيوتر، بدلا من أن يتم تجميعها من خلال توثيق أحداث العالم الحقيقي. الغرض الأساسي من مجموعة البيانات الاصطناعية هو أن تكون متعددة الاستخدامات وقوية بما يكفي لتكون مفيدة لتدريب نماذج التعلم الآلي.

لكي تكون مفيدة لمصنف التعلم الآلي ، البيانات التركيبية يجب أن يكون لها خصائص معينة. بينما يمكن أن تكون البيانات فئوية أو ثنائية أو رقمية ، يجب أن يكون طول مجموعة البيانات عشوائيًا ويجب إنشاء البيانات عشوائيًا. يجب أن تكون العمليات العشوائية المستخدمة لتوليد البيانات قابلة للتحكم وتعتمد على توزيعات إحصائية مختلفة. يمكن أيضًا وضع ضوضاء عشوائية في مجموعة البيانات.

إذا تم استخدام البيانات التركيبية لخوارزمية تصنيف ، فيجب أن يكون مقدار الفصل بين الفئات قابلاً للتخصيص ، بحيث يمكن جعل مشكلة التصنيف أسهل أو أصعب وفقًا لمتطلبات المشكلة. وفي الوقت نفسه ، بالنسبة لمهمة الانحدار ، يمكن استخدام العمليات التوليدية غير الخطية لإنشاء البيانات.

لماذا نستخدم البيانات التركيبية؟

نظرًا لأن أطر التعلم الآلي مثل TensorfFlow وPyTorch أصبحت أسهل في الاستخدام وأصبحت النماذج المصممة مسبقًا لرؤية الكمبيوتر ومعالجة اللغة الطبيعية أكثر انتشارًا وقوة، فإن المشكلة الأساسية التي يجب على علماء البيانات مواجهتها هي جمع البيانات ومعالجتها. غالبًا ما تواجه الشركات صعوبة في الحصول على كميات كبيرة من البيانات لتدريب نموذج دقيق خلال إطار زمني محدد. يعد وضع العلامات اليدوية على البيانات طريقة مكلفة وبطيئة للحصول على البيانات. ومع ذلك، فإن توليد واستخدام البيانات الاصطناعية يمكن أن يساعد علماء البيانات والشركات على التغلب على هذه العقبات وتطوير نماذج موثوقة للتعلم الآلي بطريقة أسرع.

هناك عدد من المزايا لاستخدام البيانات التركيبية. الطريقة الأكثر وضوحًا التي يفيد بها استخدام البيانات التركيبية في علم البيانات هي أنه يقلل من الحاجة إلى التقاط البيانات من أحداث العالم الحقيقي ، ولهذا السبب يصبح من الممكن إنشاء البيانات وإنشاء مجموعة بيانات بسرعة أكبر بكثير من مجموعة البيانات التي تعتمد على أحداث العالم الحقيقي. هذا يعني أنه يمكن إنتاج كميات كبيرة من البيانات في إطار زمني قصير. هذا صحيح بشكل خاص للأحداث التي نادرًا ما تحدث ، كما لو كان حدث نادرًا ما يحدث في البرية ، يمكن الاستهزاء بالمزيد من البيانات من بعض عينات البيانات الأصلية. علاوة على ذلك ، يمكن تسمية البيانات تلقائيًا عند إنشائها ، مما يقلل بشكل كبير من مقدار الوقت اللازم لتسمية البيانات.

يمكن أن تكون البيانات التركيبية مفيدة أيضًا في الحصول على بيانات التدريب لحالات الحافة ، وهي حالات قد تحدث بشكل غير متكرر ولكنها ضرورية لنجاح الذكاء الاصطناعي الخاص بك. حالات الحافة هي أحداث تشبه إلى حد بعيد الهدف الأساسي للذكاء الاصطناعي ولكنها تختلف من نواحٍ مهمة. على سبيل المثال ، يمكن اعتبار الكائنات التي يتم عرضها جزئيًا فقط حالات حافة عند تصميم مصنف الصور.

أخيرًا ، مجموعات البيانات التركيبية يمكن تقليل مخاوف الخصوصية. يمكن أن تكون محاولات إخفاء هوية البيانات غير فعالة ، حتى إذا تمت إزالة المتغيرات الحساسة / المحددة من مجموعة البيانات ، يمكن أن تعمل المتغيرات الأخرى كمعرفات عند دمجها. هذه ليست مشكلة في البيانات التركيبية ، لأنها لم تكن مبنية على شخص حقيقي أو حدث حقيقي في المقام الأول.

يستخدم حالات للبيانات التركيبية

البيانات التركيبية لديها مجموعة متنوعة من يستخدم، حيث يمكن تطبيقه على أي مهمة تعلم آلي تقريبًا. حالات الاستخدام الشائعة بالنسبة للبيانات التركيبية ، تشمل المركبات ذاتية القيادة والأمن والروبوتات والحماية من الاحتيال والرعاية الصحية.

كانت إحدى حالات الاستخدام الأولية للبيانات التركيبية هي السيارات ذاتية القيادة ، حيث يتم استخدام البيانات التركيبية لإنشاء بيانات تدريب للسيارات في ظروف يكون فيها الحصول على بيانات تدريب حقيقية على الطريق أمرًا صعبًا أو خطيرًا. تعد البيانات التركيبية مفيدة أيضًا في إنشاء البيانات المستخدمة لتدريب أنظمة التعرف على الصور ، مثل أنظمة المراقبة ، بشكل أكثر كفاءة من جمع مجموعة من بيانات التدريب يدويًا ووضع علامات عليها. يمكن أن تكون أنظمة الروبوتات بطيئة في التدريب والتطوير باستخدام طرق جمع البيانات التقليدية والتدريب. تسمح البيانات التركيبية لشركات الروبوتات باختبار وهندسة أنظمة الروبوتات من خلال عمليات المحاكاة. يمكن أن تستفيد أنظمة الحماية من الاحتيال من البيانات التركيبية ، ويمكن تدريب واختبار طرق جديدة للكشف عن الاحتيال باستخدام البيانات الجديدة باستمرار عند استخدام البيانات التركيبية. في مجال الرعاية الصحية ، يمكن استخدام البيانات التركيبية لتصميم مصنفات صحية دقيقة ، مع الحفاظ على خصوصية الأشخاص ، لأن البيانات لن تستند إلى أشخاص حقيقيين.

تحديات البيانات التركيبية

في حين أن استخدام البيانات التركيبية يجلب معها العديد من المزايا ، إلا أنه يجلب أيضًا العديد من التحديات.

عندما يتم إنشاء البيانات التركيبية ، فإنها غالبًا ما تفتقر إلى القيم المتطرفة. تحدث القيم المتطرفة في البيانات بشكل طبيعي ، وبينما غالبًا ما يتم إسقاطها من مجموعات بيانات التدريب ، قد يكون وجودها ضروريًا لتدريب نماذج التعلم الآلي الموثوقة حقًا. علاوة على ذلك ، يمكن أن تكون جودة البيانات التركيبية شديدة التباين. غالبًا ما يتم إنشاء البيانات التركيبية باستخدام مدخلات أو بيانات أولية ، وبالتالي يمكن أن تعتمد جودة البيانات على جودة بيانات الإدخال. إذا كانت البيانات المستخدمة لإنشاء البيانات التركيبية متحيزة ، يمكن للبيانات التي تم إنشاؤها أن تديم هذا التحيز. تتطلب البيانات التركيبية أيضًا شكلاً من أشكال مراقبة الإنتاج / الجودة. يجب فحصها مقابل البيانات المشروحة من قبل الإنسان ، أو البيانات الموثوقة بطريقة ما هي شكل ما.

كيف يتم إنشاء البيانات التركيبية؟

يتم إنشاء البيانات التركيبية برمجيًا باستخدام تقنيات التعلم الآلي. يمكن استخدام تقنيات التعلم الآلي الكلاسيكية مثل أشجار القرار ، كما يمكن لتقنيات التعلم العميق. ستؤثر متطلبات البيانات التركيبية على نوع الخوارزمية المستخدمة لإنشاء البيانات. تتيح أشجار القرار ونماذج التعلم الآلي المماثلة للشركات إنشاء توزيعات بيانات غير كلاسيكية ومتعددة الوسائط ، مدربة على أمثلة من بيانات العالم الحقيقي. سيوفر توليد البيانات باستخدام هذه الخوارزميات بيانات شديدة الارتباط ببيانات التدريب الأصلية. في الحالات التي يكون فيها التوزيع النموذجي للبيانات معروفًا ، يمكن للشركة إنشاء بيانات تركيبية من خلال استخدام طريقة مونت كارلو.

عادةً ما تستخدم الأساليب القائمة على التعلم العميق لتوليد البيانات التركيبية أي منهما جهاز تشفير تلقائي متغير (VAE) or شبكة الخصومة التوليدية (GAN). VAEs هي نماذج تعلم آلي غير خاضعة للإشراف تستفيد من أجهزة التشفير وأجهزة فك التشفير. جزء المشفر من VAE مسؤول عن ضغط البيانات إلى نسخة أبسط ومضغوطة من مجموعة البيانات الأصلية ، والتي تقوم وحدة فك الترميز بتحليلها واستخدامها لإنشاء تمثيل للبيانات الأساسية. يتم تدريب VAE بهدف الحصول على علاقة مثالية بين بيانات الإدخال والإخراج ، حيث تكون كل من بيانات الإدخال وبيانات الإخراج متشابهة للغاية.

عندما يتعلق الأمر بنماذج GAN ، فإنها تسمى شبكات "خصومة" نظرًا لحقيقة أن شبكات GAN هي في الواقع شبكتان تتنافسان مع بعضهما البعض. المولد مسؤول عن توليد البيانات التركيبية ، بينما تعمل الشبكة الثانية (أداة التمييز) من خلال مقارنة البيانات التي تم إنشاؤها مع مجموعة بيانات حقيقية وتحاول تحديد البيانات المزيفة. عندما يكتشف أداة التمييز بيانات مزيفة ، يتم إخطار المولد بذلك ويقوم بإجراء تغييرات لمحاولة الحصول على دفعة جديدة من البيانات بواسطة أداة التمييز. في المقابل ، يصبح أداة التمييز أفضل وأفضل في اكتشاف المنتجات المقلدة. يتم تدريب الشبكتين ضد بعضهما البعض ، حيث تصبح المنتجات المقلدة أكثر واقعية في كل وقت.

Blogger والمبرمج مع تخصصات في تعلم آلة و تعلم عميق المواضيع. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الصالح الاجتماعي.