الذكاء الاصطناعي
MINT-1T: توسيع البيانات المتعددة الوسائط المفتوحة المصدر بعشر مرات
يتطلب تدريب نماذج متعددة الوسائط الكبيرة (LMMs) مجموعات بيانات كبيرة النطاق تحتوي على تسلسلات متداخلة من الصور والنص في شكل حر. على الرغم من تطور النماذج المتعددة الوسائط المفتوحة المصدر بسرعة، لا تزال هناك نقص كبير في مجموعات بيانات متعددة الوسائط المتداخلة بمقياس كبير ومفتوحة المصدر. لا يمكن التقليل من أهمية هذه المجموعات من البيانات، لأنها تشكل الأساس لإنشاء أنظمة ذكاء اصطناعي متقدمة قادرة على فهم وإنتاج المحتوى عبر وسائط مختلفة. بدون إمداد كاف من مجموعات البيانات الشاملة والمتداخلة، يتم حظر إمكانية تطوير نماذج LMM أكثر تطورا وقدرة. تمكن هذه المجموعات من البيانات النماذج من التعلم من مجموعة متنوعة من الإدخالات، مما يجعلها أكثر تنوعا وفعالية في التطبيقات المختلفة. بالإضافة إلى ذلك، يطرح ندرة هذه المجموعات من البيانات تحديا للمجتمع المفتوح المصدر، الذي يعتمد على الموارد المشتركة لتحفيز الابتكار والتعاون.
لقد حقق النماذج المتعددة الوسائط المفتوحة المصدر تقدما كبيرا في السنوات الأخيرة، ولكن نموها معاق بتوفر مجموعات بيانات كبيرة النطاق والمتداخلة. للتفوق على هذا العائق، هناك حاجة إلى جهود متضافرة لتحضير وترميز و发布 مجموعات بيانات أكثر شمولا يمكن أن تدعم الاستمرار في تطوير وتنقيح النماذج المتعددة الوسائط. بالإضافة إلى ذلك، يتضمن إنشاء وانتشار هذه المجموعات من البيانات التغلب على عقبات تقنية ولوغستية متعددة. يجب أن تكون جمع البيانات شاملا وممثلا للسياقات المتنوعة التي سيتم فيها نشر النماذج المتعددة الوسائط. يتطلب الترميز عناية فائقة لضمان أن تكون التسلسلات المتداخلة من الصور والنص معروضة بطريقة تعزز قدرات التعلم للنموذج. بالإضافة إلى ذلك، يتطلب إتاحة المجموعات من البيانات بمصدر مفتوح معالجة الاعتبارات القانونية والأخلاقية المتعلقة بخصوصية البيانات و حقوق الاستخدام. توسيع توافر مجموعات بيانات متعددة الوسائط المتداخلة عالية الجودة وذات مقياس كبير ضروري لمستقبل أبحاث الذكاء الاصطناعي و التطوير. من خلال معالجة الندرة الحالية، يمكن للمجتمع الاصطناعي تعزيز الابتكار والتعاون، مما يؤدي إلى إنشاء نماذج LMM أكثر قوة وتنوعا قادرة على معالجة مشاكل العالم الحقيقي المعقدة.
بناء على ذلك، MINT-1T، أكبر وأكثر مجموعة بيانات متعددة الوسائط متداخلة مفتوحة المصدر حتى الآن. MINT-1T: بمقياس أكبر بعشر مرات، بما في ذلك تريليون من رموز النص و 3.4 مليار صورة أكثر من مجموعات البيانات المفتوحة المصدر الحالية. تقدم مجموعة بيانات MINT-1T أيضا مصادر غير معروضة من قبل مثل ملفات PDF وورقات ArXiv. منذ أن لا تتمتع مجموعات البيانات المتعددة الوسائط المتداخلة بسهولة للتوسيع، من المهم أن تشارك مجموعة بيانات MINT-1T عملية تحضير البيانات حتى يمكن للآخرين إجراء تجارب على هذه المتغيرات الغنية بالمعلومات. تظهر مجموعة بيانات MINT-1T أن طريقةها؛ النماذج LM المتدربة على MINT-1T تنافس (على الرغم من أنها أقل قليلا) أفضل النماذج المفتوحة المصدر الحالية، OBELICS.
MINT-1T: مجموعة بيانات متعددة الوسائط مع تريليون رمز
لقد لعبت مجموعات البيانات المفتوحة المصدر الكبيرة دورا حاسما في مجتمع البحث في استكشاف هندسة البيانات وتدريب نماذج مفتوحة وشفافة. في مجال النص، لعبت الأعمال المبكرة مثل C4 و The Pile دورا حاسما في تمكين المجتمع من تدريب أول مجموعة من نماذج اللغة الكبيرة مفتوحة المصدر مثل GPT-J و GPT-Neo وغيرها. كما مهدت هذه الجهود الأساسية الطريق لتحسينات لاحقة في أساليب تصفية البيانات والتوسيع. بشكل مماثل، في مجال الصور والنص، أدت مجموعات البيانات المفتوحة المصدر الكبيرة إلى ابتكارات في أساليب تحضير البيانات الأفضل، مثل شبكات تصفية البيانات و T-MARS. هناك تحول واضح من مختبرات الطليعة نحو تدريب نماذج متعددة الوسائط كبيرة (LMMs) التي تتطلب مجموعات بيانات متعددة الوسائط متداخلة شاملة تتكون من تسلسلات حرة من الصور والنص. مع تقدم قدرات نماذج الطليعة بسرعة، ي出现 فجوة كبيرة في بيانات التدريب المتعددة الوسائط بين النماذج المغلقة والمفتوحة المصدر. مجموعات البيانات المتعددة الوسائط المتداخلة المفتوحة المصدر الحالية أصغر وأقل تنوعا من نظيراتها النصية فقط، وهي مستمدة في الغالب من وثائق HTML، مما يحد من عمق وتنوع البيانات. هذا القصور يعوق تطوير نماذج LMM مفتوحة المصدر قوية ويعزز الفجوة بين قدرات النماذج المفتوحة والمغلقة المصدر.
… (rest of the translation remains the same, following the exact structure and format as the original)












