الذكاء الاصطناعي
تقنية وضع العلامات التلقائية الجديدة من Voxel51 تتعهد بخفض تكاليف التعليقات التوضيحية بمقدار 100,000 ضعف

دراسة جديدة رائدة من شركة ناشئة في مجال الرؤية الحاسوبية فوكسل 51 يشير هذا إلى أن نموذج شرح البيانات التقليدي على وشك أن يُقلب رأسًا على عقب. في بحث نُشر اليوم، أفادت الشركة أن نظامها الجديد للوسم التلقائي يحقق دقة تصل إلى 95% من دقة البشر، مع سرعة أكبر بـ 5,000 مرة ودقة تصل إلى 1أرخص 00,000 مرة من التسمية اليدوية.
قارنت الدراسة نماذجَ أساسيةً مثل YOLO-World وGrounding DINO على مجموعات بيانات معروفة، بما في ذلك COCO وLVIS وBDD100K وVOC. ومن اللافت للنظر، في العديد من السيناريوهات الواقعية، أن أداء النماذج المُدرَّبة حصريًا على ملصقات مُولَّدة بالذكاء الاصطناعي كان مُساويًا - أو حتى أفضل - من أداء النماذج المُدرَّبة على ملصقات بشرية. بالنسبة للشركات التي تُطوِّر رؤية الكمبيوتر وفي ظل هذه الظروف، فإن العواقب وخيمة: إذ يمكن توفير ملايين الدولارات من تكاليف التعليقات التوضيحية، كما يمكن أن تتقلص دورات تطوير النماذج من أسابيع إلى ساعات.
العصر الجديد للتعليق التوضيحي: من العمل اليدوي إلى خطوط الأنابيب التي يقودها النموذج
لعقود، شرح البيانات لقد شكّلت هذه التحديات عقبةً صعبةً في طريق تطوير الذكاء الاصطناعي. فمن ImageNet إلى مجموعات بيانات المركبات ذاتية القيادة، اعتمدت فرق العمل على أعداد هائلة من العمال البشريين لرسم حدودٍ وتجزئة الكائنات، وهو جهدٌ مكلفٌ وبطيء.
كان المنطق السائد بسيطًا: بيانات أكثر تحمل علامات بشرية = ذكاء اصطناعي أفضل. لكن بحث Voxel51 يقلب هذا الافتراض رأسًا على عقب.
يعتمد نهجهم على نماذج الأساس المدربة مسبقًا - بعضها مع صفر طلقة القدرات - ويدمجها في نظام يُؤتمت عملية التصنيف الروتيني، مع استخدام التعلم النشط لتحديد الحالات غير المؤكدة أو المعقدة للمراجعة البشرية. تُقلل هذه الطريقة بشكل كبير من الوقت والتكلفة.
في أحد الاختبارات، استغرقت عملية وسم 3.4 مليون كائن باستخدام وحدة معالجة الرسومات NVIDIA L40S ما يزيد قليلاً عن ساعة بتكلفة 1.18 دولار أمريكي. أما القيام بذلك يدويًا باستخدام AWS SageMaker فكان سيستغرق ما يقرب من 7,000 ساعة بتكلفة تزيد عن 124,000 دولار أمريكي. في حالات صعبة للغاية - مثل تحديد الفئات النادرة في مجموعات بيانات COCO أو LVIS - كانت النماذج التي تُوسم تلقائيًا أحيانًا تفوقت نظيراتها المُعَلَّمة من قِبَل البشر. قد تنبع هذه النتيجة المفاجئة من أنماط التصنيف المتسقة لنماذج الأساس وتدريبها على بيانات الإنترنت واسعة النطاق.
داخل Voxel51: الفريق الذي يُعيد تشكيل سير عمل الذكاء الاصطناعي المرئي
تأسست في 2016 من قبل البروفيسور جيسون كورسو و بريان مور في جامعة ميشيغان، بدأت شركة Voxel51 كشركة استشارية تُركز على تحليلات الفيديو. كورسو، الخبير المخضرم في مجال الرؤية الحاسوبية والروبوتات، نشر أكثر من 150 بحثًا أكاديميًا، ويُساهم بأكواد مفتوحة المصدر في مجتمع الذكاء الاصطناعي. مور، طالب دكتوراه سابق لدى كورسو، يشغل منصب الرئيس التنفيذي.
جاءت نقطة التحول عندما أدرك الفريق أن معظم عوائق الذكاء الاصطناعي لم تكن في تصميم النموذج، بل في البيانات. ألهمتهم هذه الرؤية لإنشاء واحد وخمسون، وهي عبارة عن منصة مصممة لتمكين المهندسين من استكشاف مجموعات البيانات المرئية وتنظيمها وتحسينها بكفاءة أكبر.
على مر السنين، جمعت الشركة أكثر من $45M، بما في ذلك 12.5 مليون دولار من السلسلة أ و 30 مليون دولار من السلسلة ب بقيادة Bessemer Venture Partners. تبع ذلك اعتماد الشركات، حيث قامت شركات كبرى مثل LG Electronics وBosch وBerkshire Grey وPrecision Planting وRIOS بدمج أدوات Voxel51 في سير عمل الذكاء الاصطناعي الإنتاجي لديها.
من الأداة إلى المنصة: الدور المتوسع لشركة FiftyOne
تطورت FiftyOne من مجرد أداة بسيطة لتصور مجموعات البيانات إلى منصة ذكاء اصطناعي شاملة تركز على البيانات. تدعم مجموعة واسعة من التنسيقات ومخططات الوسم - COCO، وPascal VOC، وLVIS، وBDD100K، وOpen Images - وتتكامل بسلاسة مع أطر عمل مثل TensorFlow وPyTorch.
أكثر من مجرد أداة تصور، يُمكّن FiftyOne من عمليات متقدمة: البحث عن الصور المكررة، وتحديد العينات ذات التصنيف الخاطئ، وإظهار القيم الشاذة، وقياس أنماط فشل النموذج. يدعم نظام المكونات الإضافية وحدات مخصصة للتعرف الضوئي على الحروف، وجلسات الأسئلة والأجوبة عبر الفيديو، والتحليل القائم على التضمين.
يُقدّم إصدار المؤسسة، FiftyOne Teams، ميزات تعاونية مثل التحكم في الإصدارات، وأذونات الوصول، والتكامل مع التخزين السحابي (مثل S3)، بالإضافة إلى أدوات التعليق التوضيحي مثل Labelbox وCVAT. والجدير بالذكر أن Voxel51 أيضًا شراكة مع V7 Labs لتبسيط التدفق بين تنظيم مجموعة البيانات والتعليق التوضيحي اليدوي.
إعادة التفكير في صناعة التعليقات التوضيحية
يتحدى بحث Voxel51 في مجال الوسم التلقائي الافتراضات التي تقوم عليها صناعة التعليقات التوضيحية التي تبلغ قيمتها مليار دولار تقريبًا. في سير العمل التقليدي، يجب أن يلمس كل صورة شخص، وهي عملية مكلفة ومكررة في كثير من الأحيان. يرى Voxel1 أنه يمكن الآن الاستغناء عن معظم هذه الجهود.
بفضل نظامهم، تُصنّف غالبية الصور بواسطة الذكاء الاصطناعي، بينما تُرفع الحالات الحرجة فقط إلى الموظفين. هذه الاستراتيجية الهجينة لا تُخفّض التكاليف فحسب، بل تضمن أيضًا جودة بيانات أعلى، حيث يُكرّس الجهد البشري للتعليقات التوضيحية الأكثر صعوبة أو قيمة.
يتوافق هذا التحول مع الاتجاهات الأوسع في مجال الذكاء الاصطناعي نحو الذكاء الاصطناعي المرتكز على البيانات- منهجية تركز على تحسين بيانات التدريب بدلاً من ضبط هياكل النموذج إلى ما لا نهاية.
المشهد التنافسي واستقبال الصناعة
يرى المستثمرون مثل بيسيمر أن Voxel51 هي "طبقة تنسيق البيانات" للذكاء الاصطناعي - على غرار كيفية DevOps أحدثت أدواتهم نقلة نوعية في تطوير البرمجيات. حصدت أدواتهم مفتوحة المصدر ملايين التنزيلات، ويضم مجتمعهم آلاف المطورين وفرق التعلم الآلي حول العالم.
بينما تُركز شركات ناشئة أخرى، مثل Snorkel AI وRoboflow وActiveloop، على سير عمل البيانات، تتميز Voxel51 باتساع نطاقها، ونهجها مفتوح المصدر، وبنيتها التحتية المُصممة خصيصًا للمؤسسات. فبدلًا من مُنافسة مُزودي التعليقات التوضيحية، تُكمل منصة Voxel51 خدماتهم، مما يزيد من كفاءة الخدمات الحالية من خلال التنظيم الانتقائي.
التداعيات المستقبلية
إن الآثار طويلة المدى عميقة. إذا تم تبنيها على نطاق واسع، فوكسل 51قد تعمل منهجية "إنستغرام" على خفض حاجز الدخول إلى مجال الرؤية الحاسوبية بشكل كبير، مما يجعل هذا المجال مفتوحًا أمام الشركات الناشئة والباحثين الذين يفتقرون إلى ميزانيات ضخمة للتصنيف.
بالإضافة إلى توفير التكاليف، فإن هذا النهج يضع الأساس أيضًا لـ أنظمة التعلم المستمر، حيث تقوم النماذج في الإنتاج تلقائيًا بتحديد حالات الفشل، والتي تتم مراجعتها وإعادة تسميتها ودمجها مرة أخرى في بيانات التدريب - كل ذلك ضمن نفس خط الأنابيب المنظم.
تتماشى رؤية الشركة الأوسع مع تطور الذكاء الاصطناعي: ليس فقط نماذج أكثر ذكاءً، بل سير عمل أكثر ذكاءً. في هذه الرؤية، لم ينتهِ التعليق التوضيحي، ولكنه لم يعد حكرًا على العمل القسري. إنه استراتيجي، انتقائي، ومدفوع بالأتمتة.