مصنوعی ذہانت
Voxel51 کی نئی آٹو لیبلنگ ٹیک نے تشریحی لاگت کو 100,000x تک کم کرنے کا وعدہ کیا ہے۔

کمپیوٹر وژن اسٹارٹ اپ سے ایک اہم نیا مطالعہ ووکسیل 51 تجویز کرتا ہے کہ روایتی ڈیٹا تشریحی ماڈل کو ختم کرنے والا ہے۔ آج جاری ہونے والی تحقیق میں، کمپنی نے رپورٹ کیا ہے کہ اس کا نیا آٹو لیبلنگ سسٹم 95x تیز اور 5,000 تک انسانی سطح کی درستگی کا 1% تک حاصل کرتا ہے۔00,000x سستا دستی لیبلنگ کے مقابلے میں۔
مطالعہ نے COCO، LVIS، BDD100K، اور VOC سمیت معروف ڈیٹا سیٹس پر YOLO-World اور Grounding DINO جیسے فاؤنڈیشن ماڈلز کو بینچ مارک کیا۔ قابل ذکر بات یہ ہے کہ حقیقی دنیا کے بہت سے منظرناموں میں، خصوصی طور پر AI سے تیار کردہ لیبلز پر تربیت یافتہ ماڈلز انسانی لیبلز پر تربیت یافتہ افراد کے برابر — یا اس سے بھی بہتر ہیں۔ کمپنیوں کی تعمیر کے لیے کمپیوٹر وژن سسٹمز، مضمرات بہت زیادہ ہیں: تشریحی اخراجات میں لاکھوں ڈالر بچائے جا سکتے ہیں، اور ماڈل کی ترقی کے چکر ہفتوں سے گھنٹوں تک سکڑ سکتے ہیں۔
تشریح کا نیا دور: دستی مشقت سے لے کر ماڈل لیڈ پائپ لائنز تک
کئی دہائیوں سے، ڈیٹا تشریح AI کی ترقی میں ایک تکلیف دہ رکاوٹ رہا ہے۔ ImageNet سے لے کر خود مختار گاڑیوں کے ڈیٹاسیٹس تک، ٹیموں نے باؤنڈنگ بکس اور سیگمنٹ اشیاء کو اپنی طرف متوجہ کرنے کے لیے انسانی کارکنوں کی وسیع فوج پر انحصار کیا ہے - یہ کوشش مہنگی اور سست ہے۔
مروجہ منطق آسان تھی: زیادہ انسانی لیبل والا ڈیٹا = بہتر AI۔ لیکن Voxel51 کی تحقیق اس مفروضے کو اپنے سر پر پلٹ دیتی ہے۔
ان کا نقطہ نظر پہلے سے تربیت یافتہ فاؤنڈیشن ماڈلز کا فائدہ اٹھاتا ہے۔ صفر شاٹ صلاحیتیں — اور انہیں ایک پائپ لائن میں ضم کرتی ہے جو انسانی جائزے کے لیے غیر یقینی یا پیچیدہ معاملات کو جھنڈا لگانے کے لیے فعال سیکھنے کا استعمال کرتے ہوئے روٹین لیبلنگ کو خودکار کرتی ہے۔ یہ طریقہ وقت اور لاگت دونوں کو ڈرامائی طور پر کم کرتا ہے۔
ایک ٹیسٹ میں، NVIDIA L3.4S GPU کا استعمال کرتے ہوئے 40 ملین اشیاء کو لیبل کرنے میں صرف ایک گھنٹہ لگا اور اس کی لاگت $1.18 تھی۔ AWS SageMaker کے ساتھ دستی طور پر ایسا کرنے میں تقریباً 7,000 گھنٹے لگے ہوں گے اور اس کی لاگت $124,000 سے زیادہ ہوگی۔ خاص طور پر چیلنج کرنے والے معاملات میں - جیسے COCO یا LVIS ڈیٹاسیٹس میں نایاب زمروں کی نشاندہی کرنا - کبھی کبھار آٹو لیبل والے ماڈلز باہر ان کے انسانی لیبل والے ہم منصب۔ یہ حیران کن نتیجہ فاؤنڈیشن ماڈلز کے مستقل لیبلنگ پیٹرن اور بڑے پیمانے پر انٹرنیٹ ڈیٹا پر ان کی تربیت سے نکل سکتا ہے۔
Voxel51 کے اندر: ٹیم بصری AI ورک فلوز کو نئی شکل دے رہی ہے۔
بذریعہ 2016 میں قائم ہوا پروفیسر جیسن کورسو اور برائن مور مشی گن یونیورسٹی میں، Voxel51 نے اصل میں ویڈیو اینالیٹکس پر توجہ مرکوز کرنے والی کنسلٹنسی کے طور پر شروع کیا۔ Corso، کمپیوٹر ویژن اور روبوٹکس میں تجربہ کار، نے 150 سے زیادہ تعلیمی مقالے شائع کیے ہیں اور AI کمیونٹی کے لیے وسیع اوپن سورس کوڈ کا تعاون کیا ہے۔ مور، ایک سابق پی ایچ ڈی کورسو کا طالب علم، سی ای او کے طور پر کام کرتا ہے۔
اہم موڑ اس وقت آیا جب ٹیم نے تسلیم کیا کہ زیادہ تر AI رکاوٹیں ماڈل ڈیزائن میں نہیں بلکہ ڈیٹا میں تھیں۔ اس بصیرت نے انہیں تخلیق کرنے کی ترغیب دی۔ اکیاون، ایک ایسا پلیٹ فارم ڈیزائن کیا گیا ہے جو انجینئرز کو بصری ڈیٹاسیٹس کو زیادہ مؤثر طریقے سے دریافت کرنے، درست کرنے اور بہتر بنانے کے لیے بااختیار بنانے کے لیے بنایا گیا ہے۔
سالوں کے دوران، کمپنی نے اوپر اٹھایا ہے $ 45M، سمیت ایک $12.5M سیریز A اور ایک $30M سیریز B بیسیمر وینچر پارٹنرز کی قیادت میں۔ ایل جی الیکٹرانکس، بوش، برکشائر گرے، پریسجن پلانٹنگ، اور RIOS جیسے بڑے کلائنٹس نے اپنے پروڈکشن AI ورک فلو میں Voxel51 کے ٹولز کو ضم کرنے کے بعد انٹرپرائز کو اپنایا۔
ٹول سے پلیٹ فارم تک: FiftyOne کا توسیعی کردار
FiftyOne ایک سادہ ڈیٹا سیٹ ویژولائزیشن ٹول سے ایک جامع، ڈیٹا سنٹرک AI پلیٹ فارم تک بڑھ گیا ہے۔ یہ فارمیٹس اور لیبلنگ اسکیموں کی ایک وسیع صف کو سپورٹ کرتا ہے—COCO, Pascal VOC, LVIS, BDD100K, Open Images — اور TensorFlow اور PyTorch جیسے فریم ورک کے ساتھ بغیر کسی رکاوٹ کے ضم ہو جاتا ہے۔
ایک ویژولائزیشن ٹول سے زیادہ، FiftyOne جدید آپریشنز کو قابل بناتا ہے: ڈپلیکیٹ امیجز تلاش کرنا، غلط لیبل والے نمونوں کی شناخت، سرفیسنگ آؤٹ لیرز، اور ماڈل کی ناکامی کے طریقوں کی پیمائش۔ اس کا پلگ ان ماحولیاتی نظام آپٹیکل کریکٹر ریکگنیشن، ویڈیو سوال و جواب، اور ایمبیڈنگ پر مبنی تجزیہ کے لیے حسب ضرورت ماڈیولز کو سپورٹ کرتا ہے۔
انٹرپرائز ورژن، FiftyOne Teams، اشتراکی خصوصیات جیسے ورژن کنٹرول، رسائی کی اجازت، اور کلاؤڈ اسٹوریج کے ساتھ انضمام (جیسے، S3)، نیز تشریحی ٹولز جیسے لیبل باکس اور CVAT متعارف کرواتا ہے۔ خاص طور پر، Voxel51 بھی V7 Labs کے ساتھ شراکت داری ڈیٹا سیٹ کیوریشن اور دستی تشریح کے درمیان بہاؤ کو ہموار کرنے کے لیے۔
تشریحی صنعت پر دوبارہ غور کرنا
Voxel51 کی آٹو لیبلنگ ریسرچ ان مفروضوں کو چیلنج کرتی ہے جو تقریباً $1B تشریحی صنعت کی بنیاد رکھتی ہے۔ روایتی ورک فلو میں، ہر تصویر کو انسان کے ذریعے چھونا چاہیے—ایک مہنگا اور اکثر بے کار عمل۔ Voxel51 کا استدلال ہے کہ اس لیبر کا زیادہ تر حصہ اب ختم کیا جا سکتا ہے۔
ان کے سسٹم کے ساتھ، زیادہ تر تصاویر پر AI کا لیبل لگا ہوا ہے، جبکہ صرف کنارے کے معاملات انسانوں تک پہنچائے جاتے ہیں۔ یہ ہائبرڈ حکمت عملی نہ صرف لاگت کو کم کرتی ہے بلکہ ڈیٹا کے اعلی معیار کو بھی یقینی بناتی ہے، کیونکہ انسانی کوشش سب سے مشکل یا قیمتی تشریحات کے لیے مخصوص ہے۔
یہ تبدیلی AI فیلڈ میں وسیع تر رجحانات کی طرف متوازی ہے۔ ڈیٹا سینٹرک AI-ایک طریقہ کار جو ماڈل آرکیٹیکچرز کو لامتناہی طور پر ٹیوننگ کرنے کے بجائے تربیتی ڈیٹا کو بہتر بنانے پر مرکوز ہے۔
مسابقتی زمین کی تزئین اور صنعت کا استقبال
بیسیمر جیسے سرمایہ کار Voxel51 کو AI کے لیے "ڈیٹا آرکیسٹریشن لیئر" کے طور پر دیکھتے ہیں — اس طرح DevOps ٹولز نے سافٹ ویئر ڈویلپمنٹ کو تبدیل کیا۔ ان کے اوپن سورس ٹول نے لاکھوں ڈاؤن لوڈز حاصل کیے ہیں، اور ان کی کمیونٹی میں دنیا بھر میں ہزاروں ڈیولپرز اور ایم ایل ٹیمیں شامل ہیں۔
جبکہ دیگر سٹارٹ اپس جیسے Snorkel AI، Roboflow، اور Activeloop بھی ڈیٹا ورک فلو پر توجہ مرکوز کرتے ہیں، Voxel51 اپنی وسعت، اوپن سورس اخلاقیات اور انٹرپرائز گریڈ انفراسٹرکچر کے لیے نمایاں ہے۔ تشریح فراہم کرنے والوں کے ساتھ مقابلہ کرنے کے بجائے، Voxel51 کا پلیٹ فارم ان کی تکمیل کرتا ہے- موجودہ خدمات کو منتخب کیوریشن کے ذریعے مزید موثر بناتا ہے۔
مستقبل کے مضمرات
طویل مدتی اثرات گہرے ہیں۔ اگر وسیع پیمانے پر اپنایا جائے، ووکسیل 51کا طریقہ کار کمپیوٹر وژن کے لیے داخلے کی رکاوٹ کو ڈرامائی طور پر کم کر سکتا ہے، اسٹارٹ اپس اور محققین کے لیے میدان کو جمہوری بنا سکتا ہے جن کے پاس لیبلنگ کے وسیع بجٹ کی کمی ہے۔
اخراجات کو بچانے کے علاوہ، یہ نقطہ نظر بھی بنیاد رکھتا ہے مسلسل سیکھنے کے نظام، جہاں پروڈکشن میں ماڈلز خود بخود ناکامیوں کو جھنڈا لگاتے ہیں، جن کا پھر جائزہ لیا جاتا ہے، دوبارہ لیبل لگایا جاتا ہے، اور ٹریننگ ڈیٹا میں واپس جوڑ دیا جاتا ہے — یہ سب ایک ہی آرکیسٹریٹڈ پائپ لائن میں ہوتے ہیں۔
کمپنی کا وسیع تر وژن اس بات سے مطابقت رکھتا ہے کہ AI کس طرح تیار ہو رہا ہے: نہ صرف ہوشیار ماڈلز، بلکہ بہتر ورک فلو۔ اس وژن میں، تشریح مردہ نہیں ہے — لیکن اب یہ ظالمانہ مشقت کا ڈومین نہیں ہے۔ یہ اسٹریٹجک، انتخابی، اور آٹومیشن کے ذریعے کارفرما ہے۔