Kunstig intelligens
Voxel51s nye automatiske mærkningsteknologi lover at reducere annotationsomkostningerne med 100,000 gange

En banebrydende ny undersøgelse fra computer vision-startup Voxel51 antyder, at den traditionelle dataannotationsmodel er ved at blive vendt på hovedet. I en undersøgelse, der blev offentliggjort i dag, rapporterer virksomheden, at deres nye automatiske mærkningssystem opnår op til 95 % af den menneskelige nøjagtighed, samtidig med at det er 5,000 gange hurtigere og op til 100,000 gange billigere end manuel mærkning.
Undersøgelsen benchmarkede fundamentale modeller som YOLO-World og Grounding DINO på velkendte datasæt, herunder COCO, LVIS, BDD100K og VOC. Bemærkelsesværdigt nok klarede modeller, der udelukkende var trænet på AI-genererede etiketter, sig i mange virkelige scenarier på niveau med – eller endda bedre end – dem, der var trænet på menneskelige etiketter. For virksomheder, der bygger computersyn systemer, er implikationerne enorme: millioner af dollars i annotationsomkostninger kunne spares, og modeludviklingscyklusserne kunne krympe fra uger til timer.
Den nye æra inden for annotation: Fra manuelt arbejde til modelstyrede pipelines
I årtier, dataarnnotering har været en smertefuld flaskehals i udviklingen af AI. Fra ImageNet til datasæt for autonome køretøjer har teams været afhængige af enorme hære af menneskelige arbejdere til at tegne afgrænsningsbokse og segmentere objekter – en indsats, der både er dyr og langsom.
Den fremherskende logik var enkel: mere menneskemærket data = bedre AI. Men Voxel51s forskning vender den antagelse på hovedet.
Deres tilgang udnytter prætrænede fundamentmodeller – nogle med nul-skud funktioner – og integrerer dem i en pipeline, der automatiserer rutinemæssig mærkning, samtidig med at aktiv læring bruges til at markere usikre eller komplekse sager til menneskelig gennemgang. Denne metode reducerer både tid og omkostninger dramatisk.
I én test tog det lidt over en time at mærke 3.4 millioner objekter ved hjælp af en NVIDIA L40S GPU og kostede $1.18. Manuelt at gøre det samme med AWS SageMaker ville have taget næsten 7,000 timer og kostet over $124,000. I særligt udfordrende tilfælde – såsom at identificere sjældne kategorier i COCO- eller LVIS-datasættene – blev modellerne lejlighedsvis automatisk mærket. udkonkurrerede deres menneskemærkede modparter. Dette overraskende resultat kan stamme fra fundamentsmodellernes ensartede mærkningsmønstre og deres træning på store internetdata.
Inde i Voxel51: Teamet, der omformer visuelle AI-workflows
Grundlagt i 2016 af Professor Jason Corso og Brian Moore Voxel51, der oprindeligt var konsulentvirksomhed med fokus på videoanalyse på University of Michigan, startede oprindeligt som en konsulentvirksomhed med fokus på videoanalyse. Corso, en veteran inden for computervision og robotteknologi, har udgivet over 150 akademiske artikler og bidrager med omfattende open source-kode til AI-miljøet. Moore, en tidligere ph.d.-studerende på Corso, fungerer som administrerende direktør.
Vendepunktet kom, da teamet erkendte, at de fleste flaskehalse inden for AI ikke lå i modeldesignet – men i dataene. Den indsigt inspirerede dem til at skabe Enoghalvtreds, en platform designet til at give ingeniører mulighed for at udforske, kuratere og optimere visuelle datasæt mere effektivt.
Gennem årene har virksomheden indsamlet over $ 45M, Herunder en $12.5M Serie A og en $30M Serie B anført af Bessemer Venture Partners. Virksomhedsimplementering fulgte, hvor store kunder som LG Electronics, Bosch, Berkshire Grey, Precision Planting og RIOS integrerede Voxel51's værktøjer i deres produktions-AI-workflows.
Fra værktøj til platform: FiftyOnes voksende rolle
FiftyOne er vokset fra et simpelt datasætvisualiseringsværktøj til en omfattende, datacentreret AI-platform. Den understøtter en bred vifte af formater og mærkningsskemaer – COCO, Pascal VOC, LVIS, BDD100K, Open Images – og integreres problemfrit med frameworks som TensorFlow og PyTorch.
FiftyOne er mere end blot et visualiseringsværktøj; det muliggør avancerede operationer: at finde dubletter, identificere fejlmærkede prøver, finde outliers og måle modelfejltilstande. Dets plugin-økosystem understøtter brugerdefinerede moduler til optisk tegngenkendelse, video-spørgsmål og svar samt indlejringsbaseret analyse.
Enterprise-versionen, FiftyOne Teams, introducerer samarbejdsfunktioner såsom versionskontrol, adgangstilladelser og integration med cloud-lagring (f.eks. S3), samt annotationsværktøjer som Labelbox og CVAT. Det er værd at bemærke, at Voxel51 også samarbejdede med V7 Labs at strømline flowet mellem datasætkuratering og manuel annotering.
Gentænkning af annotationsbranchen
Voxel51's forskning i automatisk mærkning udfordrer de antagelser, der ligger til grund for en annotationsindustri på næsten 1 milliard dollars. I traditionelle arbejdsgange skal hvert billede berøres af et menneske – en dyr og ofte overflødig proces. Voxel51 argumenterer for, at det meste af dette arbejde nu kan elimineres.
Med deres system mærkes størstedelen af billederne af AI, mens kun edge cases eskaleres til mennesker. Denne hybridstrategi reducerer ikke kun omkostningerne, men sikrer også en højere samlet datakvalitet, da menneskelig indsats er reserveret til de vanskeligste eller mest værdifulde annotationer.
Dette skift går parallelt med bredere tendenser inden for AI-feltet mod datacentreret AI—en metode, der fokuserer på at optimere træningsdataene i stedet for endeløst at finjustere modelarkitekturer.
Konkurrencepræget landskab og modtagelse i branchen
Investorer som Bessemer ser Voxel51 som "dataorkestreringslaget" for AI – ligesom hvordan DevOps Værktøjer transformerede softwareudvikling. Deres open source-værktøj har fået millioner af downloads, og deres fællesskab omfatter tusindvis af udviklere og ML-teams verden over.
Mens andre startups som Snorkel AI, Roboflow og Activeloop også fokuserer på dataworkflows, skiller Voxel51 sig ud ved sin bredde, open source-etos og infrastruktur i virksomhedsklassen. I stedet for at konkurrere med annotationsudbydere supplerer Voxel51s platform dem – og gør eksisterende tjenester mere effektive gennem selektiv kuratering.
Fremtidige implikationer
De langsigtede konsekvenser er vidtrækkende. Hvis de bliver bredt anvendt, Voxel51's metode kunne dramatisk sænke adgangsbarrieren til computer vision og demokratisere feltet for startups og forskere, der mangler enorme mærkningsbudgetter.
Udover at spare omkostninger, lægger denne tilgang også grundlaget for kontinuerlige læringssystemer, hvor modeller i produktion automatisk markerer fejl, som derefter gennemgås, ommærkes og foldes tilbage i træningsdataene – alt sammen inden for den samme orkestrerede pipeline.
Virksomhedens bredere vision stemmer overens med den måde, AI udvikler sig på: ikke bare smartere modeller, men smartere arbejdsgange. I den vision er annotering ikke død – men det er ikke længere et domæne for brutal arbejdskraft. Det er strategisk, selektivt og drevet af automatisering.