Kunstig intelligens

Voxel51s nye auto-etikett-teknologi lover å kutte annoteringskostnadene med 100 000 ganger

mm

En banebrytende ny studie fra computer vision-startup Voxel51 antyder at den tradisjonelle data-annoteringsmodellen er på vei til å bli omvendt. I forskning som er offentliggjort i dag, rapporterer selskapet at deres nye auto-etikett-system oppnår opptil 95% av menneske-nivå-nøyaktighet, samtidig som det er 5 000 ganger raskere og opptil 100 000 ganger billigere enn manuell etikett-merking.

Studien benchmarket grunnmodeller som YOLO-World og Grounding DINO på velkjente datasett som COCO, LVIS, BDD100K og VOC. Merkbart var at i mange virkelige scenarier, modeller som ble trenet eksklusivt på AI-genererte etiketter, fungerte like godt som – eller endog bedre enn – de som ble trenet på menneske-etiketter. For selskaper som bygger computer-vision-systemer, er implikasjonene enorme: millioner av dollar i annoteringskostnader kan bli spart, og modell-utviklings-sykluser kan forkortes fra uker til timer.

Den nye æraen for annotering: Fra manuell arbeid til modell-drevne pipelines

I tiår har data-annotering vært en smertefull flaskehals i AI-utvikling. Fra ImageNet til datasett for autonome kjøretøy, har teamene avhengig av enorme hærer av menneskelige arbeidere for å tegne avgrensning-bokser og segmentere objekter – en innsats som både er kostbar og treg.

Den rådende logikken var enkel: mer menneske-merket data = bedre AI. Men Voxel51s forskning snur denne antagelsen på hodet.

Deres tilnærming utnytter forhånds-trente grunnmodeller – noen med zero-shot-evner – og integrerer dem i en pipeline som automatiserer rutine-merking, samtidig som den bruker aktiv læring for å flagge usikre eller komplekse tilfeller for menneskelig gjennomgang. Denne metoden reduserer dramatisk både tid og kostnad.

I en test tok det bare over en time og kostet 1,18 dollar å merke 3,4 millioner objekter med en NVIDIA L40S-GPU. Å gjøre det manuelt med AWS SageMaker ville ha tatt nesten 7 000 timer og kostet over 124 000 dollar. I særlig utfordrende tilfeller – som å identifisere sjeldne kategorier i COCO- eller LVIS-datasettene – fungerte auto-merkede modeller av og til bedre enn deres menneske-merkede motparter. Dette overraskende resultat kan stamme fra grunnmodellenes konsistente merking-mønster og deres trening på store internett-data.

Innsiden Voxel51: Teamet som omdefinerer visuelle AI-arbeidsflyter

Grunnlagt i 2016 av Professor Jason Corso og Brian Moore ved University of Michigan, startet Voxel51 opprinnelig som en konsulentbedrift som fokuserte på video-analyse. Corso, en veteran i computer-vision og robotikk, har publisert over 150 akademiske artikler og bidrar med omfattende åpen kildekode til AI-samfunnet. Moore, en tidligere Ph.D.-student under Corso, fungerer som CEO.

Vendepunktet kom da teamet innsett at de fleste AI-flaskehalsene ikke lå i modell-design, men i dataene. Denne innsikten inspirerte dem til å skape FiftyOne, en plattform designet for å gi ingeniører mulighet til å utforske, kuratere og optimere visuelle datasett mer effektivt.

Over årene har selskapet samlet inn over 45 millioner dollar, inkludert en 12,5 millioner dollar Series A og en 30 millioner dollar Series B ledet av Bessemer Venture Partners. Bedrifts-adoptsjon fulgte, med store kunder som LG Electronics, Bosch, Berkshire Grey, Precision Planting og RIOS som integrerte Voxel51s verktøy i sine produksjons-AI-arbeidsflyter.

Fra verktøy til plattform: FiftyOnes utvidende rolle

FiftyOne har vokst fra et enkelt datasett-visningsverktøy til en omfattende, data-sentrert AI-plattform. Den støtter en rekke formater og merkingsskjemaer – COCO, Pascal VOC, LVIS, BDD100K, Open Images – og integrerer sammen med rammeverk som TensorFlow og PyTorch.

Mer enn et visningsverktøy, FiftyOne muliggjør avanserte operasjoner: finne duplikat-bilder, identifisere feilmerkede eksempler, fremheve outliers og måle modell-svikt-moduser. Dens plugin-økosystem støtter tilpassede moduler for optisk tegngjenkjenning, video-spørsmål-og-svar og innlejring-basert analyse.

Bedriftsversjonen, FiftyOne Teams, introduserer samarbeidsfunksjoner som versjonskontroll, tilgangsberettigelse og integrasjon med sky-lagring (f.eks. S3), samt merking-verktøy som Labelbox og CVAT. Merkelig er at Voxel51 også inngikk en partnerskapsavtale med V7 Labs for å strømlinje flyten mellom datasett-kurering og manuell merking.

Omtenkning av annoteringsindustrien

Voxel51s auto-merking-forskning utfordrer antagelsene som ligger til grunn for en nesten 1 milliard dollar stor annoteringsindustri. I tradisjonelle arbeidsflyter må hver bilde berøres av en menneske – en kostbar og ofte redundante prosess. Voxel51 hevder at mesteparten av denne arbeidet kan nå elimineres.

Med deres system, blir de fleste bildene merket av AI, mens bare randtilfeller blir eskalert til mennesker. Denne hybrid-strategien kutler ikke bare kostnader, men sikrer også høyere overordnet datakvalitet, ettersom menneskelig innsats reserveres for de mest vanskelige eller verdifulle annoteringene.

Denne skiftet paralleller bredere trender i AI-feltet mot data-sentrert AI – en metode som fokuserer på å optimere trening-dataene i stedet for å endeløst justere modell-arkitekturer.

Konkurrerende landskap og bransjemottak

Investorer som Bessemer ser på Voxel51 som “data-orkestreringslaget” for AI – lik hvordan DevOps-verktøy transformerte programvareutvikling. Deres åpne kildekode-verktøy har fått millioner av nedlastinger, og deres samfunn inkluderer tusenvis av utviklere og ML-team verden over.

Mens andre startup-selskaper som Snorkel AI, Roboflow og Activeloop også fokuserer på data-arbeidsflyter, skiller Voxel51 seg ut med sin bredde, åpne kildekode-ethos og bedrifts-klasse-infrastruktur. I stedet for å konkurrere med annoterings-leverandører, kompletterer Voxel51s plattform dem – gjør eksisterende tjenester mer effektive gjennom selektiv kurering.

Fremtidige implikasjoner

De langvarige implikasjonene er dyptgående. Hvis Voxel51s metode blir bredt akseptert, kan den dramatisk senke terskelen for å komme inn i computer-vision-feltet, demokratisere feltet for startup-selskaper og forskere som mangler enorme merking-budsjett.

Bortsett fra å spare kostnader, legger denne tilnærmingen også grunnlaget for kontinuerlige lærings-systemer, hvor modeller i produksjon automatisk flagger feil, som deretter blir gjennomgått, ommerket og foldet tilbake inn i trening-dataene – alt innen samme orkestrerte pipeline.

Selskapets bredere visjon harmonerer med hvordan AI utvikler seg: ikke bare smartere modeller, men smartere arbeidsflyter. I den visjonen er annotering ikke død, men den er ikke lenger domenet for brute-force-arbeid. Den er strategisk, selektiv og drevet av automatisering.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.