Kontakt z nami

Nowa technologia automatycznego etykietowania firmy Voxel51 obiecuje obniżyć koszty adnotacji o 100,000 XNUMXx

Artificial Intelligence

Nowa technologia automatycznego etykietowania firmy Voxel51 obiecuje obniżyć koszty adnotacji o 100,000 XNUMXx

mm

Przełomowe nowe badanie od startupu zajmującego się komputerowym widzeniem Woksel51 sugeruje, że tradycyjny model adnotacji danych jest bliski wywrócenia do góry nogami. W opublikowanych dziś badaniach firma informuje, że jej nowy system automatycznego etykietowania osiąga do 95% dokładności na poziomie ludzkim, będąc przy tym 5,000 razy szybszym i do 100,000x taniej niż etykietowanie ręczne.

W badaniu porównano modele fundamentów, takie jak YOLO-World i Grounding DINO, na znanych zestawach danych, w tym COCO, LVIS, BDD100K i VOC. Co ciekawe, w wielu scenariuszach z życia wziętych, modele trenowane wyłącznie na etykietach generowanych przez sztuczną inteligencję działały równie dobrze — a nawet lepiej — niż te trenowane na etykietach ludzkich. W przypadku firm budujących wizja komputerowa systemów, implikacje są ogromne: można by zaoszczędzić miliony dolarów na kosztach adnotacji, a cykle opracowywania modeli mogłyby się skrócić z tygodni do godzin.

Nowa era adnotacji: od pracy ręcznej do rurociągów opartych na modelach

Przez dekady, adnotacja danych było bolesnym wąskim gardłem w rozwoju AI. Od ImageNet do zestawów danych pojazdów autonomicznych, zespoły polegały na ogromnych armiach pracowników ludzkich, aby rysować pola ograniczające i segmentować obiekty — wysiłek zarówno kosztowny, jak i powolny.

Przeważająca logika była prosta: więcej danych oznaczonych jako ludzkie = lepsza sztuczna inteligencja. Jednak badania Voxel51 wywracają to założenie do góry nogami.

Ich podejście wykorzystuje wstępnie wyszkolone modele fundamentów, z których niektóre mają zerowy strzał możliwości — i integruje je w potoku, który automatyzuje rutynowe etykietowanie, a jednocześnie wykorzystuje aktywne uczenie się do oznaczania niepewnych lub złożonych przypadków do przeglądu przez człowieka. Ta metoda radykalnie skraca czas i koszty.

W jednym teście etykietowanie 3.4 miliona obiektów przy użyciu procesora graficznego NVIDIA L40S zajęło nieco ponad godzinę i kosztowało 1.18 USD. Ręczne wykonanie tego samego za pomocą AWS SageMaker zajęłoby prawie 7,000 godzin i kosztowałoby ponad 124,000 XNUMX USD. W szczególnie trudnych przypadkach — takich jak identyfikacja rzadkich kategorii w zestawach danych COCO lub LVIS — modele z automatycznym etykietowaniem czasami przewyższył ich odpowiedniki oznaczone przez ludzi. Ten zaskakujący wynik może wynikać ze spójnych wzorców etykietowania modeli bazowych i ich trenowania na dużych danych internetowych.

Wewnątrz Voxel51: Zespół przekształcający wizualne przepływy pracy AI

Założony w 2016 przez Profesor Jason Corso oraz Brian Moore na University of Michigan, Voxel51 pierwotnie zaczynał jako firma konsultingowa skupiona na analityce wideo. Corso, weteran w dziedzinie wizji komputerowej i robotyki, opublikował ponad 150 prac naukowych i wnosi obszerny kod open-source do społeczności AI. Moore, były doktorant Corso, pełni funkcję CEO.

Przełom nastąpił, gdy zespół dostrzegł, że większość wąskich gardeł sztucznej inteligencji nie tkwi w projektowaniu modeli, lecz w danych. Ta refleksja zainspirowała ich do stworzenia Pięćdziesiąt jeden, platforma zaprojektowana, aby umożliwić inżynierom skuteczniejsze eksplorowanie, selekcjonowanie i optymalizowanie wizualnych zestawów danych.

Na przestrzeni lat firma pozyskała ponad $ 45M, W tym 12.5 mln USD Seria A oraz 30 mln USD, seria B. pod przewodnictwem Bessemer Venture Partners. Następnie nastąpiło przyjęcie przez przedsiębiorstwa, a główni klienci, tacy jak LG Electronics, Bosch, Berkshire Grey, Precision Planting i RIOS, zintegrowali narzędzia Voxel51 ze swoimi produkcyjnymi przepływami pracy AI.

Od narzędzia do platformy: rozwijająca się rola FiftyOne

FiftyOne rozwinęło się z prostego narzędzia do wizualizacji zestawów danych w kompleksową platformę AI skoncentrowaną na danych. Obsługuje szeroką gamę formatów i schematów etykietowania — COCO, Pascal VOC, LVIS, BDD100K, Open Images — i bezproblemowo integruje się z frameworkami takimi jak TensorFlow i PyTorch.

FiftyOne to coś więcej niż narzędzie do wizualizacji. Umożliwia zaawansowane operacje: wyszukiwanie zduplikowanych obrazów, identyfikowanie błędnie oznaczonych próbek, ujawnianie wartości odstających i mierzenie trybów awarii modelu. Jego ekosystem wtyczek obsługuje niestandardowe moduły do ​​optycznego rozpoznawania znaków, pytań i odpowiedzi wideo oraz analizy opartej na osadzeniu.

Wersja korporacyjna FiftyOne Teams wprowadza funkcje współpracy, takie jak kontrola wersji, uprawnienia dostępu i integracja z pamięcią masową w chmurze (np. S3), a także narzędzia do adnotacji, takie jak Labelbox i CVAT. Co ciekawe, Voxel51 również nawiązano współpracę z V7 Labs aby usprawnić przepływ między konserwacją zbiorów danych a ręczną adnotacją.

Nowe spojrzenie na branżę adnotacji

Badania Voxel51 nad automatycznym etykietowaniem podważają założenia leżące u podstaw branży adnotacji wartej prawie 1 mld dolarów. W tradycyjnych procesach pracy każdy obraz musi zostać dotknięty przez człowieka — jest to kosztowny i często zbędny proces. Voxel51 twierdzi, że większość tej pracy można teraz wyeliminować.

Dzięki ich systemowi większość obrazów jest oznaczana przez AI, podczas gdy tylko skrajne przypadki są eskalowane do ludzi. Ta hybrydowa strategia nie tylko obniża koszty, ale także zapewnia wyższą ogólną jakość danych, ponieważ wysiłek ludzki jest zarezerwowany dla najtrudniejszych lub najcenniejszych adnotacji.

Zmiana ta jest zgodna z szerszymi trendami w dziedzinie sztucznej inteligencji, zmierzającymi w kierunku AI zorientowana na dane—metodologia skupiająca się na optymalizacji danych treningowych, a nie na nieustannym dostrajaniu architektur modeli.

Krajobraz konkurencyjny i odbiór branży

Inwestorzy tacy jak Bessemer postrzegają Voxel51 jako „warstwę orkiestracji danych” dla sztucznej inteligencji — podobnie jak DevOps narzędzia przekształciły rozwój oprogramowania. Ich narzędzie typu open source zdobyło miliony pobrań, a ich społeczność obejmuje tysiące programistów i zespołów ML na całym świecie.

Podczas gdy inne startupy, takie jak Snorkel AI, Roboflow i Activeloop, również koncentrują się na przepływach danych, Voxel51 wyróżnia się swoją szerokością, etosem open source i infrastrukturą klasy korporacyjnej. Zamiast konkurować z dostawcami adnotacji, platforma Voxel51 uzupełnia ich — czyniąc istniejące usługi bardziej wydajnymi poprzez selektywną selekcję.

Przyszłe konsekwencje

Długoterminowe implikacje są głębokie. Jeśli zostaną szeroko przyjęte, Woksel51Metodologia ta może radykalnie obniżyć barierę wejścia do branży przetwarzania obrazu komputerowego, demokratyzując tę ​​dziedzinę dla startupów i badaczy, którzy nie dysponują dużymi budżetami na etykietowanie.

Oprócz oszczędności kosztów podejście to stanowi również podstawę systemy ciągłego uczenia się, gdzie modele produkcyjne automatycznie sygnalizują awarie, które są następnie sprawdzane, ponownie etykietowane i ponownie włączane do danych treningowych — wszystko w ramach tej samej zorganizowanej procedury.

Szersza wizja firmy jest zgodna z tym, jak ewoluuje AI: nie tylko inteligentniejsze modele, ale inteligentniejsze przepływy pracy. W tej wizji adnotacja nie umarła — ale nie jest już domeną pracy siłowej. Jest strategiczna, selektywna i napędzana automatyzacją.

Antoine jest wizjonerskim liderem i partnerem założycielskim Unite.AI, napędzanym niezachwianą pasją do kształtowania i promowania przyszłości AI i robotyki. Jako seryjny przedsiębiorca wierzy, że AI będzie tak samo przełomowa dla społeczeństwa jak elektryczność i często zachwyca się potencjałem przełomowych technologii i AGI.

Jako futurysta, poświęca się badaniu, w jaki sposób te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platforma skupiająca się na inwestowaniu w najnowocześniejsze technologie, które zmieniają przyszłość i przekształcają całe sektory.