Künstliche Intelligenz
Voxel51s neue Auto-Labeling-Technologie verspricht, die Annotationskosten um 100.000x zu senken
Eine bahnbrechende neue Studie des Computer-Vision-Startups Voxel51 legt nahe, dass das traditionelle Daten-Annotationsmodell bald auf den Kopf gestellt werden wird. In der heute veröffentlichten Forschung berichtet das Unternehmen, dass sein neues Auto-Labeling-System bis zu 95% der menschlichen Genauigkeit erreicht, während es 5.000-mal schneller und bis zu 100.000-mal günstiger ist als manuelles Labeling.
Die Studie hat Grundmodell wie YOLO-World und Grounding DINO auf bekannten Datenbanken wie COCO, LVIS, BDD100K und VOC getestet. Bemerkenswerterweise haben in vielen realen Szenarien Modelle, die ausschließlich mit AI-generierten Labels trainiert wurden, auf dem gleichen Niveau wie – oder sogar besser als – Modelle, die mit menschlichen Labels trainiert wurden, performt. Für Unternehmen, die Computer-Vision-Systeme entwickeln, sind die Auswirkungen enorm: Millionen von Dollar an Annotationskosten könnten gespart werden und die Modellentwicklungszyklen könnten von Wochen auf Stunden verkürzt werden.
Das neue Zeitalter der Annotation: Von manueller Arbeit zu modellgesteuerten Pipelines
Seit Jahrzehnten ist die Datenannotation ein schmerzhafter Engpass in der AI-Entwicklung. Von ImageNet bis hin zu autonomen Fahrzeugdatenbanken haben Teams auf riesige Armeen von menschlichen Arbeitern vertraut, um Begrenzungsboxen zu zeichnen und Objekte zu segmentieren – ein Bemühen, das sowohl teuer als auch langsam ist.
Die vorherrschende Logik war einfach: mehr menschlich gelabelte Daten = bessere AI. Aber Voxel51s Forschung stellt diese Annahme auf den Kopf.
Ihr Ansatz nutzt vorgefertigte Grundmodell – einige mit Zero-Shot-Fähigkeiten – und integriert sie in eine Pipeline, die das routinemäßige Labeling automatisiert und aktives Lernen verwendet, um unsichere oder komplexe Fälle für die menschliche Überprüfung zu markieren. Diese Methode reduziert sowohl Zeit als auch Kosten dramatisch.
In einem Test dauerte das Labeling von 3,4 Millionen Objekten mit einem NVIDIA L40S-GPU nur knapp über eine Stunde und kostete 1,18 $. Manuelles Labeling mit AWS SageMaker hätte fast 7.000 Stunden gedauert und über 124.000 $ gekostet. In besonders herausfordernden Fällen – wie der Identifizierung seltener Kategorien in den COCO- oder LVIS-Datenbanken – haben auto-gelabelte Modelle gelegentlich bessere Leistungen erbracht als ihre menschlich gelabelten Pendants. Dieses überraschende Ergebnis kann auf die konsistenten Labeling-Muster der Grundmodelle und ihre Ausbildung auf großen Internet-Daten zurückzuführen sein.
Inside Voxel51: Das Team, das die visuellen AI-Workflows neu gestaltet
Gegründet im Jahr 2016 von Professor Jason Corso und Brian Moore an der University of Michigan, startete Voxel51 ursprünglich als Beratungsfirma für Videoanalytik. Corso, ein Veteran in Computer-Vision und Robotik, hat über 150 akademische Arbeiten veröffentlicht und trägt umfangreichen Open-Source-Code zur AI-Gemeinschaft bei. Moore, ein ehemaliger Ph.D.-Student von Corso, ist CEO.
Der Wendepunkt kam, als das Team erkannte, dass die meisten AI-Engpässe nicht in der Modellgestaltung, sondern in den Daten lagen. Diese Erkenntnis inspirierte sie, FiftyOne zu schaffen, eine Plattform, die Ingenieuren ermöglicht, visuelle Datenbanken effizienter zu erkunden, zu kuratieren und zu optimieren.
Im Laufe der Jahre hat das Unternehmen über 45 Millionen Dollar aufgebracht, darunter eine 12,5-Millionen-Dollar-Series-A-Finanzierung und eine 30-Millionen-Dollar-Series-B-Finanzierung, angeführt von Bessemer Venture Partners. Die Unternehmensadoption folgte, mit großen Kunden wie LG Electronics, Bosch, Berkshire Grey, Precision Planting und RIOS, die Voxel51s Tools in ihre Produktions-AI-Workflows integrierten.
Von Tool zu Plattform: FiftyOnes erweiternde Rolle
FiftyOne ist von einem einfachen Datenbank-Visualisierungstool zu einer umfassenden, datenzentrierten AI-Plattform gewachsen. Es unterstützt eine breite Palette von Formaten und Labeling-Schemas – COCO, Pascal VOC, LVIS, BDD100K, Open Images – und integriert sich nahtlos in Frameworks wie TensorFlow und PyTorch.
Mehr als ein Visualisierungstool ermöglicht FiftyOne erweiterte Operationen: Duplikate finden, falsch gelabelte Proben identifizieren, Ausreißer erkennen und Modellfehlermodi messen. Sein Plugin-Ökosystem unterstützt benutzerdefinierte Module für optische Zeichenerkennung, Video-Q&A und Analyse auf der Grundlage von Einbettungen.
Die Enterprise-Version, FiftyOne Teams, führt kollaborative Funktionen wie Versionskontrolle, Zugriffsberechtigungen und Integration mit Cloud-Speicher (z.B. S3) ein, sowie Annotationstools wie Labelbox und CVAT. Bemerkenswerterweise hat Voxel51 auch eine Partnerschaft mit V7 Labs geschlossen, um den Fluss zwischen Datenbank-Kuration und manueller Annotation zu rationalisieren.
Umdenken in der Annotationsindustrie
Voxel51s Auto-Labeling-Forschung fordert die Annahmen heraus, die einer fast 1-Milliarden-Dollar-Annotationsindustrie zugrunde liegen. In traditionellen Workflows muss jedes Bild von einem Menschen berührt werden – ein teurer und oft redundanter Prozess. Voxel51 argumentiert, dass die meisten dieser Arbeiten jetzt eliminiert werden können.
Mit ihrem System werden die meisten Bilder von AI gelabelt, während nur Randfälle an Menschen eskaliert werden. Diese hybride Strategie senkt nicht nur die Kosten, sondern gewährleistet auch eine höhere Gesamtdatenqualität, da menschliche Anstrengungen auf die schwierigsten oder wertvollsten Annotationen beschränkt werden.
Dieser Wandel spiegelt breitere Trends im AI-Bereich wider, hin zu datenzentrierter AI – einer Methode, die sich auf die Optimierung der Trainingsdaten konzentriert, anstatt endlos Modellarchitekturen zu justieren.
Wettbewerbslandschaft und Branchenreaktion
Investoren wie Bessemer betrachten Voxel51 als die “Daten-Orchestrierungsebene” für AI – ähnlich wie DevOps-Tools die Softwareentwicklung transformierten. Ihr Open-Source-Tool hat Millionen von Downloads verzeichnet, und ihre Community umfasst Tausende von Entwicklern und ML-Teams weltweit.
Während andere Startups wie Snorkel AI, Roboflow und Activeloop sich auch auf Daten-Workflows konzentrieren, hebt sich Voxel51 durch seine Breite, Open-Source-Ethos und Unternehmens-Infrastruktur ab. Anstatt mit Annotationsanbietern zu konkurrieren, ergänzt Voxel51s Plattform diese – indem sie bestehende Dienste durch selektive Kuration effizienter macht.
Zukünftige Auswirkungen
Die langfristigen Auswirkungen sind tiefgreifend. Wenn Voxel51s Methodik weit verbreitet wird, könnte sie die Einstiegshürde für Computer-Vision-Systeme dramatisch senken und das Feld für Startups und Forscher, die über begrenzte Labeling-Budgets verfügen, demokratisieren.
Darüber hinaus legt dieser Ansatz den Grundstein für kontinuierliche Lernsysteme, in denen Modelle in der Produktion automatisch Fehler markieren, die dann überprüft, relabelt und in die Trainingsdaten zurückgeführt werden – alles innerhalb der gleichen orchestrierten Pipeline.
Das Unternehmen hat eine umfassendere Vision, die mit der Evolution von AI übereinstimmt: nicht nur intelligentere Modelle, sondern auch intelligentere Workflows. In dieser Vision ist Annotation nicht tot – aber es ist nicht länger das Reich der rohen Arbeitskraft. Es ist strategisch, selektiv und von Automation getrieben.












