KĂĽnstliche Intelligenz
Die neue Auto-Labeling-Technologie von Voxel51 verspricht eine 100,000-fache Senkung der Annotationskosten

Eine bahnbrechende neue Studie eines Computer Vision-Startups voxel51 deutet darauf hin, dass das traditionelle Datenannotationsmodell bald auf den Kopf gestellt wird. In einer heute veröffentlichten Studie berichtet das Unternehmen, dass sein neues Auto-Labeling-System eine Genauigkeit von bis zu 95 % der menschlichen Genauigkeit erreicht und gleichzeitig 5,000-mal schneller und bis zu 100,000x günstiger als manuelles Etikettieren.
Die Studie vergleicht Basismodelle wie YOLO-World und Grounding DINO anhand bekannter Datensätze wie COCO, LVIS, BDD100K und VOC. Bemerkenswerterweise schnitten Modelle, die ausschließlich mit KI-generierten Labels trainiert wurden, in vielen realen Szenarien genauso gut ab wie Modelle, die mit menschlichen Labels trainiert wurden – oder sogar besser. Für Unternehmen, die Computer Vision Systeme, die Auswirkungen sind enorm: Millionen von Dollar an Annotationskosten könnten eingespart werden und die Modellentwicklungszyklen könnten von Wochen auf Stunden verkürzt werden.
Die neue Ära der Annotation: Von manueller Arbeit zu modellgesteuerten Pipelines
Für Jahrzehnte, Datenanmerkung war ein schmerzhafter Engpass in der KI-Entwicklung. Von ImageNet bis hin zu Datensätzen autonomer Fahrzeuge waren die Teams auf riesige Armeen menschlicher Arbeitskräfte angewiesen, um Begrenzungsrahmen zu zeichnen und Objekte zu segmentieren – ein Aufwand, der sowohl kostspielig als auch zeitaufwändig war.
Die vorherrschende Logik war einfach: Mehr von Menschen markierte Daten = bessere KI. Doch die Forschung von Voxel51 stellt diese Annahme auf den Kopf.
Ihr Ansatz nutzt vorab trainierte Basismodelle – einige mit Nullschuss Funktionen – und integriert sie in eine Pipeline, die die routinemäßige Kennzeichnung automatisiert und gleichzeitig mithilfe von aktivem Lernen unsichere oder komplexe Fälle für die menschliche Überprüfung kennzeichnet. Diese Methode reduziert Zeit und Kosten erheblich.
In einem Test dauerte die Beschriftung von 3.4 Millionen Objekten mit einer NVIDIA L40S GPU etwas mehr als eine Stunde und kostete 1.18 US-Dollar. Die manuelle Bearbeitung mit AWS SageMaker hätte fast 7,000 Stunden gedauert und über 124,000 US-Dollar gekostet. In besonders schwierigen Fällen – wie der Identifizierung seltener Kategorien in den COCO- oder LVIS-Datensätzen – wurden automatisch beschriftete Modelle gelegentlich übertroffen ihre von Menschen markierten Gegenstücke. Dieses überraschende Ergebnis könnte auf die konsistenten Markierungsmuster der Basismodelle und ihr Training mit umfangreichen Internetdaten zurückzuführen sein.
Inside Voxel51: Das Team, das visuelle KI-Workflows neu gestaltet
Gegründet im 2016 durch Professor Jason Corso sowie Brian Moore An der University of Michigan begann Voxel51 ursprünglich als Beratungsunternehmen mit Schwerpunkt auf Videoanalyse. Corso, ein erfahrener Experte für Computer Vision und Robotik, hat über 150 wissenschaftliche Arbeiten veröffentlicht und trägt umfangreiche Open-Source-Codes zur KI-Community bei. Moore, ein ehemaliger Doktorand von Corso, fungiert als CEO.
Der Wendepunkt kam, als das Team erkannte, dass die meisten KI-Engpässe nicht im Modelldesign, sondern in den Daten lagen. Diese Erkenntnis inspirierte sie zur Entwicklung Einundfünfzig, eine Plattform, die Ingenieuren die Möglichkeit geben soll, visuelle Datensätze effizienter zu erkunden, zu kuratieren und zu optimieren.
Im Laufe der Jahre hat das Unternehmen über $ 45MEinschließlich ein 12.5 Mio. USD Serie A. und eine $ 30M Serie B. unter der Leitung von Bessemer Venture Partners. Es folgte die Einführung in Unternehmen, wobei Großkunden wie LG Electronics, Bosch, Berkshire Grey, Precision Planting und RIOS die Tools von Voxel51 in ihre KI-Produktionsabläufe integrierten.
Vom Tool zur Plattform: Die wachsende Rolle von FiftyOne
FiftyOne hat sich von einem einfachen Tool zur Datensatzvisualisierung zu einer umfassenden, datenzentrierten KI-Plattform entwickelt. Es unterstützt eine breite Palette von Formaten und Beschriftungsschemata – COCO, Pascal VOC, LVIS, BDD100K, Open Images – und lässt sich nahtlos in Frameworks wie TensorFlow und PyTorch integrieren.
FiftyOne ist mehr als nur ein Visualisierungstool und ermöglicht erweiterte Operationen: das Auffinden doppelter Bilder, die Identifizierung falsch beschrifteter Proben, das Aufdecken von Ausreißern und die Messung von Modellfehlermodi. Das Plug-In-Ökosystem unterstützt benutzerdefinierte Module für optische Zeichenerkennung, Video-Fragen und -Antworten sowie einbettungsbasierte Analysen.
Die Enterprise-Version, FiftyOne Teams, bietet kollaborative Funktionen wie Versionskontrolle, Zugriffsberechtigungen und die Integration mit Cloud-Speicher (z. B. S3) sowie Annotationstools wie Labelbox und CVAT. Voxel51 bietet auĂźerdem Partnerschaft mit V7 Labs um den Ablauf zwischen Datensatzkuratierung und manueller Annotation zu optimieren.
Die Anmerkungsbranche neu denken
Die Auto-Labeling-Forschung von Voxel51 stellt die Annahmen einer fast eine Milliarde Dollar schweren Annotationsbranche in Frage. In herkömmlichen Arbeitsabläufen muss jedes Bild von einem Menschen bearbeitet werden – ein teurer und oft redundanter Prozess. Voxel1 argumentiert, dass ein Großteil dieser Arbeit nun eingespart werden kann.
Mit ihrem System wird der Großteil der Bilder von KI beschriftet, während nur Randfälle an Menschen weitergeleitet werden. Diese hybride Strategie senkt nicht nur die Kosten, sondern sorgt auch für eine höhere Datenqualität, da menschlicher Aufwand für die schwierigsten oder wertvollsten Annotationen reserviert bleibt.
Dieser Wandel verläuft parallel zu breiteren Trends im KI-Bereich hin zu datenzentrierte KI– eine Methodik, die sich auf die Optimierung der Trainingsdaten konzentriert, anstatt Modellarchitekturen endlos zu optimieren.
Wettbewerbslandschaft und Branchenresonanz
Investoren wie Bessemer betrachten Voxel51 als die „Datenorchestrierungsschicht“ für KI – ähnlich wie DevOps Tools haben die Softwareentwicklung revolutioniert. Ihr Open-Source-Tool wurde millionenfach heruntergeladen, und ihre Community umfasst Tausende von Entwicklern und ML-Teams weltweit.
Während sich auch andere Startups wie Snorkel AI, Roboflow und Activeloop auf Daten-Workflows konzentrieren, zeichnet sich Voxel51 durch seine Breite, seinen Open-Source-Ansatz und seine unternehmenstaugliche Infrastruktur aus. Anstatt mit Annotationsanbietern zu konkurrieren, ergänzt die Plattform von Voxel51 diese und steigert durch selektive Kuratierung die Effizienz bestehender Dienste.
ZukĂĽnftige Implikationen
Die langfristigen Auswirkungen sind tiefgreifend. Bei breiter Anwendung voxel51Die Methodik von könnte die Eintrittsbarriere für Computer Vision drastisch senken und das Feld für Startups und Forscher demokratisieren, die nicht über große Labeling-Budgets verfügen.
Dieser Ansatz spart nicht nur Kosten, sondern legt auch den Grundstein für kontinuierliche Lernsysteme, wo Modelle in der Produktion automatisch Fehler kennzeichnen, die dann überprüft, neu gekennzeichnet und wieder in die Trainingsdaten integriert werden – alles innerhalb derselben orchestrierten Pipeline.
Die umfassendere Vision des Unternehmens orientiert sich an der Entwicklung der KI: Es geht nicht nur um intelligentere Modelle, sondern auch um intelligentere Arbeitsabläufe. In dieser Vision ist die Annotation nicht tot – aber sie ist nicht länger eine Domäne roher Arbeit. Sie ist strategisch, selektiv und automatisiert.