人工智能
Voxel51 的新型自动标注技术承诺将标注成本降低 100,000 倍
一项来自计算机视觉初创公司 Voxel51 的开创性研究表明,传统的数据标注模型即将被颠覆。今天发布的研究报告显示,该公司的新型自动标注系统可以达到 95% 的人类级别准确率,同时比手动标注快 5,000 倍,成本降低了 100,000 倍。
该研究使用 YOLO-World 和 Grounding DINO 等基础模型,并在 COCO、LVIS、BDD100K 和 VOC 等知名数据集上进行了benchmark测试。值得注意的是,在许多实际场景中,仅使用 AI 生成的标注训练的模型的性能与使用人类标注的模型相当,甚至更好。对于构建计算机视觉系统的公司来说,这意味着可以节省数百万美元的标注成本,并将模型开发周期从数周缩短到数小时。
标注的新时代:从手动劳动到模型驱动的流水线
几十年来,数据标注一直是 AI 开发中的一个痛点。从 ImageNet 到自动驾驶数据集,团队都依赖于大量的人工工人来绘制边界框和分割对象,这既耗时又昂贵。
传统的思维方式很简单:更多的人类标注数据 = 更好的 AI。但 Voxel51 的研究颠覆了这种假设。
他们的方法利用了预训练的基础模型,并将其集成到一个流水线中,自动化常规标注,并使用主动学习来标记不确定或复杂的案例以供人类审查。这种方法大大减少了时间和成本。
在一个测试中,使用 NVIDIA L40S GPU 对 340 万个对象进行标注仅需一个多小时,成本为 1.18 美元。使用 AWS SageMaker 手动进行相同的标注需要近 7,000 小时,成本超过 124,000 美元。在一些特别具有挑战性的案例中,例如在 COCO 或 LVIS 数据集中识别稀有类别,自动标注的模型偶尔会超越强>其人类标注的对应模型。这种意外的结果可能是由于基础模型的一致标注模式和它们在大规模互联网数据上进行的训练。
深入 Voxel51:重塑视觉 AI 工作流的团队
Voxel51 由 Jason Corso 教授和 Brian Moore 于 2016 年在密歇根大学创立,最初是一个专注于视频分析的咨询公司。Corso 是计算机视觉和机器人领域的资深专家,已发表过 150 多篇学术论文,并为 AI 社区贡献了大量的开源代码。Moore 是 Corso 的前博士生,现任 Voxel51 的 CEO。
转折点出现在团队意识到大多数 AI 瓶颈并非在模型设计,而在数据上。这一洞察使他们创建了 FiftyOne,一个旨在让工程师更高效地探索、策划和优化视觉数据集的平台。
多年来,该公司已筹集了超过 $45M 的资金,包括一笔 $12.5M 的 A 轮融资 和一笔 $30M 的 B 轮融资,后者由贝塞mer 风险投资公司领投。随后,企业客户开始采用他们的工具,包括 LG 电子、博世、伯克希尔格雷、精准种植和 RIOS 将 Voxel51 的工具整合到他们的生产 AI 工作流中。
从工具到平台:FiftyOne 的扩展角色
FiftyOne 已经发展成为一个全面的、数据驱动的 AI 平台。它支持广泛的格式和标注方案,包括 COCO、Pascal VOC、LVIS、BDD100K 和 Open Images,并与 TensorFlow 和 PyTorch 等框架无缝集成。
不仅仅是一个可视化工具,FiftyOne 还支持高级操作:查找重复图像、识别错误标注的样本、突出异常值和测量模型故障模式。其插件生态系统支持自定义模块,用于光学字符识别、视频问答和基于嵌入的分析。
企业版 FiftyOne Teams 引入了协作功能,例如版本控制、访问权限和与云存储(例如 S3)的集成,以及标注工具,如 Labelbox 和 CVAT。值得注意的是,Voxel51 还与 V7 Labs 合作,简化了数据集策划和手动标注之间的流程。
重新思考标注行业
Voxel51 的自动标注研究挑战了支撑着近 10 亿美元标注行业的假设。传统工作流程中,每张图像都必须由人类标注,这是一个昂贵且常常冗余的过程。Voxel51 认为,大部分这种劳动现在可以被消除。
使用他们的系统,绝大多数图像由 AI 标注,只有边缘案例才会升级到人类。这种混合策略不仅降低了成本,还确保了更高的整体数据质量,因为人类的努力被保留用于最具挑战性或最有价值的标注。
这种转变与 AI 领域中更广泛的趋势相吻合,即数据驱动的 AI——一种专注于优化训练数据而不是不断调整模型架构的方法。
竞争格局和行业反应
像贝塞mer 这样的投资者认为 Voxel51 是 AI 的“数据编排层”,类似于 DevOps 工具如何改变软件开发。他们的开源工具已经获得了数百万次下载,他们的社区包括成千上万的开发人员和机器学习团队。
虽然其他初创公司如 Snorkel AI、Roboflow 和 Activeloop 也专注于数据工作流,但 Voxel51 以其广度、开源理念和企业级基础设施而脱颖而出。与其与标注提供商竞争,Voxel51 的平台通过选择性策划使现有的服务更加高效。
未来影响
长期影响深远。如果被广泛采用,Voxel51 的方法可以显著降低计算机视觉的进入门槛,使得缺乏大量标注预算的初创公司和研究人员也能进入这一领域。
除了节省成本外,这种方法还为连续学习系统奠定了基础,在这种系统中,生产环境中的模型会自动标记故障,这些故障随后会被审查、重新标注并重新纳入训练数据——所有这些都在同一个编排的流水线中。
该公司的更广泛的愿景与 AI 的演进相一致:不仅仅是更智能的模型,还有更智能的工作流。在这种愿景中,标注并没有消失,但它不再是蛮力劳动的领域。它是战略性的、选择性的,并由自动化驱动的。












