人工智能
Voxel51 的全新自动标记技术有望将标注成本降低 100,000 万倍
计算机视觉初创公司的一项突破性新研究 体素51 这表明传统的数据标注模型即将被颠覆。该公司在今天发布的研究中报告称,其新的自动标注系统实现了高达 95% 的人类水平准确率,同时速度提高了 5,000 倍,并且便宜 00,000 倍 比手动标记更简单。
该研究在 COCO、LVIS、BDD100K 和 VOC 等知名数据集上对 YOLO-World 和 Grounding DINO 等基础模型进行了基准测试。值得注意的是,在许多实际场景中,仅使用 AI 生成的标签训练的模型的表现与使用人工标签训练的模型相当,甚至更好。对于正在构建 计算机视觉 系统,其影响是巨大的:可以节省数百万美元的注释成本,模型开发周期可以从几周缩短到几小时。
注释的新时代:从手工劳动到模型主导的流程
几十年来 数据注释 一直是人工智能发展中的一个痛点。从 ImageNet 到自动驾驶汽车数据集,各个团队都依赖大量人工绘制边界框和分割物体——这项工作既昂贵又缓慢。
当时的逻辑很简单:更多人工标记的数据=更优秀的人工智能。但 Voxel51 的研究颠覆了这一假设。
他们的方法利用预先训练的基础模型——其中一些模型 零射 并将其集成到一个流程中,该流程可自动执行常规标记,同时利用主动学习功能标记不确定或复杂的案例以供人工审核。这种方法显著降低了时间和成本。
在一项测试中,使用 NVIDIA L3.4S GPU 标记 40 万个对象仅需一个多小时,成本为 1.18 美元。而使用 AWS SageMaker 手动完成同样的操作则需要近 7,000 小时,成本超过 124,000 美元。在特别具有挑战性的情况下(例如在 COCO 或 LVIS 数据集中识别稀有类别),自动标记模型偶尔会 跑赢 这与人工标注的模型完全不同。这一令人惊讶的结果可能源于基础模型一致的标注模式及其在大规模互联网数据上的训练。
Voxel51 内部:重塑视觉 AI 工作流程的团队
成立于2016 by 杰森·科索教授 与 布赖恩摩尔 Voxel51 隶属于密歇根大学,最初是一家专注于视频分析的咨询公司。Corso 是计算机视觉和机器人技术领域的资深人士,已发表 150 多篇学术论文,并为人工智能社区贡献了大量开源代码。Corso 的博士生 Moore 担任首席执行官。
转折点出现在团队意识到,大多数人工智能瓶颈并非来自模型设计,而是来自数据。这一洞见激励他们创建 五十一,一个旨在帮助工程师更有效地探索、管理和优化视觉数据集的平台。
多年来,该公司已筹集了超过 $ 45M包括一个 12.5万美元的A轮融资 和 30万美元的B系列 由 Bessemer Venture Partners 领投。随后,企业开始采用,LG 电子、博世、Berkshire Grey、Precision Planting 和 RIOS 等主要客户将 Voxel51 的工具集成到其生产 AI 工作流程中。
从工具到平台:FiftyOne 的角色不断扩大
FiftyOne 已从一个简单的数据集可视化工具发展成为一个全面的、以数据为中心的 AI 平台。它支持多种格式和标记模式,包括 COCO、Pascal VOC、LVIS、BDD100K 和 Open Images,并可与 TensorFlow 和 PyTorch 等框架无缝集成。
FiftyOne 不仅仅是一个可视化工具,它还支持高级操作:查找重复图像、识别错误标记的样本、发现异常值以及测量模型故障模式。其插件生态系统支持用于光学字符识别、视频问答和基于嵌入的分析的自定义模块。
企业版 FiftyOne Teams 引入了版本控制、访问权限、与云存储(例如 S3)集成等协作功能,以及 Labelbox 和 CVAT 等注释工具。值得注意的是,Voxel51 还 与 V7 Labs 合作 简化数据集管理和手动注释之间的流程。
重新思考注释行业
Voxel51 的自动标记研究挑战了近 1 亿美元标注行业背后的假设。在传统的工作流程中,每张图像都必须经过人工处理——这是一个昂贵且往往冗余的过程。Voxel51 认为,现在大部分此类劳动都可以被消除。
在他们的系统中,大多数图像都由AI标注,只有少数情况才会由人工处理。这种混合策略不仅降低了成本,还确保了更高的整体数据质量,因为人工标注的工作只用于最困难或最有价值的部分。
这种转变与人工智能领域的更广泛趋势相一致 以数据为中心的人工智能—一种专注于优化训练数据而不是无休止地调整模型架构的方法。
竞争格局和行业接受度
像 Bessemer 这样的投资者将 Voxel51 视为人工智能的“数据编排层”,类似于 DevOps的 工具彻底改变了软件开发。他们的开源工具已获得数百万次下载,其社区涵盖全球数千名开发人员和机器学习团队。
虽然 Snorkel AI、Roboflow 和 Activeloop 等其他初创公司也专注于数据工作流,但 Voxel51 凭借其广度、开源理念和企业级基础架构脱颖而出。Voxel51 的平台并非与注释提供商竞争,而是对其进行补充——通过选择性策展,提升现有服务的效率。
未来的影响
其长期影响是深远的。如果被广泛采用, 体素51的方法可以大大降低计算机视觉的进入门槛,使缺乏大量标签预算的初创企业和研究人员能够更轻松地进入该领域。
除了节省成本之外,这种方法还为 持续学习系统其中生产中的模型会自动标记故障,然后对其进行审查、重新标记并折回到训练数据中——所有这些都在同一个精心设计的管道内进行。
该公司的更广阔愿景与人工智能的发展方向相契合:不仅要打造更智能的模型,更要打造更智能的工作流程。在这一愿景中,标注并未消亡,但它不再是人力的天下。标注具有战略性、选择性,并且由自动化驱动。












