人工智能
揭开 SAM 2 的面纱:Meta 的新开源基础模型,实现视频和图像的实时对象分割
过去几年,人工智能领域在文本处理的基础人工智能方面取得了显著进步,这些进步已经改变了从客户服务到法律分析的各个行业。然而,当涉及图像处理时,我们才刚刚开始探索。视觉数据的复杂性和训练模型以准确解释和分析图像的挑战带来了重大的障碍。随着研究人员继续探索图像和视频的基础人工智能,图像处理在人工智能中的未来具有在医疗保健、自动驾驶汽车和其他领域创新的潜力。
对象分割,即确定图像中与感兴趣的对象相对应的确切像素,是计算机视觉中的一个关键任务。传统上,这需要创建专门的人工智能模型,这需要大量的基础设施和注释数据。去年,Meta 引入了 Segment Anything Model (SAM),一种基础人工智能模型,它通过允许用户使用简单的提示来分割图像,从而简化了这个过程。这一创新减少了对专门专业知识和大量计算资源的需求,使图像分割更加便捷。
现在,Meta 又进一步推出了 SAM 2。这个新版本不仅增强了 SAM 现有的图像分割能力,还将其扩展到视频处理。SAM 2 可以分割图像和视频中的任何对象,甚至是它以前从未遇到过的对象。这一进步是计算机视觉和图像处理领域的一个飞跃,为分析视觉内容提供了一个更强大、更灵活的工具。下面,我们将探讨 SAM 2 的激动人心的进步及其重新定义计算机视觉领域的潜力。
介绍 Segment Anything Model (SAM)
传统的分割方法需要手动精细化,也就是交互式分割,或者需要大量注释数据来进行预定义类别的自动分割。SAM 是一种支持交互式分割的基础人工智能模型,使用多样化的提示,如点击、框选或文本输入。它还可以使用最少的数据和计算资源进行微调。在超过 10 亿个多样化图像注释上进行训练,SAM 可以处理新对象和图像,而无需自定义数据收集或微调。
SAM 通过两个主要组件工作:一个图像编码器处理图像,一个提示编码器处理输入,如点击或文本。这些组件与一个轻量级解码器结合,预测分割掩码。一旦图像被处理,SAM 只需 50 毫秒即可在网页浏览器中创建一个分割,使其成为实时交互任务的强大工具。为了构建 SAM,研究人员开发了一个三步骤的数据收集过程:模型辅助注释,自动和辅助注释的混合,以及完全自动的掩码创建。这个过程产生了 SA-1B 数据集,其中包括 11 万张具有 11 亿个掩码的许可、隐私保护图像——使其比任何现有数据集大 400 倍。SAM 的出色性能源于这个广泛而多样的数据集,确保在各个地理区域中比以前的数据集有更好的代表性。
揭开 SAM 2 的面纱:从图像到视频分割的飞跃
在 SAM 的基础上,SAM 2 专为图像和视频的实时、可提示的对象分割而设计。与仅专注于静态图像的 SAM 不同,SAM 2 通过将每个帧视为连续序列的一部分来处理视频。这种方法使 SAM 2 能够更有效地处理动态场景和不断变化的内容。对于图像分割,SAM 2 不仅提高了 SAM 的能力,还在交互式任务中运行速度快了三倍。
SAM 2 保留了与 SAM 相同的架构,但引入了一个用于视频处理的内存机制。这个特性使 SAM 2 能够跟踪来自前一帧的信息,确保对象分割在运动、照明或遮挡变化的情况下保持一致。通过引用过去的帧,SAM 2 可以在整个视频中完善其掩码预测。
该模型是在新开发的 SA-V 数据集 上进行训练的,该数据集包含 47 个国家的 51,000 个视频中的 60 万个掩码注释。这个多样化的数据集涵盖了整个对象及其部分,提高了 SAM 2 在真实世界视频分割中的准确性。
SAM 2 作为一个开源模型,在 Apache 2.0 许可下提供,使其可用于各种用途。Meta 还在 CC BY 4.0 许可下共享了用于 SAM 2 的数据集。另外,还有一个基于 Web 的演示,允许用户探索该模型并查看其性能。
潜在用例
SAM 2 在图像和视频的实时、可提示的对象分割方面的能力已经解锁了各个领域的众多创新应用。例如,其中一些应用包括:
- 医疗诊断: SAM 2 可以通过在手术室的实时视频中分割解剖结构和识别异常来显著改善实时手术辅助。它还可以通过在医疗扫描中提供对器官或肿瘤的准确分割来增强医疗成像分析。
- 自动驾驶汽车: SAM 2 可以通过在视频帧中连续分割和跟踪行人、车辆和道路标志来提高自动驾驶系统的对象检测准确性。其处理动态场景的能力还支持自适应导航和碰撞避免系统,通过实时识别和响应环境变化。
- 交互媒体和娱乐: SAM 2 可以通过实时准确分割对象来增强增强现实(AR)应用,使虚拟元素更容易与真实世界融合。它还可以通过自动分割视频中的对象来简化视频编辑,简化背景移除和对象替换等过程。
- 环境监测: SAM 2 可以通过在视频中分割和监测动物来帮助野生动物跟踪,支持物种研究和栖息地研究。在灾难响应中,它可以通过在视频中准确分割受影响的区域和对象来评估损害并指导响应工作。
- 零售和电子商务: SAM 2 可以通过使产品在图像和视频中交互式分割来增强电子商务中的产品可视化,为客户提供从不同角度和背景查看项目的能力。对于库存管理,它可以帮助零售商实时跟踪和分割货架上的产品,简化库存管理和整体库存控制。
克服 SAM 2 的局限性:实用解决方案和未来增强
虽然 SAM 2 在图像和短视频上表现良好,但在实际使用中需要考虑一些局限性。它可能难以跟踪在显著视角变化、长时间遮挡或拥挤场景中移动的对象,特别是在较长的视频中。交互式点击的手动更正可以帮助解决这些问题。
在拥挤的环境中,SAM 2 可能会将相似外观的对象混淆,但后续帧中的额外提示可以解决这个问题。虽然 SAM 2 可以分割多个对象,但其效率会降低,因为它单独处理每个对象。未来更新可以通过集成共享的上下文信息来增强性能。
SAM 2 也可能会错过快速移动对象的细节,并且其预测在帧之间可能不稳定。然而,进一步的训练可以解决这个限制。虽然自动注释的生成已经改进,但仍需要人工注释员进行质量检查和帧选择,进一步的自动化可以提高效率。
结论
SAM 2 代表了图像和视频实时对象分割领域的一个重大飞跃,建立在其前身的基础上。通过增强能力和扩展功能到动态视频内容,SAM 2 有望改变医疗保健、自动驾驶汽车、交互媒体和零售等各个领域。虽然仍然存在挑战,特别是在处理复杂和拥挤的场景时,但 SAM 2 的开源性质鼓励持续改进和适应。凭借其强大的性能和可访问性,SAM 2 有望推动创新并扩展计算机视觉和其他领域的可能性。








