人工智能

揭开SAM 2的面纱:Meta的新开源基础模型,实现图像和视频的实时对象分割

mm

过去几年,人工智能领域在文本处理方面取得了显著进步,推动了从客户服务到法律分析等各个行业的发展。然而,在图像处理方面,我们才刚刚开始探索。视觉数据的复杂性和训练模型以准确解释和分析图像的挑战,带来了重大的障碍。随着研究人员继续探索图像和视频的基础人工智能,图像处理在人工智能领域的未来具有巨大的创新潜力,尤其是在医疗保健、自动驾驶和其他领域。

对象分割是一项关键的计算机视觉任务,涉及确定图像中与感兴趣的对象对应的确切像素。传统上,这需要创建专门的人工智能模型,这需要大量的基础设施和注释数据。去年,Meta推出了Segment Anything Model (SAM),这是一种基础人工智能模型,通过允许用户使用简单的提示来分割图像,简化了这一过程。这种创新减少了对专门专业知识和大量计算资源的需求,使图像分割更加便捷。

现在,Meta进一步推出了SAM 2。这次新的迭代不仅增强了SAM现有的图像分割能力,还扩展到了视频处理。SAM 2可以分割图像和视频中的任何对象,即使它以前从未遇到过。这种进步是计算机视觉和图像处理领域的一个巨大飞跃,提供了一个更强大、更灵活的工具来分析视觉内容。下面,我们将探索SAM 2的令人兴奋的进步及其在各个领域的潜在应用。

介绍Segment Anything Model (SAM)

传统的分割方法需要手动精细化,也就是交互式分割,或者需要大量注释数据来实现自动分割到预定义的类别中。SAM是一种基础人工智能模型,支持使用多样化的提示(如点击、框选或文本输入)进行交互式分割。它还可以使用最少的数据和计算资源进行微调,以实现自动分割。在超过10亿多样化图像注释的基础上训练,SAM可以处理新的对象和图像,而无需自定义数据收集或微调。

SAM由两个主要组件组成:图像编码器处理图像,提示编码器处理输入,如点击或文本。这些组件与轻量级解码器结合,预测分割掩码。一旦图像被处理,SAM可以在仅50毫秒内在网页浏览器中创建一个分割,使其成为实时交互任务的强大工具。为了构建SAM,研究人员开发了一个三步骤的数据收集过程:模型辅助注释,自动和辅助注释的混合,以及完全自动的掩码创建。这个过程产生了SA-1B数据集,其中包括超过11亿个掩码,分布在1100万个具有许可和隐私保护的图像中,使其比任何现有的数据集大400倍。SAM的卓越性能源自这个庞大而多样的数据集,确保了在各个地理区域中比以前的数据集更好的表现。

揭开SAM 2的面纱:从图像到视频分割的飞跃

在SAM的基础上,SAM 2被设计用于图像和视频的实时、可提示的对象分割。与SAM不同,SAM专注于静态图像,SAM 2通过将每一帧视为连续序列的一部分来处理视频。这种方法使SAM 2能够更好地处理动态场景和变化的内容。对于图像分割,SAM 2不仅提高了SAM的能力,还使交互式任务的速度提高了三倍。

SAM 2保留了SAM相同的架构,但引入了一个用于视频处理的内存机制。这个特性使SAM 2能够跟踪来自前一帧的信息,确保即使在运动、照明或遮挡发生变化时,也能保持一致的对象分割。通过引用过去的帧,SAM 2可以在整个视频中精炼其掩码预测。

该模型是在新开发的SA-V数据集上进行训练的,该数据集包含了来自47个国家的51,000个视频中的超过60万个masklet注释。这个多样化的数据集涵盖了整个对象及其部分,提高了SAM 2在真实世界视频分割中的准确性。

SAM 2作为一个开源模型,在Apache 2.0许可下提供,使其可用于各种用途。Meta还在CC BY 4.0许可下共享了用于SAM 2的数据集。此外,还有一个基于Web的演示,允许用户探索该模型并查看其性能。

潜在应用场景

SAM 2在图像和视频的实时、可提示的对象分割方面的能力已经解锁了各个领域的众多创新应用。例如,以下是一些应用场景:

  • 医疗诊断:SAM 2可以通过在手术室的实时视频中分割解剖结构和识别异常来显著提高外科手术辅助的实时性。它还可以通过在医疗扫描中提供准确的器官或肿瘤分割来增强医疗图像分析。
  • 自动驾驶:SAM 2可以通过提高物体检测的准确性来增强自动驾驶系统,这是通过在视频帧中连续分割和跟踪行人、车辆和道路标志来实现的。它处理动态场景的能力还支持自适应导航和碰撞避免系统,通过实时识别和响应环境变化来实现。
  • 交互媒体和娱乐:SAM 2可以通过在实时中准确分割对象来增强增强现实(AR)应用,使虚拟元素更容易与真实世界融合。它还可以通过自动化视频中对象的分割来简化视频编辑过程,例如背景移除和对象替换。
  • 环境监测:SAM 2可以通过在视频中分割和监测动物来帮助野生动物追踪,支持物种研究和栖息地研究。在灾难响应中,它可以通过在视频中准确分割受影响的区域和对象来评估损害并指导响应工作。
  • 零售和电子商务:SAM 2可以通过在图像和视频中交互式分割产品来增强电子商务中的产品可视化,允许客户从各种角度和背景查看产品。对于库存管理,它可以帮助零售商通过实时分割货架上的产品来简化库存管理和提高整体库存控制。

克服SAM 2的局限性:实用解决方案和未来增强

虽然SAM 2在图像和短视频中表现良好,但在实际使用中需要考虑一些局限性。它可能难以跟踪在显著视角变化、长时间遮挡或拥挤场景中移动的对象,特别是在较长的视频中。使用交互式点击进行手动纠正可以帮助解决这些问题。

在拥挤的环境中,SAM 2可能会将相似物体误认为目标对象,但后续帧中的额外提示可以解决这个问题。虽然SAM 2可以分割多个对象,但其效率会降低,因为它单独处理每个对象。未来更新可以通过集成共享的上下文信息来提高性能。

SAM 2也可能会错过快速移动对象的细节,其预测可能会在帧之间不稳定。然而,进一步的训练可以解决这个局限性。虽然自动注释的生成已经改进,但仍然需要人工注释者进行质量检查和帧选择,进一步的自动化可以提高效率。

结论

SAM 2代表了图像和视频实时对象分割领域的一个重大进步,建立在其前身的基础上。通过增强能力和扩展功能到动态视频内容,SAM 2承诺在医疗保健、自动驾驶、交互媒体和零售等各个领域带来变革。虽然仍存在挑战,特别是在处理复杂和拥挤的场景时,但SAM 2的开源性质鼓励持续改进和适应。凭借其强大的性能和可用性,SAM 2有望推动创新并扩展计算机视觉和其他领域的可能性。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。