人工智能

分段任何模型 – 计算机视觉获得了巨大的提升

mm
An up close image of a male face with face detection pointers.

计算机视觉(CV)在10年内从50%的准确率提高到了99%。该技术预计将进一步提高到前所未有的水平,采用现代算法和图像分割技术。最近,Meta的FAIR实验室发布了分段任何模型(SAM) – 图像分割领域的游戏规则改变者。该高级模型可以从输入提示中生成详细的对象掩膜,将计算机视觉提升到新的高度。它可能会改变我们在这个时代与数字技术交互的方式。

让我们探索图像分割,并简要介绍SAM如何影响计算机视觉

什么是图像分割和其类型?

图像分割是计算机视觉中的一种过程,它将图像分割成多个区域或段,每个区域或段代表图像中的不同对象或区域。这种方法使专家能够隔离图像的特定部分以获得有意义的见解。

图像分割模型经过训练,以识别重要的图像细节并减少复杂性。这些算法有效地根据颜色、纹理、对比度、阴影和边缘等特征区分图像的不同区域。

通过分割图像,我们可以将分析集中在感兴趣的区域以获得有见地的细节。以下是不同图像分割技术。

  • 语义分割涉及将像素标记为语义类。
  • 实例分割进一步检测和细分图像中的每个对象。
  • 全景分割为每个对象像素分配唯一的实例ID,从而实现图像中所有对象的更全面和语境化标记。

分割使用基于图像的深度学习模型实现。这些模型从训练集中提取所有有价值的数据点和特征。然后,将这些数据转换为向量和矩阵以理解复杂的特征。图像分割中常用的深度学习模型包括:

  • 卷积神经网络(CNNs)
  • 全连接网络(FCNs)
  • 循环神经网络(RNNs)

图像分割如何工作?

计算机视觉中,大多数图像分割模型由编码器-解码器网络组成。编码器将输入数据编码为潜在空间表示,解码器解码该表示以形成分割图,或换句话说,图中每个对象位置的图。
通常,分割过程包括3个阶段:

  • 图像编码器将输入图像转换为数学模型(向量和矩阵)以进行处理。
  • 编码器在多个级别聚合向量。
  • 快速掩膜解码器将图像嵌入作为输入,并生成一个掩膜,该掩膜在图像中单独勾勒出不同的对象。

图像分割的现状

从2014年开始,一波基于深度学习的分割算法出现,例如CNN+CRF和FCN,这些算法在该领域取得了显著进展。2015年,U-Net和反卷积网络的出现提高了分割结果的准确性。

2016年,实例感知分割、V-Net和RefineNet进一步提高了分割的准确性和速度。2017年,Mark-RCNN和FC-DenseNet引入了对象检测和密集预测到分割任务中。

2018年,全景分割、Mask-Lab和上下文编码网络成为焦点,因为这些方法解决了实例级分割的需求。2019年,全景FPN、HRNet和十字交叉注意力引入了实例级分割的新方法。

2020年,Detecto RS、全景DeepLab、PolarMask、CenterMask、DC-NAS和Efficient Net + NAS-FPN的引入继续了这一趋势。最后,在2023年,我们有了SAM,我们将在下面讨论。

分段任何模型(SAM)- 通用图像分割

分段任何模型(SAM)是一种新的方法,可以在单个模型中执行交互式和自动分割任务。以前,交互式分割允许分割任何对象类,但需要一个人指导该方法,通过迭代地改进掩膜。

自动分割SAM允许分割预先定义的特定对象类别。其可提示界面使其具有高度的灵活性。因此,SAM可以使用适当的提示解决广泛的分割任务,例如点击、框、文本等。

SAM是在一个多样化且富有洞察力的数据集上训练的,包含超过10亿个掩膜,这使得它能够识别新对象和在训练集中不可用的图像。这种现代框架将广泛地改变CV模型在应用中的使用,例如自动驾驶汽车、安全和增强现实。

SAM可以检测和分割自动驾驶汽车周围的对象,例如其他车辆、行人和交通标志。在增强现实中,SAM可以分割真实世界环境,以便在适当的位置放置虚拟对象,创建更真实和更吸引人的用户体验。

2023年图像分割挑战

图像分割的研究和开发也带来了重大挑战。2023年图像分割的一些主要挑战包括:

  • 数据集的复杂性增加,特别是3D图像分割
  • 可解释的深度模型的开发
  • 使用最小化人工干预的无监督学习模型
  • 需要实时和内存高效的模型
  • 消除3D点云分割的瓶颈

计算机视觉的未来

全球计算机视觉市场影响多个行业,预计到2030年将达到$41亿。像分段任何模型(SAM)这样的现代图像分割技术,结合其他深度学习算法,将进一步加强计算机视觉在数字化格局中的地位。因此,我们将看到更强大的计算机视觉模型和智能应用程序在未来。

要了解更多关于AI和ML的信息,请访问Unite.ai – 您关于技术及其现代状态的所有问题的唯一解决方案。

Haziqa 是一名具有丰富经验的数据科学家,擅长为 AI 和 SaaS 公司撰写技术内容。