人工智能
DINOv3 和计算机视觉的未来:大规模自监督学习

在许多 计算机视觉 项目中,标记图像是一个昂贵且缓慢的过程。它经常引入偏见并降低了处理大型数据集的能力。因此,研究人员一直在寻找消除大量手动标记的需要的方法。为了应对这一挑战,Meta AI 在 2025 年推出了 DINOv3。它是一个自监督的视觉基础模型,可以直接从 17 亿 个未标记的图像中学习。
该模型使用一个具有 70 亿参数的庞大教师网络进行训练。通过这种设置,它从一个单一的冻结骨干中产生高质量的全局和密集特征。因此,该模型可以捕获图像中的细节和更广泛的上下文信息。
此外,DINOv3 在许多视觉任务中表现出色,无需昂贵的微调。这意味着它不仅从技术角度来看很强大,而且对于面临资源和时间限制的研究人员、工程师和行业领袖来说也是实用性的。
因此,DINOv3 代表了计算机视觉的一个重大进步。它结合了大规模学习、效率和广泛的可用性,使其成为一个具有强大潜力的基础模型,适用于学术研究和工业应用。
视觉自监督学习的演变
传统的计算机视觉长期以来依赖于 监督学习。这种方法需要大量标记的数据集,需要人工仔细标注。这个过程是昂贵的、缓慢的,并且在标签稀缺或昂贵的领域(如医学成像)中经常不切实际。因此,自监督学习(SSL) 已成为一种关键方法。它允许模型直接从原始的未标记数据中学习有用的视觉特征,通过在图像中发现隐藏的模式。
早期的 SSL 方法,如 Momentum Contrast(MoCo)和 Bootstrap Your Own Latent(BYOL),证明了模型可以在没有标记数据的情况下学习强大的视觉特征。这些方法证明了自监督的价值,并为更先进的方法铺平了道路。
2021 年,Meta 推出了 DINO。这是一个重要的步骤,因为它仅使用自监督训练就实现了具有竞争力的性能。后来,DINOv2 进一步推进了这一进展,通过扩大训练规模和增强特征的可转移性以适应不同的任务。
这些改进为 2025 年发布的 DINOv3奠定了基础。DINOv3 利用了一个更大的模型和一个巨大的数据集,使其能够建立新的性能基准。
到 2025 年,SSL 不再是可选的。它已经成为一种必要的方法,因为它使得能够在没有人工标记的情况下训练数十亿张图像。这使得能够构建通用性强的基础模型,它们可以跨多个任务进行泛化。它们的预训练骨干提供了灵活的特征,可以通过添加小的任务特定头来适应。这减少了成本并加速了计算机视觉系统的开发。
此外,SSL 减少了研究周期。团队可以重用预训练的模型进行快速测试和评估,这有助于快速原型开发。这种向大规模和标签高效学习的转变正在改变计算机视觉系统的构建和应用方式。
DINOv3 如何重新定义自监督计算机视觉
DINOv3 是 Meta AI 最先进的自监督视觉基础模型。它代表了计算机视觉大规模训练的一个新阶段。与早期版本不同,它结合了一个具有 70 亿参数的庞大教师网络和 17 亿张未标记图像的训练。这一规模使得模型能够学习更强大和更适应性的特征。
DINOv3 中的一个显著改进是密集特征学习的稳定性。以前的模型,如 DINOv2,往往在长时间训练中丢失了图块级特征的细节。这使得分割和深度估计等任务的可靠性降低。DINOv3 引入了一种称为 Gram Anchoring 的方法来解决这个问题。它在训练过程中保持图块之间的相似性结构一致,从而防止特征崩溃并保留细节。
另一个技术进步是使用高分辨率图像裁剪。通过处理更大的图像部分,模型更准确地捕捉局部结构。这种方法可以提高像物体检测或语义分割这样的应用中的性能,在这些应用中,像素级精度至关重要。
该模型还受益于旋转位置嵌入(RoPE)。这些嵌入与分辨率和裁剪策略相结合,允许模型处理不同大小和形状的图像。这使得 DINOv3 在现实世界场景中更加稳定,在这些场景中,输入图像的质量和格式往往各不相同。
为了支持不同的部署需求,Meta AI 将 DINOv3 蒸馏成一系列较小的模型。这些包括多个 视觉变换器(ViT) 大小和 ConvNeXt 版本。较小的模型更适合边缘设备,而较大的模型更适合研究或服务器使用。这一灵活性允许 DINOv3 在各种环境中应用,而不会显著损失性能。
结果证实了这种方法的强度。DINOv3 在超过 60 个基准测试中取得了最好的成绩。它在分类、分割、深度估计甚至 3D 任务中表现出色。其中许多结果都是使用冻结的骨干实现的,这意味着不需要额外的微调。
性能和基准测试优越性
DINOv3 已经确立自己为一个可靠的视觉基础模型。它在许多计算机视觉任务中取得了强大的结果。一个必要的优势是其冻结的骨干已经捕获了丰富的特征。因此,大多数应用程序只需要一个线性探测器或一个轻量级解码器。这使得转移更快、更便宜、更容易,而不需要进行全部微调。
在 ImageNet-1K 分类中,DINOv3 使用冻结的特征实现了约 84.5% 的 top-1 准确率。这比许多早期的自监督模型和一些监督基准都要好。在 ADE20K 语义分割中,它使用 ViT-L 骨干实现了约 63.0 的 mIoU。这些结果表明该模型在没有任务特定训练的情况下保留了细的空间信息。
在 COCO 对象检测中,DINOv3 使用冻结的特征实现了约 66.1 的 mAP。这表明其密集表示在识别复杂场景中的对象方面的强度。该模型在深度估计方面也表现出色,例如在 NYU-Depth V2 上,它比许多老的监督和自监督方法产生了更准确的预测。
除了这些之外,DINOv3 在细粒度分类和异常检测测试中也表现出色。在许多情况下,它超越了早期的 SSL 模型和传统的监督训练。
在实验过程中,一个明显的好处是低转移成本。大多数任务只需要进行少量的额外训练。这减少了计算并缩短了部署时间。
Meta AI 和其他研究人员在超过 60 个基准测试中验证了 DINOv3。这些包括分类、分割、检测、深度估计、检索和几何匹配。跨这些广泛的评估中,该模型一致地提供了最先进的或接近最先进的结果。这确认了其作为一个通用和可靠的视觉编码器的作用。
DINOv3 如何改变计算机视觉工作流程
在旧的工作流程中,团队必须训练许多任务特定的模型。每个任务都需要自己的数据集和调优。这既增加了成本,又增加了维护工作。
有了 DINOv3,团队现在可以标准化一个单一的骨干。同一个冻结的模型支持不同的任务特定头。这减少了使用的基础模型的数量。它还简化了集成管道并缩短了视觉功能的发布周期。
对于开发人员,DINOv3 提供了实用的资源。Meta AI 在 GitHub 上提供了检查点、训练脚本和模型卡。Hugging Face 也托管了蒸馏变体,并提供了示例笔记本。这些资源使得开发人员更容易尝试和采用该模型在实际项目中。
开发人员使用这些资源的一种常见方法是特征提取。一个冻结的 DINOv3 模型提供了可以用作下游任务输入的嵌入。然后,开发人员可以附加一个线性头或一个小的适配器来解决特定的需求。当需要进一步的适应时,参数高效的方法(如 LoRA 或轻量级适配器)可以在不产生大量计算开销的情况下进行微调。
蒸馏变体在这种工作流程中发挥着至关重要的作用。较小的模型可以在具有有限容量的设备上运行,而较大的模型仍然适合研究实验室和生产服务器。这种灵活性允许团队快速开始测试,并随着需要而扩展到更具挑战性的设置。
通过结合可重用的检查点、简单的训练头和可扩展的模型大小,DINOv3 正在重塑计算机视觉工作流程。它降低了成本,缩短了训练周期,并使得在各个行业中使用基础模型更加实用。
DINOv3 的特定领域应用
有几个领域可以潜在地使用 DINOv3:
医学成像
医学数据通常缺乏明确的标签,专家注释既耗时又昂贵。DINOv3 可以通过产生可以转移到病理学和放射学任务的密集特征来提供帮助。例如,一项研究 使用低秩适配器对 DINOv3 进行了微调,以进行有丝分裂图像分类,实现了 0.8871 的平衡准确率,并且只需要最少的可训练参数。这表明,即使使用有限的标记数据,也可以实现高质量的结果。更简单的头部也可以用于异常检测,从而减少了对大量标记的临床数据集的需求。然而,临床部署仍然需要严格的验证。
卫星和地理空间成像
Meta 在大约 4.93 亿张卫星图像上训练了 DINOv3 的变体。这些模型改进了树冠高度估计和分割任务。在某些情况下,甚至一个蒸馏的卫星 ViT-L 都能与完整的 7B 教师模型相媲美或超越。这证实了特定领域的自监督训练的价值。同样,实践者可以在特定领域的数据上预训练 DINOv3 或微调蒸馏变体,以减少遥感中的标记成本。
自动驾驶和机器人
DINOv3 的特征加强了车辆和机器人的感知模块。它们在不同天气和照明条件下改进了检测和对应。研究表明,DINOv3 的骨干支持视觉运动策略和扩散控制器,导致机器人操纵任务中样本效率更高、成功率更高。机器人团队可以将 DINOv3 应用于感知,但应将其与领域数据和谨慎的微调结合使用,以确保安全关键系统的安全性。
零售和物流
在商业环境中,DINOv3 可以支持质量控制和视觉库存系统。它可以适应不同的产品线和相机设置,从而减少了每个产品的重新训练需求。这使得它在产品线多样、视觉环境变化快速的行业中变得实用。
挑战、偏见和前进之路
训练像 DINOv3 这样的视觉基础模型,具有 70 亿个参数的规模,需要大量的计算资源。这限制了完全预训练仅限于少数拥有大量资金的组织。蒸馏可以减少推理成本,并允许较小的学生模型部署。然而,它并不能消除原始的预训练成本。因此,大多数研究人员和工程师依赖于公开发布的检查点,而不是从头开始训练这样的模型。
另一个关键挑战是数据集偏差。从网络上收集的大型图像集合通常反映了区域、文化和社会的不平衡。训练在这些数据集上的模型可能会继承或甚至加剧这些偏差。即使使用冻结的骨干,微调也可能在不同群体中重新引入差异。因此,数据集审核、公平性检查和仔细的评估在部署之前都是必要的。道德问题也适用于许可和发布实践。开放模型应提供明确的使用指南、安全说明和法律风险评估,以支持负责任的采用。
展望未来,几个趋势将塑造 DINOv3 和类似系统的作用。首先,连接视觉和语言的多模态系统将依赖于强大的编码器(如 DINOv3)来实现更好的图像-文本对齐。其次,边缘计算和机器人将从较小的蒸馏变体中受益,使得在有限的硬件上实现高级感知成为可能。第三,解释性人工智能将变得更加重要,因为团队将努力使密集的特征更容易解释,以进行审计、调试和高风险领域的信任。在此基础上,持续的研究将继续提高对分布转移和对抗性输入的鲁棒性,确保在现实世界环境中可靠地使用。
结论
由于其冻结特征转移良好,因此 DINOv3 支持诸如分类、分割、检测和深度估计等任务,并且只需要进行少量的额外训练。同时,蒸馏变体使得该模型足够灵活,可以在轻量级设备和强大的服务器上运行。这些优势在医疗保健、地理空间监测、机器人和零售等各个领域都有实际应用。
然而,预训练所需的大量计算和数据集偏差的风险仍然是持续的挑战。因此,未来的进展取决于将 DINOv3 的能力与仔细的验证、公平性监测和负责任的部署相结合,确保在研究和行业中可靠地使用。












