人工智能

DINOv3 和计算机视觉的未来：大规模自监督学习

发布于 2025年10月20日

更新于 2026年5月17日

作者

Dr. Assad Abbas

DINOv3 and the Future of Computer Vision: Self-Supervised Learning at Scale

在许多计算机视觉项目中，图像标注是一个昂贵和耗时的过程。它经常引入偏差并降低了扩大大型数据集的能力。因此，研究人员一直在寻找消除手动标注需要的方法。为了应对这一挑战，Meta AI 在 2025 年推出了 DINOv3 。它是一个自监督视觉基础模型，可以直接从 17 亿张无标注图像中学习。

该模型使用一个具有 70 亿参数的庞大教师网络进行训练。通过这种设置，它从单个冻结的骨干网络中产生高质量的全局和密集特征。因此，模型可以捕获图像中的细节和更广泛的上下文信息。

此外，DINOv3 在许多视觉任务中表现出色，无需昂贵的微调。这意味着它不仅从技术角度来看很强大，而且对于面临资源和时间限制的研究人员、工程师和行业领袖来说也是实用性的。

因此，DINOv3 代表了计算机视觉的一个重大进步。它结合了大规模学习、效率和广泛的适用性，使其成为一个具有强大潜力的基础模型，适用于学术研究和工业应用。

自监督视觉学习的演变

传统的计算机视觉长期依赖于监督学习。这种方法需要大量标注数据，需要人工注释。这个过程是昂贵的、缓慢的，并且在标注稀缺或昂贵的领域中经常不切实际，例如医学成像。因此，自监督学习（SSL）已经成为一种关键方法。它允许模型直接从原始的无标注数据中学习有用的视觉特征，通过在图像中找到隐藏的模式。

早期的 SSL 方法，例如 Momentum Contrast（MoCo）和 Bootstrap Your Own Latent（BYOL），证明了模型可以在没有标注数据的情况下学习强大的视觉特征。这些方法证明了自监督的价值，并为更先进的方法铺平了道路。

2021 年，Meta 推出了 DINO 。这是一个重要的步骤，因为它仅使用自监督训练就实现了具有竞争力的性能。后来，DINOv2 进一步推进了这一进展，通过扩大训练规模和增强特征的可转移性以适应不同的任务。

这些改进为 DINOv3奠定了基础，于 2025 年发布。DINOv3 利用了一个更大规模的模型和一个巨大的数据集，使其能够建立新的性能基准。

到 2025 年，SSL 不再是可选的。它成为了一个必要的方法，因为它使得在没有人工标注的情况下训练数十亿张图像成为可能。这使得构建可以在多个任务中泛化的基础模型成为可能。它们的预训练骨干网络提供了灵活的特征，可以通过添加小的任务特定头来适应。这一方法降低了成本并加快了计算机视觉系统的开发速度。

此外，SSL 减少了研究周期。团队可以重用预训练模型进行快速测试和评估，这有助于快速原型开发。这一向大规模和标签高效学习的转变正在改变计算机视觉系统的构建和应用方式。

DINOv3 如何重新定义自监督计算机视觉

DINOv3 是 Meta AI 最先进的自监督视觉基础模型。它代表了计算机视觉大规模训练的一个新阶段。与早期版本不同，它结合了一个具有 70 亿参数的庞大教师网络和 17 亿张无标注图像的训练。这种规模使得模型能够学习更强大和更适应性的特征。

DINOv3 的一个显著改进是密集特征学习的稳定性。以前的模型，例如 DINOv2 ，在长时间训练期间经常会丢失图块级特征的细节。这使得分割和深度估计等任务的可靠性降低。DINOv3 引入了一种称为 Gram Anchoring 的方法来解决这个问题。它在训练期间保持图块之间的一致性结构，防止特征崩溃并保留细节。

另一个技术步骤是使用高分辨率图像裁剪。通过处理更大的图像部分，模型更准确地捕获局部结构。结果是更详细和细致的密集特征图。这些图增强了像物体检测或语义分割这样的应用中的性能，其中像素级精度至关重要。

该模型还受益于旋转位置嵌入（RoPE）。这些嵌入与分辨率和裁剪策略相结合，允许模型处理不同大小和形状的图像。这使得 DINOv3 在现实世界场景中更稳定，在这些场景中，输入图像通常在质量和格式上有所不同。

为了支持不同的部署需求，Meta AI 将 DINOv3 提炼成了一系列较小的模型。这些包括多个视觉变换器（ViT）尺寸和 ConvNeXt 版本。较小的模型更适合边缘设备，而较大的模型更适合研究或服务器使用。这一灵活性允许 DINOv3 在各种环境中应用，而不会显著损失性能。

结果证实了这种方法的强度。DINOv3 在超过 60 个基准测试中取得了顶级成绩。它在分类、分割、深度估计，甚至 3D 任务中都表现出色。其中许多结果都是使用冻结的骨干网络实现的，这意味着不需要额外的微调。

性能和基准优势

DINOv3 已经确立自己为一个可靠的视觉基础模型。它在许多计算机视觉任务中取得了强大的成绩。一个必要的优势是其冻结骨干网络已经捕获了丰富的特征。因此，大多数应用程序只需要一个线性探测器或一个轻量级解码器。这使得转移更快、更便宜、更容易，而不需要进行全部微调。

在 ImageNet-1K 分类中，DINOv3 使用冻结特征实现了约 84.5% 的 top-1 准确率。这比许多早期的自监督模型和一些监督基准都要好。在 ADE20K 语义分割中，它使用 ViT-L 骨干网络实现了约 63.0 的 mIoU 。这些结果表明该模型在没有任务特定训练的情况下保留了细节的空间信息。

在 COCO 对象检测中，DINOv3 使用冻结特征实现了约 66.1 的 mAP 。这表明其密集表示在识别复杂场景中的对象方面的强度。该模型在深度估计方面也表现出色，例如在 NYU-Depth V2 上，它产生的预测比许多老的监督和自监督方法都更准确。

除了这些之外，DINOv3 在细粒度分类和异常值测试中也表现出色。在许多情况下，它超越了早期的 SSL 模型和传统的监督训练。

在实验过程中，一个明显的好处是转移成本低。大多数任务只需要少量额外的训练。这减少了计算并缩短了部署时间。

Meta AI 和其他研究人员在超过 60 个基准测试中验证了 DINOv3 。这些包括分类、分割、检测、深度估计、检索和几何匹配。跨这些广泛的评估中，该模型始终提供了最先进的或接近最先进的结果。这确认了其作为通用和可靠的视觉编码器的作用。

DINOv3 如何改变计算机视觉工作流程

在旧的工作流程中，团队必须训练许多任务特定的模型。每个任务都需要自己的数据集和微调。这增加了成本和维护工作。

有了 DINOv3 ，团队现在可以标准化一个单一的骨干网络。相同的冻结模型支持不同的任务特定头。这减少了使用中的基础模型的数量。它还简化了集成管道并缩短了视觉功能的发布周期。

对于开发人员，DINOv3 提供了实用的资源。Meta AI 提供了 GitHub 上的检查点、训练脚本和模型卡。Hugging Face 还托管了提炼的变体和示例笔记本。这些资源使得在实际项目中实验和采用该模型变得更容易。

开发人员使用这些资源的一种常见方式是特征提取。一个冻结的 DINOv3 模型提供了可以用作下游任务输入的嵌入。开发人员然后可以附加一个线性头或一个小适配器来解决特定需求。当需要进一步适应时，参数高效的方法，例如 LoRA 或轻量级适配器，使得微调在不产生大量计算开销的情况下成为可能。

提炼的变体在这种工作流程中发挥着至关重要的作用。较小的版本可以在具有有限容量的设备上运行，而较大的版本仍然适合研究实验室和生产服务器。这种灵活性为团队提供了从快速测试到更大规模设置的扩展能力。

通过结合可重用的检查点、简单的训练头和可扩展的模型大小，DINOv3 正在改变计算机视觉工作流程。它降低了成本，缩短了训练周期，并使得在各个行业中使用基础模型更加实用。

DINOv3 的特定领域应用

有几个领域可以潜在地使用 DINOv3 ：

医学成像

医学数据通常缺乏明确的标注，专家注释既耗时又昂贵。DINOv3 可以通过产生可以转移到病理和放射学任务的密集特征来提供帮助。例如，一项研究使用低秩适配器对 DINOv3 进行了微调，用于有丝分裂图像分类，仅使用最少的可训练参数就实现了 0.8871 的平衡准确率。这表明即使使用有限的标注数据，也可以实现高质量的结果。更简单的头部也可以用于异常检测，从而减少对大型标注临床数据集的需求。然而，临床部署仍需要严格的验证。

卫星和地理空间图像

Meta 在大约 4.93 亿张卫星图像上训练了 DINOv3 的变体。这些模型提高了树冠高度估计和分割任务的性能。在某些情况下，甚至一个提炼的卫星 ViT-L 都能与完整的 7B 教师模型相匹配或超越。这种领域特定的自监督训练的价值得到了证实。同样，实践者可以在领域数据上预训练 DINOv3 或微调提炼的变体，以减少遥感中的标注成本。

自主车辆和机器人

DINOv3 的特征加强了车辆和机器人的感知模块。它们提高了在不同天气和照明条件下检测和匹配的能力。研究表明，DINOv3 的骨干网络支持视觉运动策略和扩散控制器，从而在机器人操作任务中实现了更高的样本效率和成功率。机器人团队可以将 DINOv3 应用于感知，但应将其与领域数据和仔细的微调结合使用，以确保安全关键系统的安全性。

零售和物流

在商业环境中，DINOv3 可以支持质量控制和视觉库存系统。它可以适应不同产品线和相机设置，从而减少对每个产品的重新训练的需求。这使得它在快速发展的行业中具有实用性，这些行业具有多样的视觉环境。

挑战、偏差和前进之路

训练像 DINOv3 这样的视觉基础模型，规模达到 70 亿参数，需要大量的计算资源。这限制了完全预训练到少数拥有大量资金的组织。提炼降低了推理成本，并允许较小的学生模型部署。然而，它并不能消除原始预训练的成本。因此，大多数研究人员和工程师依赖于公开发布的检查点，而不是从头开始训练这样的模型。

另一个关键挑战是数据集偏差。从网络上收集的大型图像集合通常反映了区域、文化和社会的不平衡。训练在这些数据集上的模型可能会继承或甚至加剧这些偏差。即使使用冻结的骨干网络，微调也可能重新引入差异。因此，数据集审核、公平性检查和仔细的评估在部署之前是必要的。许可和发布实践也引发了道德问题。开放模型应提供明确的使用指南、安全说明和法律风险评估，以支持负责任的采用。

展望未来，几个趋势将塑造 DINOv3 和类似系统的作用。首先，连接视觉和语言的多模态系统将依赖于强大的编码器，如 DINOv3 ，以实现更好的图像-文本对齐。其次，边缘计算和机器人将从较小的提炼变体中受益，使得在有限的硬件上实现高级感知成为可能。第三，解释性人工智能将变得更加重要，因为团队正在努力使密集特征更容易解释，以进行审计、调试和高风险领域的信任。在此基础上，持续的研究将继续提高对分布转移和对抗性输入的鲁棒性，确保在现实世界环境中可靠使用。

结论

由于其冻结特征转移良好，因此它支持诸如分类、分割、检测和深度估计等任务，仅需少量额外的训练。同时，提炼的变体使得该模型足够灵活，可以在轻量级设备和强大的服务器上运行。这些优势在各个领域（包括医疗保健、地理空间监测、机器人和零售）具有实际应用。

然而，预训练所需的巨大计算资源和数据集偏差的风险仍然是持续的挑战。因此，未来进展取决于将 DINOv3 的能力与仔细的验证、公平性监控和负责任的部署相结合，确保在研究和行业中可靠使用。

Dr. Assad Abbas

阿萨德·阿巴斯博士（Dr. Assad Abbas）是巴基斯坦伊斯兰堡COMSATS大学的终身副教授，他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文，并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。