人工智能

DNOv3与计算机视觉的未来：大规模自监督学习

发布时间 2025 年 10 月 20 日

阿萨德·阿巴斯博士

在许多情况下，图像标注是一个成本高昂且耗时的过程。计算机视觉项目。它通常会引入偏差，并降低扩展大型数据集的能力。因此，研究人员一直在寻找无需大量人工标注的方法。为了应对这一挑战，Meta AI 应运而生。恐龙v3 预计在2025年实现。它是一个自监督视觉基础模型，可以直接从……学习。 1.7十亿未标记的图像。

该模型使用一个包含7亿参数的庞大教师网络进行训练。通过这种设置，它能够从单个冻结的主干网络生成高质量的全局密集特征。因此，该模型既能捕捉图像中的精细细节，又能捕捉更广泛的上下文信息。

此外，DINOv3 在众多视觉任务中均表现出色，无需耗费大量资源进行微调。这意味着它不仅技术强大，而且对于面临资源和时间限制的研究人员、工程师和行业领导者来说也十分实用。

由此可见，DINOv3代表了计算机视觉领域的一项重大进步。它融合了大规模学习、高效性和广泛的适用性，使其成为一个基础模型，在学术研究和工业应用方面都具有巨大的潜力。

视觉领域自监督学习的演进

传统计算机视觉长期以来依赖于监督学习这种方法需要大量经过人工标注的数据集。该过程成本高昂、耗时，并且在标注资源稀缺或成本高昂的领域（例如医学影像）往往不切实际。因此，自监督学习（SSL）这已成为一种关键方法。它允许模型通过寻找图像中隐藏的模式，直接从原始的、未标记的数据中学习有用的视觉特征。

早期的自监督学习方法，例如动量对比法（MoCo）和自举潜在变量法（BYOL），证明了模型无需标注数据即可学习强大的视觉特征。这些方法证明了自监督学习的价值，并为更高级的方法铺平了道路。

2021年，Meta推出了DINO。这是一个意义重大的进步，因为它仅使用自监督训练就取得了具有竞争力的性能。随后，DINOv2通过扩展训练规模和增强学习特征在不同任务上的迁移能力，进一步推进了这一进展。

这些改进为 2025 年发布的 DINOv3 奠定了基础。DINOv3 采用了规模更大的模型和海量数据集，从而能够建立新的性能基准。

到2025年，SSL不再是可选项，而成为一种必要方法，因为它无需人工标注即可在数十亿张图像上进行训练。这使得构建能够泛化到多种任务的基础模型成为可能。这些预训练的骨干网络提供了灵活的特征，可以通过添加小型特定任务的头部进行调整。这种方法降低了成本，并加快了计算机视觉系统的开发速度。

此外，SSL还能缩短研究周期。团队可以重用预训练模型进行快速测试和评估，从而有助于快速原型开发。这种大规模、高标签效率的学习方式正在改变计算机视觉系统在众多行业的构建和应用方式。

DINOv3 如何重新定义自监督计算机视觉

DINOv3 是 Meta AI 最先进的自监督视觉基础模型，代表了计算机视觉大规模训练的新阶段。与之前的版本不同，它结合了拥有 7 亿参数的庞大教师网络和 1.7 亿张未标注图像的训练数据。如此庞大的规模使得模型能够学习到更强大、更具适应性的特征。

DINOv3 的一项显著改进是密集特征学习的稳定性。之前的模型，例如 DINOv2，在长时间训练过程中经常会丢失图像块级特征的细节，导致分割和深度估计等任务的可靠性降低。DINOv3 引入了一种名为 Gram Anchoring 的方法来解决这个问题。该方法在训练过程中保持图像块之间相似性结构的一致性，从而防止特征崩溃并保留精细细节。

另一项技术改进是使用高分辨率图像裁剪区域。通过处理更大的图像区域，模型可以更精确地捕捉局部结构。这会产生更丰富、更细致的特征图。此类特征图能够提升在像素级精度至关重要的应用中的性能，例如目标检测或语义分割。

该模型还受益于旋转位置嵌入（RoPE）。这些嵌入结合分辨率和裁剪策略，使模型能够处理不同尺寸和形状的图像。这使得DINOv3在实际应用场景中更加稳定，因为实际应用中输入图像的质量和格式往往各不相同。

为了支持不同的部署需求，Meta AI 将 DNOv3 精简为一系列更小的模型。这些模型包括以下几种：视觉变压器（ViT）尺寸和 ConvNeXt 版本多样。较小的型号更适合边缘设备，而较大的型号更适合研究或服务器用途。这种灵活性使得 DNOv3 能够在各种环境中应用，而不会造成明显的性能损失。

结果证实了该方法的有效性。DINOv3 在超过 60 个基准测试中均取得了优异成绩。它在分类、分割、深度估计甚至 3D 任务中都表现出色。其中许多结果是在骨干网络保持不变的情况下获得的，这意味着无需进行额外的微调。

性能和基准优势

DINOv3 已成为可靠的视觉基础模型，并在众多计算机视觉任务中取得了优异的成绩。其一大优势在于，其冻结的骨干网络已经捕捉到了丰富的特征。因此，大多数应用只需要线性探针或光解码器即可。这使得迁移过程比完全微调更快、成本更低、更便捷。

On ImageNet-1K 在特征冻结的情况下，DINOv3 分类模型的 top-1 准确率达到了约 84.5%。这高于许多早期的自监督模型，也优于一些监督基线模型。在 ADE20K 数据集上进行语义分割时，使用 ViT-L 骨干网络，其 mIoU 值约为 63.0。这些结果表明，该模型无需针对特定任务进行训练即可保留精细的空间信息。

在 COCO 数据集上的目标检测中，DINOv3 使用冻结特征取得了约 66.1 的 mAP 值。这表明其密集表示在识别复杂场景中的目标方面具有优势。该模型在深度估计方面也表现出色，例如在 NYU-Depth V2 数据集上，其预测精度高于许多早期的监督和自监督方法。

除此之外，DINOv3 在细粒度分类和非分布测试中也表现出色。在许多情况下，它的性能优于早期的 SSL 模型和传统的监督训练方法。

实验过程中，迁移成本低是一大优势。大多数任务只需少量额外训练即可完成。这减少了计算量，缩短了部署时间。

Meta AI 和其他研究人员在 60 多个基准测试中验证了 DINOv3 的性能。这些测试涵盖分类、分割、检测、深度估计、检索和几何匹配等任务。在如此广泛的评估中，该模型始终能够取得最先进或接近最先进的结果。这证实了其作为一款多功能且可靠的视觉编码器的卓越性能。

DINOv3 如何变革计算机视觉工作流程

在以往的工作流程中，团队需要训练许多针对特定任务的模型。每个任务都需要自己的数据集和调优。这增加了成本和维护工作量。

借助DINOv3，团队现在可以采用统一的主干架构。同一个冻结模型支持不同的特定任务头部。这减少了基础模型的数量，简化了集成流程，并缩短了视觉功能的发布周期。

对于开发者而言，DINOv3 提供了丰富的实用资源。Meta AI 在 GitHub 上提供了检查点、训练脚本和模型卡片。Hugging Face 也托管了精简版模型及其示例 notebook。这些资源使得在实际项目中试验和应用模型变得更加容易。

开发者使用这些资源的常见方式是进行特征提取。冻结的DINOv3模型提供嵌入向量，可作为下游任务的输入。开发者随后可以添加线性头或小型适配器来满足特定需求。当需要进一步调整时，参数高效的方法（例如LoRa或轻量级适配器）可以在不产生显著计算开销的情况下实现微调。

精简后的版本在这一工作流程中发挥着至关重要的作用。较小的版本可在容量有限的设备上运行，而较大的版本则适用于研究实验室和生产服务器。这种多样化的选择使团队能够灵活地快速启动测试，并根据需要扩展到更苛刻的配置。

通过结合可重用的检查点、简单的训练头和可扩展的模型规模，DINOv3 正在重塑计算机视觉工作流程。它降低了成本，缩短了训练周期，并使基础模型在各行各业的应用更加实用。

DNOv3 的领域特定应用

DNOv3 可能在以下几个领域得到应用：

医学影像

医疗数据通常缺乏清晰的标签，而专家标注既耗时又费钱。DINOv3 可以通过生成密集特征来改善这一问题，这些特征可以很好地迁移到病理学和放射学任务中。例如，一项研究我们使用低秩适配器对DINOv3进行了微调，用于有丝分裂图像分类，在可训练参数数量极少的情况下，实现了0.8871的平衡准确率。这表明，即使标注数据有限，也能获得高质量的结果。更简单的模型也可用于异常检测，从而减少对大型标注临床数据集的需求。然而，临床应用仍需严格的验证。

卫星和地理空间图像

Meta 使用包含约 493 亿张卫星作物图像的大型语料库训练了 DINOv3 的变体模型。这些模型改进了冠层高度估计和分割任务。在某些情况下，精简后的卫星 ViT-L 模型甚至达到了或超过了完整的 7B 教师模型的性能。这证实了特定领域自监督训练的价值。类似地，研究人员可以使用领域数据预训练 DINOv3 模型，或者微调精简后的变体模型，以降低遥感标注成本。

自动驾驶汽车和机器人

DINOv3 的特性增强了车辆和机器人的感知模块。它们提高了在不同天气和光照条件下的检测和匹配能力。研究表明，DINOv3 骨干网支持视觉运动策略和扩散控制器，从而提高了采样效率，并提升了机器人操作任务的成功率。机器人团队可以将 DINOv3 应用于感知，但对于安全关键型系统，应将其与领域数据结合使用，并进行精细的调优。

零售和物流

在商业环境中，DINOv3 可支持质量控制和可视化库存系统。它能够适应不同的产品线和摄像头配置，从而减少了针对每种产品的重复培训需求。这使其非常适用于视觉环境多样的快速发展行业。

挑战、偏见与未来之路

训练诸如DINOv3这样拥有7亿参数规模的视觉基础模型需要大量的计算资源。这使得只有少数资金雄厚的机构才能进行完整的预训练。模型蒸馏可以降低推理成本，并允许部署规模更小的学生模型。然而，它并不能消除预训练的原始成本。因此，大多数研究人员和工程师依赖于公开发布的检查点，而不是从头开始训练此类模型。

另一个关键挑战是数据集偏差。从网络收集的大量图像数据集往往反映出地域、文化和社会方面的不平衡。基于这些数据集训练的模型可能会继承甚至加剧这些偏差。即使使用冻结的骨干数据集，微调操作也可能重新引入群体间的差异。因此，在部署模型之前，必须进行数据集审计、公平性检查和仔细评估。许可和发布实践也涉及伦理问题。开放模型应提供清晰的使用指南、安全说明和法律风险评估，以支持负责任的应用。

展望未来，几个趋势将影响DINOv3及类似系统的发展方向。首先，连接视觉和语言的多模态系统将依赖于强大的编码器（例如DINOv3）来实现更精确的图像-文本对齐。其次，边缘计算和机器人技术将受益于更小的精简版本，从而在硬件资源有限的情况下实现高级感知。第三，可解释人工智能将变得日益重要，因为团队致力于使密集特征更易于解释，以便在高风险领域进行审计、调试和信任验证。此外，持续的研究将不断提高系统对分布变化和对抗性输入的鲁棒性，确保其在实际环境中可靠运行。