人工智能

SEER：自监督计算机视觉模型的突破？

更新 on 2023 年 7 月 31 日

库纳尔·凯杰里瓦尔

在过去的十年中，人工智能（AI）和机器学习（ML）取得了巨大的进步。今天，他们比以往任何时候都更加准确、高效和有能力。现代人工智能和机器学习模型可以无缝、准确地识别图像或视频文件中的对象。此外，它们还可以生成与人类智能相当的文本和语音。

当今的人工智能和机器学习模型严重依赖于标记数据集的训练，这些数据集教它们如何解释文本块、识别图像或视频帧中的对象以及其他一些任务。

尽管人工智能和机器学习模型具有强大的功能，但它并不完美，科学家们正在努力构建能够从所提供的信息中学习的模型，而不必依赖于标记或注释的数据。这种方法被称为 自我监督学习，它是构建具有“常识”或解决超出当今人工智能模型能力的问题的背景知识。

自监督学习已经在自然语言处理领域取得了成果，它使开发人员能够训练能够处理大量数据的大型模型，并在以下领域取得了多项突破： 自然语言推理、机器翻译和问答。

Facebook AI 的 SEER 模型旨在最大化计算机视觉领域自我监督学习的能力。 SEER 或 自我监督 是一种自我监督的计算机视觉学习模型，拥有超过十亿个参数，它甚至能够从互联网上找到的一组随机图像中找到模式或学习，而没有适当的注释或标签。

计算机视觉中自我监督学习的需求

数据注释或数据标记是机器学习和人工智能模型开发中的预处理阶段。数据注释过程识别图像或视频帧等原始数据，然后在数据上添加标签以指定模型数据的上下文。这些标签使模型能够对数据做出准确的预测。

开发人员在处理计算机视觉模型时面临的最大障碍和挑战之一是寻找高质量的注释数据。计算机视觉如今的模型依靠这些带标签或注释的数据集来学习允许它们识别图像中的对象的模式。

数据注释及其在计算机视觉模型中的使用带来了以下挑战：

管理一致的数据集质量

开发人员面临的最大障碍可能是持续访问高质量数据集，因为具有正确标签和清晰图像的高质量数据集可以带来更好的学习和准确的模型。然而，持续访问高质量数据集也有其自身的挑战。

劳动力管理

数据标记通常会带来劳动力管理问题，主要是因为需要大量工人处理和标记大量非结构化和未标记数据，同时确保质量。因此，开发人员在数据标签方面必须在质量和数量之间取得平衡。

财务限制

最大的障碍可能是数据标记过程所伴随的财务限制，并且大多数时候，数据标记成本占整个项目成本的很大一部分。

如您所见，数据注释是开发高级计算机视觉模型的主要障碍，尤其是在开发处理大量训练数据的复杂模型时。这就是计算机视觉行业需要自我监督学习来开发复杂且先进的计算机视觉模型的原因，这些模型能够处理超出当前模型范围的任务。

话虽如此，已经有很多自监督学习模型在受控环境中表现良好，主要是在 ImageNet 数据集上。尽管这些模型可能做得很好，但它们并不满足计算机视觉中自我监督学习的首要条件： 从任何无界数据集或随机图像中学习，而不仅仅是从明确定义的数据集中学习。 如果实施得当，自我监督学习可以帮助开发更准确、更强大的计算机视觉模型，并且具有成本效益和可行性。

SEER 或自监督模型：简介

AI 和 ML 行业的最新趋势表明，半监督、弱监督和自监督学习等模型预训练方法可以显着提高大多数下游任务深度学习模型的性能。

有两个关键因素对这些深度学习模型性能的提升做出了巨大贡献。

海量数据集预训练

对海量数据集进行预训练通常会带来更好的准确性和性能，因为它将模型暴露给各种数据。大数据集使模型能够更好地理解数据中的模式，最终使模型在现实生活场景中表现更好。

一些性能最佳的模型（例如 GPT-3 模型和 Wav2vec 2.0 模型）是在海量数据集上进行训练的。 GPT-3语言模型使用预训练数据集超过 300亿字 而用于语音识别的 Wav2vec 2.0 模型使用的数据集超过 53小时的音频数据.

大容量机型

具有较多参数的模型通常会产生准确的结果，因为较多的参数允许模型仅关注数据中必要的对象，而不是关注数据中的干扰或噪声。

过去，开发人员曾尝试在未标记或未整理的数据上训练自监督学习模型，但数据集较小，仅包含几百万张图像。 但是，当自我监督学习模型在大量未标记和未整理的数据上进行训练时，它们能否产生高精度呢？ 这正是 SEER 模型旨在回答的问题。

- SEER 模型是一种深度学习框架，旨在注册互联网上可用的图像，独立于策划或标记的数据集。 SEER 框架允许开发人员在没有监督的情况下在随机数据上训练大型复杂的 ML 模型，即模型分析数据并自行学习模式或信息，而无需任何额外的手动输入。

SEER 模型的最终目标是帮助制定预训练过程策略，使用未经整理的数据在迁移学习中提供最先进的性能。此外， SEER 模型还旨在创建能够以自我监督的方式从永无休止的数据流中持续学习的系统.

SEER 框架使用从互联网提取的数十亿张随机且无约束的图像来训练高容量模型。在这些图像上训练的模型不依赖图像元数据或注释来训练模型或过滤数据。近年来，自监督学习显示出巨大的潜力，因为与下游任务的监督预训练模型相比，未经整理的数据的训练模型产生了更好的结果。

SEER 框架和 RegNet：有什么联系？

为了分析 SEER 模型，它重点关注具有超过 700 亿个参数的 RegNet 架构，这些参数符合 SEER 对未经整理的数据进行自我监督学习的目标，主要原因有两个：

它们在性能和效率之间提供了完美的平衡。
它们非常灵活，可用于缩放许多参数。

SEER 框架：不同领域的先前工作

SEER 框架旨在探索使用自我监督学习在未策划或未标记的数据集中训练大型模型架构的局限性，并且该模型从该领域的先前工作中寻求灵感。

视觉特征的无监督预训练

自监督学习在计算机视觉中的应用已经有一段时间了，方法是使用 自动编码器、实例级区分或聚类。近年来，使用对比学习的方法表明，使用无监督学习进行下游任务的预训练模型可以比监督学习方法表现得更好。

视觉特征无监督学习的主要收获是 只要您在过滤数据上进行训练，就不需要监督标签。 SEER 模型旨在探索当大型模型架构在大量未整理、未标记和随机图像上进行训练时，模型是否能够学习准确的表示。

大规模学习视觉特征

先前的模型受益于在大型标记数据集上对模型进行预训练，并在数百万张过滤图像上使用弱监督学习、监督学习和半监督学习。此外，模型分析还表明，与从头开始训练模型相比，在数十亿张图像上预训练模型通常会产生更好的准确性。

此外，大规模训练模型通常依赖于数据过滤步骤以使图像与目标概念产生共鸣。这些过滤步骤要么利用预先训练的分类器的预测，要么使用通常是系统网络的主题标签。 影像网 类。 SEER 模型的工作方式有所不同，因为它的目标是学习任何随机图像中的特征，因此 SEER 模型的训练数据不是为了匹配一组预定义的特征或概念而设计的。

图像识别的扩展架构

模型通常受益于对大型架构进行更高质量的视觉特征训练。当对大型数据集进行预训练很重要时，训练大型架构至关重要，因为容量有限的模型通常会拟合不足。当预训练与对比学习一起完成时，它甚至更加重要，因为在这种情况下，模型必须学习如何区分数据集实例，以便它可以学习更好的视觉表示。

然而，对于图像识别，缩放架构涉及的不仅仅是改变模型的深度和宽度，并且要构建具有更高容量的缩放有效模型，需要投入大量文献。 SEER 模型显示了使用 RegNets 用于大规模部署自我监督学习的模型系列。

SEER：方法和组件用途

SEER 框架使用各种方法和组件来预训练模型以学习视觉表示。 SEER 框架使用的一些主要方法和组件是： RegNet 和 SwAV。让我们简单讨论一下 SEER 框架中使用的方法和组件。

使用 SwAV 进行自我监督预训练

SEER 框架使用 SwAV（一种在线自我监督学习方法）进行了预训练。 SwAV 是一个 用于训练无注释的卷积网络框架的在线聚类方法。 SwAV 框架的工作原理是训练嵌入，在同一图像的不同视图之间一致地生成聚类分配。然后，系统通过挖掘对数据增强不变的集群来学习语义表示。

在实践中，SwAV 框架通过利用独立的聚类分配来比较图像不同视图的特征。如果这些分配捕获相同或相似的特征，则可以使用另一视图的特征来预测一个图像的分配。

SEER 模型考虑了一组 K 集群，并且每个集群都与一个可学习的相关联 d维向量 vk. 对于一批 B 图像，每张图像 i 转换成两个不同的视图： xi1 和xi2. 然后在卷积网络的帮助下对视图进行特征化，并产生两组特征：（f11， …， FB2）和（f12， … ， FB2）。然后，在 最佳运输 求解器。

最佳传输求解器确保特征在集群中均匀分配，并且有助于避免所有表示都映射到单个原型的琐碎解决方案。然后将生成的分配在两个集合之间交换：簇分配 yi1 视图 xi1 需要使用特征表示 f 进行预测i2 视图 xi2，反之亦然。

然后训练原型权重和卷积网络，以最小化所有示例的损失。集群预测损失 l 本质上是 f 的点积的 softmax 与聚类分配之间的交叉熵。

RegNetY：规模高效的模型系列

扩展模型容量和数据需要架构不仅在内存方面高效，而且在运行时方面也高效，RegNets 框架是专门为此目的设计的一系列模型。

RegNet 系列架构由具有 4 个阶段的卷积网络设计空间定义，其中每个阶段包含一系列相同的块，同时确保其块的结构保持固定，主要是剩余瓶颈块。

SEER框架重点关注RegNetY架构，并添加了一个 挤压和激励 到标准 RegNets 架构，以试图提高其性能。此外，RegNetY 模型有 5 个参数，有助于搜索具有固定数量的 FLOP 且消耗合理资源的良好实例。 SEER 模型旨在通过直接在其自监督预训练任务上实施 RegNetY 架构来提高其结果。

RegNetY 256GF 架构： SEER模型主要关注RegNetY家族中的RegNetY 256GF架构，其参数使用RegNets架构的缩放规则。参数说明如下。

RegNetY 256GF 架构有 4 个阶段，阶段宽度（528、1056、2904、7392）和阶段深度（2,7,17,1、696、512、100），增加了超过 32 亿个参数。在 6125 V8,704 8,704GB NVIDIA GPU 上进行训练时，对于 512 个图像的批量大小，每次迭代大约需要 114,890 毫秒。在包含超过 8 亿张图像的数据集上训练模型，在超过 XNUMX 个 GPU 上批量大小为 XNUMX 张图像，需要 XNUMX 次迭代，训练持续约 XNUMX 天。

大规模优化和培训

SEER 模型提出了一些调整来训练自监督方法，以大规模应用和适应这些方法。这些方法是：

学习率时间表。
减少每个 GPU 的内存消耗。
优化训练速度。
大规模预训练数据。

让我们简要讨论它们。

学习率表

SEER 模型探索了使用两种学习率计划的可能性： 余弦波学习率表， 和 固定学习率计划.

余弦波学习计划用于公平地比较不同的模型，因为它适应更新的数量。然而，余弦波学习率调度不适应大规模训练，主要是因为它根据训练时看到的图像对图像进行不同的权重，并且它还使用完整更新进行调度。

固定学习率调度是保持学习率固定，直到loss不再减少，然后将学习率除以2。分析表明，固定学习率调度效果更好，因为它有让训练更加灵活的空间。然而，由于该模型仅训练 1 亿张图像，因此它使用余弦波学习率来训练其最大的模型，即 RegNet 256GF.

减少每个 GPU 的内存消耗

该模型还旨在通过使用混合精度和分级检查点来减少训练期间所需的 GPU 数量。该模型利用 NVIDIA Apex 库的 O1 优化级别来执行卷积等运算，并以 16 位浮点精度执行 GEMM。该模型还使用 PyTorch 的梯度检查点实现，以计算机换取内存。

此外，该模型还丢弃在前向传递期间进行的任何中间激活，并且在后向传递期间，它重新计算这些激活。

优化训练速度

使用混合精度来优化内存使用还有额外的好处，因为与 FP16 相比，加速器可以通过提高吞吐量来利用 FP32 尺寸减小的优势。它有助于通过改善内存带宽瓶颈来加快训练周期。

SEER 模型还同步 批归一化 跨 GPU 分层以创建进程组，而不是使用通常需要更多时间的全局同步。最后，SEER 模型中使用的数据加载器会预取更多的训练批次，与传统模型相比，这会导致更高的数据量吞吐量 PyTorch 的数据加载器。

大规模预训练数据

SEER 模型在预训练期间使用了超过 XNUMX 亿张图像，并且它考虑了一个直接从互联网和 Instagram 采样随机图像的数据加载器。由于 SEER 模型在野外和在线训练这些图像，因此它不会对这些图像进行任何预处理，也不会使用重复数据删除或主题标签过滤等过程来管理它们。

值得注意的是，数据集不是静态的，数据集中的图像每三个月刷新一次。但是，刷新数据集不会影响模型的性能。

SEER模型实施

SEER 模型使用 SwAV 对每个图像使用六种裁剪来预训练 RegNetY 256GF，每个图像的分辨率为 2×224 + 4×96。在预训练阶段，模型使用 3 层 MLP 或多层感知器，投影头尺寸为 10444×8192、8192×8192 和 8192×256。

SEER 模型没有在头部使用 BatchNorm 层，而是使用 16 个带有温度的原型 t 设置为 0.1。这 辛克霍恩 正则化参数设置为 0.05，并执行 10 次算法迭代。该模型进一步在 GPU 上同步 BatchNorm 统计数据，并使用 suze 64 创建大量进程组进行同步。

此外，该模型使用 LARS 或逐层自适应速率缩放优化器，权重衰减为 10-5、激活检查点和 O1 混合精度优化。然后，使用分布在 8192 个 NVIDIA GPU 上的 512 个随机图像的批量大小，通过随机梯度下降来训练模型，从而每个 GPU 生成 16 个图像。

对于前 0.15 次训练更新，学习率从 9.6 线性上升到 8。预热后，模型遵循余弦学习率计划，衰减至最终值 0.0096。总体而言，SEER 模型经过 122 万次迭代训练了超过 XNUMX 亿张图像。

SEER 框架：结果

在各种基准和下游任务上研究和分析了自监督预训练方法生成的特征的质量。该模型还考虑了低镜头设置，该设置为下游任务授予对图像及其标签的有限访问权限。

微调大型预训练模型

它通过将随机数据转移到 ImageNet 基准进行对象分类来测量模型的质量。微调大型预训练模型的结果取决于以下参数。

实验设置

该模型预训练了 6 个具有不同容量的 RegNet 架构，即 RegNetY- {8,16,32,64,128,256}GF, 使用 SwAV 处理超过 1 亿张随机和公开的 Instagram 图片。然后对模型进行微调，以便在 ImageNet 上进行图像分类，该网络使用超过 1.28 万张带有适当标签的标准训练图像，并具有包含超过 50 万张图像进行评估的标准验证集。

然后，该模型应用与 SwAV 相同的数据增强技术，并使用 SGD 优化器或随机梯度下降对 35 个时期进行微调，批量大小为 256，学习率为 0.0125，在 10 个时期后降低了 30 倍，动量为 0.9，重量衰减为 10-4。该模型使用 1×224 的中心数据集报告验证数据集的 top-224 准确性。

与其他自监督预训练方法的比较

下表中，RegNetY-256GF 中最大的预训练模型与使用自监督学习方法的现有预训练模型进行了比较。

正如您所看到的，SEER 模型在 ImageNet 上返回了 1% 的 top-84.2 准确率，比现有最好的预训练模型 SimCLRv2 高出 1%。

此外，下图将SEER框架与不同容量的模型进行了比较。正如您所看到的，无论模型容量如何，将 RegNet 框架与 SwAV 相结合都可以在预训练期间产生准确的结果。

SEER 模型是在未经整理的随机图像上进行预训练的，并且具有带有 SwAV 自监督学习方法的 RegNet 架构。将 SEER 模型与 SimCLRv2 和具有不同网络架构的 ViT 模型进行比较。最后，模型在 ImageNet 数据集上进行微调，并报告 top-1 准确率。

模型容量的影响

模型容量对预训练的模型性能有显着影响，下图与从头训练时的影响进行了比较。

可以清楚地看到，预训练模型的 top-1 准确率得分高于从头训练的模型，并且随着参数数量的增加，差异不断变大。同样明显的是，虽然模型容量对预训练模型和从头训练模型都有好处，但在处理大量参数时，对预训练模型的影响更大。

在 ImageNet 数据集上训练时，从头开始训练模型可能会过度拟合，一个可能的原因是数据集规模较小。

低射击学习

Low-shot学习是指在low-shot设置中评估SEER模型的性能，即在执行下游任务时仅使用总数据的一小部分。

实验设置

SEER 框架使用两个数据集进行低样本学习，即 地点205 和 影像网。此外，该模型假设在迁移学习期间对图像及其标签的数据集的访问受到限制。这种受限访问设置不同于用于自监督学习的默认设置，在自监督学习中，模型可以访问整个数据集，并且仅限制对图像标签的访问。

Place205 数据集的结果

下图显示了预训练模型对 Place205 数据集不同部分的影响。

所使用的方法与在相同 RegNetY-128 GF 架构的监督下在 ImageNet 数据集上预训练模型进行比较。比较结果令人惊讶，因为可以观察到，无论 Places2.5 数据集上可用于微调的训练数据部分如何，top-1 准确率都有约 205% 的稳定增益。

考虑到训练数据性质的差异，可以解释监督和自监督预训练过程之间观察到的差异，因为模型从野外随机图像中学习的特征可能更适合对场景进行分类。此外，底层概念的非均匀分布可能被证明是在像 Places205 这样的不平衡数据集上进行预训练的优势。

ImageNet 上的结果

上表将 SEER 模型的方法与自监督预训练方法以及低样本学习的半监督方法进行了比较。值得注意的是，所有这些方法都使用 ImageNet 数据集中的全部 1.2 万张图像进行预训练，并且它们仅限制访问标签。另一方面，SEER 模型中使用的方法使其只能看到数据集中 1% 到 10% 的图像。

由于网络在预训练期间看到了来自同一分布的更多图像，因此这些方法非常受益。但令人印象深刻的是，尽管 SEER 模型只能看到 ImageNet 数据集的 1% 到 10%，但它仍然能够实现约 1% 的 top-80 准确度分数，仅低于所讨论方法的准确度分数在上表中。

模型容量的影响

下图讨论了模型容量对低样本学习的影响：在 ImageNet 数据集的 1%、10% 和 100% 时。

可以看出，增加模型容量可以提高模型的准确性分数，因为它减少了对数据集中图像和标签的访问。

转移到其他基准

为了进一步评估 SEER 模型并分析其性能，将预训练的特征转移到其他下游任务。

图像分类的线性评估

上表比较了 SEER 预训练的 RegNetY-256GF 和 RegNetY128-GF 在 ImageNet 数据集上预训练的特征，具有相同的架构（有监督和无监督）。为了分析特征的质量，模型冻结权重，并在特征之上使用线性分类器，并使用下游任务的训练集。该过程考虑了以下基准：Open-Images(OpIm)、iNaturalist(iNat)、Places205(Places) 和 Pascal VOC(VOC)。

检测和分割

下图比较了检测和分割方面的预训练特征，并对它们进行了评估。

SEER 框架以预训练的 RegNetY-64GF 和 RegNetY-128GF 作为构建块，在 COCO 基准上训练 Mask-RCNN 模型。对于架构和下游任务，SEER 的自监督预训练方法的性能优于监督训练： 1.5 至 2 个 AP 点.

与弱监督预训练的比较

互联网上提供的大多数图像通常都有元描述或替代文本、描述或地理位置，可以在预训练期间提供影响力。先前的工作表明，预测一组精选或标记的主题标签可以提高预测结果视觉特征的质量。然而，这种方法需要过滤图像，并且只有在存在文本元数据时才最有效。

下图比较了在随机图像上训练的 ResNetXt101-32dx8d 架构的预训练与在带有主题标签和元数据的标记图像上训练的相同架构的预训练，并报告了两者的 top-1 准确性。

可以看出，虽然SEER框架在预训练时没有使用元数据，但其准确率与使用元数据进行预训练的模型相当。

消融研究

进行消融研究是为了分析特定组件对模型整体性能的影响。消融研究是通过从模型中完全删除组件来完成的，并了解模型的性能。它为开发人员提供了该特定组件对模型性能影响的简要概述。

模型架构的影响

模型架构对模型的性能有重大影响，尤其是当模型缩放或修改预训练数据的规格时。

下图讨论了通过线性评估 ImageNet 数据集，改变架构如何影响预训练特征的质量。在这种情况下，可以直接探测预训练的特征，因为评估不利于在 ImageNet 数据集上从头开始训练时返回高精度的模型。

可以看出，对于 ResNeXts 和 ResNet 架构，从倒数第二层获得的特征在当前设置下效果更好。另一方面，RegNet 架构优于其他架构。

总的来说，可以得出结论，增加模型容量对特征质量有积极影响，并且模型性能有对数增益。

缩放预训练数据

在更大的数据集上训练模型可以提高模型学习的视觉特征的整体质量有两个主要原因：更独特的图像和更多的参数。让我们简单看看这些原因如何影响模型性能。

增加独特图像的数量

上图比较了两种不同的架构：RegNet8 和 RegNet16，它们具有相同数量的参数，但它们在不同数量的唯一图像上进行训练。 SEER 框架训练模型进行更新，对应于 1 亿张图像的 32 epoch 或 32 个独特图像的 XNUMX epoch，并采用单半波余弦学习率。

可以看出，为了使模型表现良好，理想情况下输入模型的唯一图像的数量应该更高。在这种情况下，当模型输入的唯一图像大于 ImageNet 数据集中存在的图像时，模型会表现良好。

现实世界中的自监督计算机视觉

到目前为止，我们已经讨论了自监督学习和计算机视觉 SEER 模型在理论上是如何工作的。现在，让我们看看自监督计算机视觉在现实世界场景中如何工作，以及为什么 SEER 是自监督计算机视觉的未来。

SEER 模型可与自然语言处理行业中所做的工作相媲美，其中最先进的高端模型在模型预训练期间使用数万亿个数据集和参数以及数万亿个文本单词。下游任务的性能通常随着用于训练模型的输入数据数量的增加而提高，计算机视觉任务也是如此。

但是，将自监督学习技术用于自然语言处理不同于将自监督学习用于计算机视觉。这是因为在处理文本时，语义概念通常被分解为离散的单词，但在处理图像时，模型必须决定哪个像素属于哪个概念。

此外，不同的图像具有不同的视图，即使多个图像可能具有相同的对象，但概念可能会有很大差异。例如，考虑一个包含猫图像的数据集。虽然主要对象猫在所有图像中都很常见，但概念可能会有很大差异，因为猫可能在图像中静止不动，而在下一个图像中可能正在玩球，依此类推。由于图像通常具有不同的概念，因此模型必须查看大量图像以掌握同一概念的差异。

成功缩放模型以使其有效地处理高维和复杂的图像数据需要两个组件：

足够大的卷积神经网络或 CNN，可以从非常大的图像数据集中捕获和学习视觉概念。
一种可以从大量图像中学习模式的算法，无需任何标签、注释或元数据。

SEER模型旨在将上述组件应用到计算机视觉领域。 SEER 模型旨在利用 SwAV 所取得的进步，SwAV 是一种自我监督学习框架，它使用在线聚类对具有并行视觉概念的图像进行分组或配对，并利用这些相似性更好地识别模式。

借助 SwAV 架构，SEER 模型能够更加有效地利用计算机视觉中的自监督学习，并将训练时间减少多达 6 倍。

此外，大规模训练模型（在这种规模下，超过 1 亿张图像）需要一个模型架构，该架构不仅在运行时和内存方面高效，而且在准确性方面也高效。这就是 RegNet 模型发挥作用的地方，因为这些 RegNet 模型是 ConvNet 模型，可以扩展数万亿个参数，并且可以根据需要进行优化以遵守内存限制和运行时法规。

结论：自我监督的未来

一段时间以来，自监督学习一直是人工智能和机器学习行业的一个主要话题，因为它允许人工智能模型直接从互联网上随机提供的大量数据中学习信息，而不是依赖于精心策划和标记的数据。唯一目的是训练人工智能模型的数据集。

自监督学习是人工智能和机器学习未来的一个重要概念，因为它有潜力让开发人员创建能够很好地适应现实世界场景的人工智能模型，并且具有多个用例而不是具有特定目的，而 SEER 是这是计算机视觉行业实施自我监督学习的里程碑。

SEER模型迈出了计算机视觉行业转型的第一步，减少了我们对标记数据集的依赖。 SEER 模型旨在消除对数据集进行注释的需要，从而使开发人员能够处理多样化的大量数据。 SEER 的实施对于开发处理图像或元数据有限的领域（例如医疗行业）的模型的开发人员特别有帮助。

此外，消除人工注释将使开发人员能够更快地开发和部署模型，这将进一步使他们能够更快、更准确地响应快速变化的情况。

相关话题：计算机视觉脸书人工智能 SEER 先知框架自我监督学习

下一步

Meta 计划将人工智能驱动的“角色”集成到其服务中

不要错过

Stability AI 推出 Stable Diffusion XL 1.0

库纳尔·凯杰里瓦尔

“职业工程师，心灵作家”。 Kunal 是一位技术作家，对人工智能和机器学习有着深厚的热爱和理解，致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。

联合人工智能

SEER：自监督计算机视觉模型的突破？

计算机视觉中自我监督学习的需求

管理一致的数据集质量

劳动力管理

财务限制

SEER 或自监督模型：简介

海量数据集预训练

大容量机型

SEER 框架和 RegNet：有什么联系？

SEER 框架：不同领域的先前工作

视觉特征的无监督预训练

大规模学习视觉特征

图像识别的扩展架构

SEER：方法和组件用途

使用 SwAV 进行自我监督预训练

RegNetY：规模高效的模型系列

RegNetY 256GF 架构： SEER模型主要关注RegNetY家族中的RegNetY 256GF架构，其参数使用RegNets架构的缩放规则。 参数说明如下。

大规模优化和培训

学习率表

减少每个 GPU 的内存消耗

优化训练速度

大规模预训练数据

SEER模型实施

SEER 框架：结果

微调大型预训练模型

实验设置

与其他自监督预训练方法的比较

模型容量的影响

低射击学习

实验设置

Place205 数据集的结果

ImageNet 上的结果

模型容量的影响

转移到其他基准

图像分类的线性评估

检测和分割

与弱监督预训练的比较

消融研究

模型架构的影响

缩放预训练数据

增加独特图像的数量

更多参数

现实世界中的自监督计算机视觉

结论：自我监督的未来

你可能会喜欢

RegNetY 256GF 架构： SEER模型主要关注RegNetY家族中的RegNetY 256GF架构，其参数使用RegNets架构的缩放规则。参数说明如下。