Anderson 视角
合成面孔的“降级”可能有助于提高面部图像识别的准确性

密歇根州立大学的研究人员已经找到了一种方法,让合成面孔暂时离开深度伪造的领域,为图像识别系统的准确性做出贡献——通过帮助它们变得更加准确。
他们开发的新的可控面部合成模块(CFSM)能够以现实世界视频监控录像的风格重新生成面部,而不是依赖于流行的开源数据集中使用的统一高质量图像,这些数据集不能反映真正的闭路电视系统的所有缺陷和局限性,例如面部模糊、低分辨率和传感器噪声——这些因素会影响识别准确性。
CFSM 不是专门用于模拟头部姿势、表情或其他深度伪造系统的目标特征,而是使用 风格转换 生成目标识别系统风格的替代视图。
该系统旨在模仿目标系统的风格域,并根据其分辨率和“怪癖”范围调整其输出。其用例包括不太可能由于成本而升级的旧系统,但由于输出质量差,目前无法为新一代面部识别技术做出贡献。
测试该系统时,研究人员发现它在处理低质量和噪声数据的图像识别系统中取得了显著的改进。

训练面部识别模型以适应目标系统的局限性。 来源:http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
他们还发现了该过程的一个有用副产品——目标数据集现在可以被表征和比较,从而使得为不同闭路电视系统生成定制数据集变得更容易。
此外,该方法可以应用于现有的数据集,执行 事实上的 域适应 ,使其更适合面部识别系统。
该 新论文 的标题为 可控和引导的面部合成用于无约束面部识别 ,部分由美国国家情报局局长办公室(ODNI,在 IARPA )支持,并由密歇根州立大学计算机科学与工程系的四名研究人员撰写。
特色内容
低质量面部识别(LQFR)已经成为过去几年中一个值得注意的研究领域。由于市政和市政当局建造了视频监控系统,以使其具有弹性和长期性(不想定期重新分配资源来解决这个问题),因此许多“遗留”监控网络已经成为技术债务的受害者,从而使其作为机器学习数据源的适应性降低。

历史和最近的视频监控系统中面部分辨率的不同级别。来源:https://arxiv.org/pdf/1805.11519.pdf
幸运的是,这是一项扩散模型和其他基于噪声的模型非常适合解决的任务。近年来许多最流行和最有效的图像合成系统都执行 上采样 作为其管道的一部分,而这对于神经压缩技术(将图像和电影保存为神经数据而不是位图数据的方法)也是绝对必要的。
面部识别的一个挑战是从最小数量的 特征 中获得最大可能的准确性,这些特征可以从低分辨率图像中提取出来。这种约束不仅因为能够以低分辨率识别(或创建)面部很有用,而且还因为模型在本地 GPU 上的可用 VRAM 中正在训练的潜在空间的大小存在技术限制。
在这种意义上,“特征”这个术语很令人困惑,因为这些特征也可以从公园长椅的数据集中获得。在计算机视觉领域,“特征”指的是从图像中获得的 区别特征 —— 任何 图像,无论是教堂的线条、山的布局还是面部特征的排列。
由于计算机视觉算法现在能够执行图像和视频上采样,因此已经提出了各种方法来“增强”低分辨率或降级的旧监控材料,以至于可能能够 将此类增强用于法律目的 ,例如将某人放在犯罪现场。
除了误识的可能性之外,这些可能性已经 偶尔引起了头条新闻 ,理论上讲,不需要超分辨率或以其他方式转换低分辨率录像才能对个人进行积极识别,因为关键的面部识别系统应该不需要这种级别的分辨率和清晰度。此外,这些转换在实践中是昂贵的,并且会引发关于其潜在有效性和合法性的额外、反复出现的问题。
需要更多“破旧”的名人
如果面部识别系统能够从现有的遗留系统输出中提取特征(即机器学习特征中的 人脸 特征),那将更有用,方法是了解“高分辨率”身份和可用降级图像之间的关系。
这里的问题是标准:像 MS-Celeb-1M 和 WebFace260M 这样的常见网络采集数据集(还有其他几个)已经被研究社区所采用,因为它们提供了可以衡量其进步的基准,但这些数据集不适合训练面部识别算法,以适应许多旧监控系统的视觉“领域”。

微软流行的 MS-Celeb1m 数据集示例。来源:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
作者认为,使用这些数据集训练的面部识别(FR)算法不适合许多旧监控系统的视觉“领域”。
该论文指出*:
“(最先进的)FR 模型在真实世界的监控图像(无约束)上效果不佳,这是由于域移问题,即通过网络采集的名人面部的大规模训练数据集(半约束)缺乏野外变异,例如固有的传感器噪声、低分辨率、运动模糊、湍流效应等。”
“例如,一个最先进的模型 在无约束的 IJB-S 数据集上的 1:1 验证准确率比在半约束的 LFW 上低了大约 30%。”
“解决此性能差距的潜在方法是构建一个大规模的无约束面部数据集。然而,构建一个具有数万名受试者的此类训练数据集具有很高的手动标注成本。”
论文回顾了各种以前的方法,这些方法试图“匹配”历史或低成本监控系统输出的各种类型,但指出这些方法都处理“盲”增强。相比之下,CFSM 在训练期间从目标系统的真实世界输出中接收直接反馈,并通过风格转换适应以模拟该域。
该体系结构由作者设计,利用 Fast Gradient Sign Method (FGSM) 来识别和“导入”从目标系统的真实输出中获得的样式和特征。管道中用于图像生成的部分将在训练过程中改进并变得更加忠实于目标系统。来自目标系统低维样式空间的反馈是低级别的,相当于最广泛的派生视觉描述符。
作者评论说:
“有了 FR 模型的反馈,合成图像对 FR 性能更有益,导致 FR 模型的泛化能力显著提高。”
测试
研究人员使用密歇根州立大学之前的工作 作为测试模板 。基于相同的实验协议,他们使用 MS-Celeb-1m 作为标记训练数据集,该数据集仅包含网络采集的名人照片。为了公平起见,他们还包括 MS1M-V2,该数据集包含 390 万张图像,拥有 85,700 个类别。
目标数据是来自香港中文大学的 WiderFace 数据集 。这是一个专为面部检测任务设计的多样化图像集,具有挑战性。使用了该集的 70,000 张图像。
为了评估,该系统在四个面部识别基准上进行了测试: IJB-B 、 IJB-C 、 IJB-S 和 TinyFace 。
CFSM 使用 MS-Celeb-1m 的约 10% 的训练数据(约 40 万张图像)进行训练,迭代 125,000 次,批大小为 32,使用 Adam 优化器,学习率为 1e-4(非常低)。
使用的目标面部识别模型使用 修改的 ResNet-50 作为骨干,并在训练期间启用了 ArcFace 损失函数。此外,还训练了一个使用 CFSM 作为消融和比较练习的模型(在结果表中标记为“ArcFace”)。
作者对主要结果进行了评论:
“ArcFace 模型在面部识别和验证任务中优于所有基线,并实现了新的最先进性能。”
从各种遗留或低配监控系统的特征中提取域的能力还使作者能够比较和评估这些框架之间的分布相似性,并以可以在后续工作中利用的视觉风格来表示每个系统。
作者还指出,他们的系统可以利用到目前为止被视为需要解决的问题的技术:
“(CFSM)表明,对抗性操纵可以超越攻击者,提高视觉任务的识别准确率。同时,我们定义了一个基于学习到的样式基的数据集相似性度量,该度量以标签或预测器不可知的方式捕获样式差异。”
“我们相信我们的研究已经展示了可控和引导的面部合成模型在无约束面部识别中的力量,并提供了对数据集差异的理解。”
* 我将作者的内联引用转换为超链接。
首次发布于 2022 年 8 月 1 日。
















