监控
降级合成面孔可能有助于提高面部图像识别

密歇根州立大学的研究人员已经找到了一种方法,让合成面孔可以暂时离开深度伪造场景,去做一些有益于世界的事情——通过帮助图像识别系统变得更加准确。
他们设计的新的可控面部合成模块(CFSM)能够以真实世界视频监控录像的风格重新生成面部,而不是依赖于流行的开源数据集中的高质量图像,这些数据集通常使用名人图像,但不能反映所有真实的 Closed-Circuit Television(CCTV)系统的缺陷和局限性,例如面部模糊、低分辨率和传感器噪声等因素,这些因素会影响识别准确性。
CFSM 不是专门用于模拟头部姿势、表情或其他通常是深度伪造系统目标的特征,而是使用 风格转换 生成目标识别系统风格的替代视图。
该系统旨在模拟目标系统的风格域,并根据其分辨率和“怪癖”范围调整其输出。其使用案例包括可能由于成本原因不会升级的旧系统,但这些系统目前由于输出质量差而无法为新的面部识别技术做出贡献。
测试该系统时,研究人员发现它在处理噪声和低质量数据的图像识别系统中取得了显著的改进。

训练面部识别模型以适应目标系统的局限性。 来源:http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
他们还发现该过程的一个有用副产品,即目标数据集现在可以被表征和比较,从而使得比较、基准测试和为各种 CCTV 系统生成定制数据集变得更加容易。
此外,该方法可以应用于现有的数据集,执行 事实上 的 域适应 ,使其更适合面部识别系统。
新论文 题为 《可控和引导面部合成用于无约束面部识别》,由美国国家情报局局长办公室(ODNI,在 IARPA )部分支持,并由密歇根州立大学计算机科学与工程系的四名研究人员撰写。
特色内容
低质量面部识别(LQFR)已经成为过去几年来一个值得注意的研究领域。由于市政当局建造了视频监控系统,以使其坚固耐用(不想定期重新分配资源来解决这个问题),因此许多“遗留”监控网络已经成为技术债务的牺牲品,尤其是在作为机器学习数据源的适应性方面。

历史和最近的视频监控系统中面部分辨率的不同级别。来源:https://arxiv.org/pdf/1805.11519.pdf
幸运的是,这是一个扩散模型和其他基于噪声的模型非常适合解决的问题。近年来许多最流行和最有效的图像合成系统执行 上采样 作为其管道的一部分,而这对于神经压缩技术(将图像和电影保存为神经数据而不是位图数据的方法)也是绝对必要的。
面部识别的一个挑战是从最小和最不令人鼓舞的低分辨率图像中提取尽可能多的特征。这一限制不仅因为能够在低分辨率下识别(或创建)面部很有用,而且还因为模型训练时可用的 VRAM 尺寸对图像大小有技术限制。
在这种意义上,术语“特征”是令人困惑的,因为这些特征也可以从公园长椅的数据集中获得。在计算机视觉领域,“特征”指的是从图像中获得的 区别特征 —— 任何 图像,无论是教堂的线条、山脉,还是面部数据集中面部特征的布置。
由于计算机视觉算法现在擅长上采样图像和视频片段,因此已经提出了各种方法来“增强”低分辨率或降级的旧监控材料,以至于可能可以 将此类增强用于法律目的 ,例如将某人置于犯罪现场。
除了误识的可能性之外,这已经 偶尔引起了头条新闻 ,理论上讲,不需要超分辨率或转换低分辨率图像就可以对个体进行积极识别,因为锁定低级特征的面部识别系统不需要那种分辨率和清晰度。此外,这种转换在实践中是昂贵的,并且引发了关于其潜在有效性和合法性的额外、 反复出现的问题 。
需要更多“破旧”的名人
如果面部识别系统可以从现有的视频监控框架中直接提取特征(即面部特征的机器学习特征),那将更有用,无需修改这些特征。
问题在于标准:常见的网络采集数据集,如 MS-Celeb-1M 和 WebFace260M (以及其他几种),已经被 研究社区所接受 ,因为它们提供了可以衡量其进展的基准。

微软流行的 MS-Celeb1m 数据集中的示例。 来源:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
但是,作者认为,在这些数据集上训练的面部识别(FR)算法不适合许多旧监控系统的视觉“域”。
论文指出:
‘(最先进的)FR 模型在真实世界的监控图像(无约束)上效果不佳,这是由于域移问题,即通过网络爬虫获取的名人面部的大规模训练数据集(半约束)缺乏野外变异,例如固有的传感器噪声、低分辨率、运动模糊、湍流效应等。 ‘
‘例如,最先进的模型之一 在无约束的 IJB-S 数据集上的 1:1 验证准确率比在半约束的 LFW 上低约 30%。 ‘
‘解决此性能差距的一个潜在方法是组装一个大规模的无约束面部数据集。然而,构建一个具有数万个主题的此类训练数据集具有很高的手动标注成本。’
作者回顾了之前尝试“匹配”历史或低成本监控系统输出的各种方法,但指出这些方法都处理“盲”增强。相比之下,CFSM 在训练期间从目标系统的真实输出中接收直接反馈,并通过风格转换适应以模拟该域。
作者设计的架构利用快速梯度符号方法(FGSM)来个性化和“导入”从目标系统的真实输出中获得的风格和特征。图像生成管道的这一部分将在训练中改进并变得更加忠实于目标系统。来自目标系统低维风格空间的这种反馈是低级别的,相当于最广泛的派生视觉描述符。
作者评论说:
‘有了 FR 模型的反馈,合成图像对 FR 性能更有益,这导致了使用它们训练的 FR 模型的泛化能力显著提高。’
测试
研究人员使用密歇根州立大学之前的工作 作为测试模板 。基于相同的实验协议,他们使用 MS-Celeb-1m 作为标记训练数据集,该数据集仅包含网络采集的名人照片。为了公平起见,他们还包括 MS1M-V2,该数据集包含 390 万张图像,共 85,700 个类别。
目标数据是来自香港中文大学的 WiderFace 数据集 。这是一个专为面部检测任务在具有挑战性的情况下设计的图像多样集。使用了该集的 70,000 张图像。
为了评估,该系统在四个面部识别基准测试中进行了测试: IJB-B 、 IJB-C 、 IJB-S 和 TinyFace 。
CFSM 使用 MS-Celeb-1m 的约 10% 的训练数据(约 40 万张图像)进行训练,训练 125,000 次迭代,批次大小为 32,使用 Adam 优化器,学习率为 1e-4。
目标面部识别模型使用 修改的 ResNet-50 作为骨干,并在训练期间启用 ArcFace 损失函数。另外,训练了一个使用 CFSM 的模型(在结果表中标记为“ArcFace”),用于消融和比较。
作者对主要结果进行了评论:
‘ArcFace 模型在面部识别和验证任务中优于所有基准,并实现了新的最先进性能。’
从各种遗留或低配监控系统中提取域的能力还使作者能够比较和评估这些框架之间的分布相似性,并以可以在后续工作中利用的视觉风格来呈现每个系统。
作者还指出,他们的系统可以利用到目前为止被视为需要解决的问题的某些技术:
‘(CFSM)表明,对抗性操作不仅可以作为攻击者,还可以提高视觉任务中的识别准确率。同时,我们定义了一个基于学习风格基的数据集相似性度量,该度量以标签或预测器不可知的方式捕获风格差异。’
‘我们相信我们的研究已经展示了可控和引导面部合成模型用于无约束面部识别的力量,并提供了对数据集差异的理解。’
* 我将作者的内联引用转换为超链接。
首次发布于 2022 年 8 月 1 日。










