医疗健康

合成数据:改变面部图像中的种族以解决医疗数据集中的偏差

mm

加州大学洛杉矶分校(UCLA)的研究人员开发了一种方法,可以改变用于训练医疗机器学习系统的数据集中的面部种族,以尝试解决许多常见数据集所遭受的种族偏差。

新技术能够以每帧0.005秒的平均速度产生逼真和生理学上准确的合成视频,希望有助于开发新的远程医疗诊断和监测系统——在COVID限制下,这个领域已经大大扩展。该系统旨在提高远程光电血容量图(rPPG)的适用性,这是一种计算机视觉技术,用于评估面部视频内容以非侵入方式检测血液供应的体积变化。

来源:https://arxiv.org/pdf/2106.06007.pdf

来源:https://arxiv.org/pdf/2106.06007.pdf。点击放大。

虽然这项工作利用卷积神经网络(CNNs),并纳入了英国达勒姆大学在2020年发表的研究代码,但新的应用旨在保留原始测试数据中的脉动信号,而不仅仅是视觉上改变数据的种族,如2020年的研究所做的那样。

CNNs用于种族转换

编码器-解码器系统的第一部分使用预训练的达勒姆种族转换模型,基于VGGFace2,生成具有高斯先验的目标帧,这是达勒姆研究的白人至非洲人组成部分。它产生了种族特征的平坦转换,但不包含代表患者血流状态的视觉生理指标的颜色和色调变化。

2020年达勒姆大学的研究转换管道,部分被纳入新的UCLA研究。来源:https://arxiv.org/pdf/2004.08945.pdf

2020年达勒姆大学的研究转换管道,部分被纳入新的UCLA研究。 来源:https://arxiv.org/pdf/2004.08945.pdf。点击放大。

第二个网络,称为PhysResNet(PRN),提供了rPPG组件。PhysResNet被训练来学习视觉外观和定义皮下血容量运动的颜色变化。

左下,2020年达勒姆研究的结果,缺乏PPG信息。中左,PPG信息被纳入种族转换中。

左下,2020年达勒姆研究的结果,缺乏PPG信息。中左,PPG信息被纳入种族转换中。 点击放大。

UCLA项目提出的架构即使在没有皮肤颜色增强的情况下也优于竞争对手的rPPG技术,代表了相对于使用MAE和RMSE优化的类似技术的31%改进。

UCLA网络成功保留了血容量和分布信息。

UCLA网络成功保留了血容量和分布信息。 点击放大。

UCLA研究人员希望未来的工作将承担更多挑战,以解决该医疗成像领域的种族偏差,并希望后续方案能够输出更高分辨率的视频,因为该系统仅限于80×80像素分辨率——适合远程医疗的限制,但不是理想的。

缺乏种族多样化的数据集

导致种族多样化数据集的经济和实际情况已经成为多年来医疗研究的障碍。数据往往是本地生成的,许多因素导致了数据对象的高加索人种同质性,包括研究发生的城市中少数民族人口的组成以及可能影响非白人受试者在西方数据集中出现程度的其他社会经济因素。

在黑皮肤受试者比例较高的国家,收集数据所需的设备和资源往往缺乏。

来自美国物理人类学杂志的土著人民的皮肤色调世界地图。

来自美国物理人类学杂志的土著人民的皮肤色调世界地图。

目前,黑皮肤受试者在rPPG数据集中明显欠代表,分别占三大主要数据库的0%、5%和10%。

同质高加索数据

2019年发表在《科学》杂志上的新研究发现,一种在美国医院护理中广泛使用的算法严重偏向高加索人种。该研究发现,黑人不太可能被转介到专科护理和医院入院的更深层次。

同年,马来西亚和澳大利亚的研究人员建立了“自身种族偏差”在世界许多地区(包括亚洲)数据集生成中的普遍问题。

规模和架构的潜在限制

导致有限种族数据集的一些限制是实际的而不是道德的。数据的多样性越广泛,越能推广到数据中出现的对象,但由于训练时间、注意力和资源的限制,训练过程不太可能直观地识别数据的任何单一特征,包括种族。

这可能会导致模型广泛适用但获得较不具体的结果,由于数据大小、批次大小的经济性和有限硬件资源的实际限制。

在另一极端,虽然通过限制输入数据到更有限的特征集(包括种族)可以获得有效和细粒度的结果,但结果可能过度拟合到有限的数据中,并且可能不适用于同一地理区域中从原始数据集获得的未见受试者。

PPG模拟的合成头像

UCLA论文还提到了微软研究2020年关于使用种族可塑性合成头像的先前工作,该工作利用3D图像合成创建富含PPG信息的面部视频。

微软研究创建的合成头像,具有包含PPG数据的光线追踪图像。来源:https://arxiv.org/pdf/2010.12949.pdf

微软研究创建的合成头像,具有包含PPG数据的光线追踪图像。 来源:https://arxiv.org/pdf/2010.12949.pdf。点击放大。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai