医疗健康

网膜静脉揭示种族,扩大人工智能种族偏见的范围

mm

受到最近有关医疗人工智能成像可以揭示种族的启发,一個美国和英国的研究团队进行了一项研究,以确定网膜静脉模式是否与种族有关,并得出结论,这的确是如此,人工智能可以从婴儿的网膜图像中预测父母报告的种族——这些图像不会向研究它们的人类医生揭示种族身份,并且以前被认为没有揭示种族的潜力。

该团队表示,担心这种医疗成像中的种族分层的额外向量会为人工智能系统在医疗保健中的使用打开偏见的大门。

黑人和白人受试者的网膜图像。上面,来自每个种族的全色网膜 fundus 图像已经具有与色彩Disposition 相关的种族区分特征。下面,来自这些图像的网膜血管图,据称可以“平衡”这些种族锚点,实际上包含种族识别特征,根据新报告。

黑人和白人受试者的网膜图像。上面,来自每个种族的全色网膜 fundus 图像已经具有与色彩Disposition 相关的种族区分特征。下面,来自这些图像的网膜血管图,据称可以“平衡”这些种族锚点,实际上包含种族识别特征,根据新报告。 来源:https://arxiv.org/ftp/arxiv/papers/2109/2109.13845.pdf

作者们进一步指出,U-Net,定义了人工智能医疗领域的机器学习框架,可能会影响这一现象,因为它是在主要白人受试者上训练的。然而,作者们声称,他们“目前无法完全根据 U-Net 假设解释这些发现”。

在项目相关的GitHub仓库中评论这些发现时,作者们表示:

‘人工智能可以从灰度RVMs(网膜血管图)中检测种族这些图像不被认为包含种族信息。两个可能的解释是:黑人和白人婴儿的网膜血管在生理上不同,或者U-Net对不同fundus色素的网膜血管进行了不同的分割。

‘…无论如何,影响都是一样的:人工智能算法有可能在实践中表现出种族偏见,即使初步尝试从底层图像中删除此类信息似乎是成功的。’

该论文题为不色盲:人工智能从黑白网膜血管分割预测种族身份,这是美国和英国五个机构和研究部门之间的合作成果。

参与研究的医生包括R.V. Paul Chan,MD,MSc,FACS,眼科专家,美国外科学院院士;Michael F. Chiang,M.D.,美国国立眼科研究所所长;以及J. Peter Campbell M.D.,M.P.H.,俄勒冈健康与科学大学医学院眼科副教授。

眼睛有它

该论文指出,人类偏见有可能传播到人工智能医疗系统中,尤其是在眼科研究中。用于评估眼部疾病的全色网膜 fundus 图像(RFIs,见上图比较)包含足够的色素信息以识别种族。

灰度网膜血管图(RVMs)丢弃了大部分信息,以提取可能定义许多疾病的底层毛细血管模式。一直以来,人们都认为,这种还原的医疗图像中不再包含种族特征。

作者们测试了这一假设,使用了一组从婴儿中获得的全色RFIs,这些婴儿正在接受可能致盲的疾病筛查。作者们指出,这种筛查越来越多地出现在远程诊断等非个人咨询的背景下,并且越来越多地受到机器学习分析的关注。

该研究检查了各种还原版的全色图像是否保留了种族信息,如婴儿父母所报告的,并发现,即使是最具破坏性的RFIs还原(阈值化、骨架化和二值化)也能实现一定程度的种族识别。

数据和方法

来自245名婴儿的数据,收集于2012年1月至2020年7月之间,作为多中心i-ROP队列研究的一部分,按照50/20/30的比例分为训练、验证和测试数据集,尽可能保持源数据的自然种族分布。

全色RFIs被还原为上述三种还原风格的图像,以便“明显”的种族标记应该从数据中技术上被删除。

使用PyTorch训练了多个卷积神经网络(CNNs),以实现二元分类(“黑人”/“白人”,基于父母报告的种族),并在所有图像版本上运行数据,包括RFIs和骨架化版本,应用了通常的随机翻转和旋转,派生的图像具有224×244像素的分辨率。

模型使用随机梯度下降法训练,学习率为0.001,最高训练10个epoch,并在5个epoch后实现早期停止(即模型不会通过进一步训练变得更加准确)。

由于白人和黑人受试者之间存在自然的种族失衡,采用了补偿措施,以确保少数群体不会被系统地被忽略为异常值,并且结果进行了交叉检查,以验证实验之间没有数据泄露。

研究中不同阈值容忍度的网膜图样本。

研究中不同阈值容忍度的网膜图样本。

结果

RVMs,提取全色RFI图像中的静脉和毛细血管,理论上不应被CNN识别为种族可区分的,根据作者的说法。然而,结果显示,U-Net对于白人眼睛比黑人眼睛分割出更多的主要动脉。

在结论中,研究人员观察到“我们发现人工智能可以轻松地从网膜血管分割中预测婴儿的种族,这些分割中不包含任何可见的色素信息”,并且“即使对人类肉眼来说似乎没有信息的图像也保留了原始婴儿种族的预测信息”。研究人员进一步提出,黑人和白人婴儿的网膜血管可能“以某种方式不同,这种方式人工智能可以感知,但人类无法感知”。

先前的偏见?

作者们还提出,这种区别可能是由于U-Net最初在主要白人受试者数据上训练的结果。虽然他们将其描述为“主要理论”,但他们也承认,捕获传感器的能力可能是这一现象的因素,如果发现的偏见是由于视网膜成像实践的技术方面或U-Net中的数据偏见而产生的,那么这种偏见可能会随着时间的推移而自我强化。为了解决这些可能性,该论文承认:

‘然而,U-Net是在RFIs上训练的,RFIs首先被转换为灰度图像,并进行了对比度调整——特别是对比度有限的直方图均衡(CLAHE)——因此,它实际上从未在彩色RFIs上训练过。因此,我们目前无法完全根据U-Net假设解释这些发现。’

然而,作者们断言,原因比影响更不令人担忧,指出人工智能模型能够辨别种族意味着“使用它们作为输入的医疗人工智能算法可能存在偏见的风险”。

作者们指出,研究的种族之间存在高对比度,并推测“中间”种族群体可能更难以类似的方式识别,并且这是他们计划在正在进行的相关工作中研究的一个方面。

 

* 所有由论文提供的支持链接已从有限访问的PaperPile链接转换为公开可用的在线版本,尽可能地进行转换。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai