Свяжитесь с нами:

Синтетические данные: изменение расы на изображениях лица для устранения предвзятости в наборах медицинских данных

Здравоохранение

Синтетические данные: изменение расы на изображениях лица для устранения предвзятости в наборах медицинских данных

mm

Исследователи Калифорнийского университета в Лос-Анджелесе разработали метод изменения явной расовой принадлежности лиц в наборах данных, которые используются для обучения медицинских систем машинного обучения, в попытке исправить расовую предвзятость, от которой страдают многие распространенные наборы данных.

новая техника способен создавать фотореалистичное и физиологически точное синтетическое видео со средней скоростью 0.005 секунды на кадр и, как ожидается, поможет в разработке новых диагностических систем для удаленной диагностики и мониторинга в здравоохранении — область, которая значительно расширилась в условиях ограничений COVID. Система предназначена для улучшения применимости дистанционной фотоплетизмографии (рППГ), метод компьютерного зрения, который оценивает видеоконтент лица для обнаружения объемных изменений в кровоснабжении неинвазивным способом.

Источник: https://arxiv.org/pdf/2106.06007.pdf

Источник: https://arxiv.org/pdf/2106.06007.pdf. Нажмите, чтобы увеличить.

Хотя работа, в которой используются сверточные нейронные сети (CNN), включает предыдущий исследовательский код. опубликовала Разработанное Даремским университетом в Великобритании в 2020 году, новое приложение призвано сохранять пульсирующие сигналы в исходных тестовых данных, а не просто визуально изменять кажущуюся динамику данных, как это делается в исследовании 2020 года.

CNN для расовой трансформации

Первая часть системы кодер-декодер использует модель переноса гонки Дарема, предварительно обученную на ВГГФейс2, для создания целевых фреймов-прокси с использованием ранее полученного европеоидно-африканского компонента исследования в Дареме. Это обеспечивает равномерный перенос расовых характеристик, но не содержит вариаций цвета и тона, которые представляют собой визуальные физиологические индикаторы состояния кровотока пациента.

Конвейер трансформации из исследования Даремского университета 2020 года, часть которого включена в новое исследование Калифорнийского университета в Лос-Анджелесе. Источник: https://arxiv.org/pdf/2004.08945.pdf

Конвейер трансформации из исследования Даремского университета 2020 года, часть которого включена в новое исследование Калифорнийского университета в Лос-Анджелесе. Источник: https://arxiv.org/pdf/2004.08945.pdf. Нажмите, чтобы увеличить.

Вторая сеть, называемая PhysResNet (PRN), предоставляет компонент rPPG. PhysResNet обучен изучать как внешний вид, так и цветовые вариации, определяющие движения объема подкожной крови.

Внизу слева результаты исследования Дарема 2020 года, в которых отсутствует информация о PPG. В центре слева информация PPG включена в расовую трансформацию.

Внизу слева результаты исследования Дарема 2020 года, в которых отсутствует информация о PPG. В центре слева информация PPG включена в расовую трансформацию. Нажмите, чтобы увеличить.

Архитектура, которую предлагает проект Калифорнийского университета в Лос-Анджелесе, превосходит конкурирующие методы rPPG даже при отсутствии увеличения цвета кожи, что на 31% больше, чем у аналогичных методов, оптимизированных с помощью MAE и RMSE.

Сеть Калифорнийского университета в Лос-Анджелесе успешно сохраняет информацию об объеме и распределении крови.

Сеть Калифорнийского университета в Лос-Анджелесе успешно сохраняет информацию об объеме и распределении крови. Нажмите, чтобы увеличить.

Исследователи Калифорнийского университета в Лос-Анджелесе надеются, что будущие работы будут решать более масштабные задачи по устранению расовой предвзятости в этом секторе медицинской визуализации, а также надеются, что более поздние схемы будут выводить видео с более высоким разрешением, поскольку рассматриваемая система ограничена разрешением 80×80 пикселей. – достаточно хорошо подходит для ограничений телездравоохранения, но не идеально.

Отсутствие этнически разнообразных наборов данных

Экономические и практические обстоятельства, которые привели к расовому разнообразию наборов данных, в течение нескольких лет были препятствием для медицинских исследований. Данные, как правило, генерируются местнически, при этом многие факторы способствуют частой кавказоцентричной однородности субъектов данных. К ним относятся демографический состав меньшинств в городах, где проводятся исследования, и другие социально-экономические факторы, которые могут влиять на степень появления небелых субъектов. в западных наборах данных, которые, по мнению исследователей, могли бы иметь более глобальное применение.

В странах с более высокой долей темнокожих часто отсутствует необходимое оборудование и ресурсы для сбора данных.

Карта мира в тон кожи для коренных народов из Американского журнала физической антропологии.

Карта мира в тон кожи для коренных народов из Американского журнала физической антропологии.

В настоящее время темнокожие субъекты заметно недопредставлены в наборах данных rPPG, составляя 0%, 5% и 10% содержимого трех основных баз данных, обычно используемых для этой цели.

Однородные кавказские данные

В 2019 году новое исследование опубликовала in Наука обнаружили, что алгоритм, широко распространенный в больницах США, был сильно смещен в пользу представителей европеоидной расы. Исследование показало, что темнокожие люди с меньшей вероятностью направляются на специализированную помощь при сортировке и более глубоких уровнях госпитализации.

Дальнейшие исследования в том же году, проведенные исследователями из Малайзии и Австралии. установленный общая проблема «предвзятости собственной расы» при формировании наборов данных во многих регионах мира, включая Азию.

Потенциальные ограничения масштаба и архитектуры

Некоторые из ограничений, которые привели к созданию наборов данных с ограниченным этническим составом, носят прагматический, а не этический характер. Чем шире множество дополнительных данных, тем лучше они обобщают субъектов, представленных в этих данных, но тем меньше вероятность того, что тренировочная программа интуитивно выявит шаблоны в рамках какой-либо отдельной характеристики данных, включая расу, потому что меньший процент времени обучения, внимание и ресурсы доступны для каждого идентифицируемого подмножества данных.

Это может привести к моделям, которые широко применимы, но дают менее конкретные результаты из-за ограничений размера данных, экономичности размера партии и практических ограничений скрытого пространства как функции ограниченных аппаратных ресурсов.

С другой стороны, хотя и можно получить эффективные и детальные результаты, ограничив входные данные более ограниченным набором характеристик, включая этническую принадлежность, результаты, скорее всего, будут «переобучаться» по отношению к ограниченным данным и не будут широко применяться, возможно, даже в отношении неизвестных субъектов в том же географическом районе, из которого были получены субъекты исходного набора данных.

Синтетические аватары для моделирования PPG

В документе Калифорнийского университета в Лос-Анджелесе также отмечается предыдущая работа Microsoft Research в 2020 году по использованию расово гибких синтетических аватаров, в которых используется синтез 3D-изображений для создания видео лиц, богатых информацией PPG.

Синтетические аватары, созданные исследованиями Microsoft, с изображениями с трассировкой лучей, которые содержат данные PPG. Источник: https://arxiv.org/pdf/2010.12949.pdf

Синтетические аватары, созданные исследованиями Microsoft, с изображениями с трассировкой лучей, которые содержат данные PPG. Источник: https://arxiv.org/pdf/2010.12949.pdf. Нажмите, чтобы увеличить.

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai