toco Modelos de IA treinados em dados com viés de sexo têm pior desempenho no diagnóstico de doenças - Unite.AI
Entre em contato

Assistência médica

Modelos de IA treinados em dados com viés de sexo têm pior desempenho no diagnóstico de doenças

mm

Publicado

 on

Recentemente, um estudo publicado na revista PNAS e conduzido por pesquisadores da Argentina, sugeriu que a presença de dados de treinamento distorcidos por sexo leva a um desempenho pior do modelo ao diagnosticar doenças e outros problemas médicos. Conforme relatado por Statsnews, a equipe de pesquisadores experimentou modelos de treinamento em que pacientes do sexo feminino eram notavelmente sub-representadas ou excluídas por completo e descobriram que o algoritmo teve um desempenho substancialmente pior ao diagnosticá-las. O mesmo também se aplica a incidentes em que pacientes do sexo masculino foram excluídos ou sub-representados.

Ao longo da última meia década, à medida que os modelos de IA e a aprendizagem automática se tornaram mais omnipresentes, mais atenção foi dada aos problemas dos conjuntos de dados tendenciosos e aos modelos tendenciosos de aprendizagem automática que deles resultam. O preconceito de dados no aprendizado de máquina pode levar a aplicações de IA estranhas, socialmente prejudiciais e exclusivas, mas quando se trata de aplicações médicas, vidas podem estar em risco. No entanto, apesar do conhecimento do problema, poucos estudos tentaram quantificar o quão prejudiciais podem ser os conjuntos de dados tendenciosos. O estudo realizado pela equipe de pesquisa descobriu que o viés de dados pode ter efeitos mais extremos do que muitos especialistas estimaram anteriormente.

Um dos usos mais populares da IA ​​nos últimos anos, em contextos médicos, tem sido o uso de modelos de IA para diagnosticar pacientes com base em imagens médicas. A equipe de pesquisa analisou modelos usados ​​para detectar a presença de várias condições médicas, como pneumonia, cardiomegalia ou hérnias de raios-X. As equipes de pesquisa estudaram três arquiteturas de modelo de código aberto: Inception-v3, ResNet e DenseNet-121. Os modelos foram treinados em radiografias de tórax extraídas de dois conjuntos de dados de código aberto originários da Universidade de Stanford e do National Institutes of Health. Embora os próprios conjuntos de dados sejam bastante equilibrados quando se trata de representação sexual, os pesquisadores distorceram artificialmente os dados, dividindo-os em subconjuntos onde havia um desequilíbrio sexual.

A equipe de pesquisa criou cinco conjuntos de dados de treinamento diferentes, cada um composto por diferentes proporções de varreduras de pacientes masculinos/femininos. Os cinco conjuntos de treinamento foram divididos da seguinte forma:

  • Todas as imagens eram de pacientes do sexo masculino
  • Todas as imagens eram de pacientes do sexo feminino
  • 25% pacientes do sexo masculino e 75% pacientes do sexo feminino
  • 75% pacientes do sexo feminino e 25% pacientes do sexo masculino
  • Metade pacientes do sexo masculino e metade pacientes do sexo feminino

Depois que o modelo foi treinado em um dos subconjuntos, ele foi testado em uma coleção de varreduras de pacientes do sexo masculino e feminino. Houve uma tendência notável presente nas várias condições médicas, a precisão dos modelos foi muito pior quando os dados de treinamento foram significativamente distorcidos por sexo. Uma coisa interessante a observar é que, se um sexo estava super-representado nos dados de treinamento, esse sexo não parecia se beneficiar da super-representação. Independentemente de o modelo ter sido ou não treinado em dados distorcidos para um sexo ou outro, ele não teve um desempenho melhor nesse sexo em comparação com quando foi treinado em um conjunto de dados inclusivo.

O autor sênior do estudo, Enzo Ferrante, foi citado por Statnews como explicando que o estudo destaca como é importante que os dados de treinamento sejam diversos e representativos para todas as populações nas quais você pretende testar o modelo.

Não está totalmente claro por que os modelos treinados em um sexo tendem a ter um desempenho pior quando implementados em outro sexo. Algumas das discrepâncias podem ser devidas a diferenças fisiológicas, mas vários fatores sociais e culturais também podem ser responsáveis ​​por algumas das diferenças. Por exemplo, as mulheres tendem a receber raios-X em um estágio diferente de progressão da doença quando comparadas aos homens. Se isso fosse verdade, poderia afetar os recursos (e, portanto, os padrões aprendidos pelo modelo) encontrados nas imagens de treinamento. Se for esse o caso, torna-se muito mais difícil para os pesquisadores eliminar o viés de seus conjuntos de dados, pois o viés seria inserido no conjunto de dados por meio dos mecanismos de coleta de dados.

Mesmo os pesquisadores que prestam muita atenção à diversidade de dados às vezes não têm escolha a não ser trabalhar com dados distorcidos ou tendenciosos. Situações em que existe uma disparidade entre como as condições médicas são diagnosticadas geralmente levam a dados de desequilíbrio. Por exemplo, dados sobre pacientes com câncer de mama são quase inteiramente coletados de mulheres. Da mesma forma, o autismo se manifesta de maneira diferente entre mulheres e homens e, como resultado, a condição é diagnosticada em uma taxa muito maior em meninos do que em meninas.

No entanto, é extremamente importante que os pesquisadores controlem os dados distorcidos e os vieses de dados da maneira que puderem. Para esse fim, estudos futuros ajudarão os pesquisadores a quantificar o impacto de dados tendenciosos.