Connect with us

Modelos de IA Treinados com Dados Sesuais Tendenciosos Têm Pior Desempenho no Diagnóstico de Doenças

Saúde

Modelos de IA Treinados com Dados Sesuais Tendenciosos Têm Pior Desempenho no Diagnóstico de Doenças

mm

Recentemente, um estudo publicado na revista PNAS e realizado por pesquisadores da Argentina, implicou que a presença de dados de treinamento tendenciosos em relação ao sexo leva a um pior desempenho do modelo no diagnóstico de doenças e outros problemas médicos. Conforme relatado pelo Statsnews, a equipe de pesquisadores experimentou com modelos de treinamento onde os pacientes do sexo feminino estavam notavelmente sub-representados ou excluídos por completo, e descobriu que o algoritmo teve um desempenho substancialmente pior ao diagnosticar doenças neles. O mesmo também se aplicou a incidentes em que os pacientes do sexo masculino estavam excluídos ou sub-representados.

Ao longo da última meia década, à medida que os modelos de IA e o aprendizado de máquina se tornaram mais ubíquos, mais atenção tem sido dada aos problemas de conjuntos de dados tendenciosos e aos modelos de aprendizado de máquina tendenciosos que resultam deles. O viés de dados no aprendizado de máquina pode levar a aplicações de IA desajeitadas, socialmente prejudiciais e exclusivas, mas quando se trata de aplicações médicas, vidas podem estar em jogo. No entanto, apesar do conhecimento do problema, poucos estudos tentaram quantificar exatamente quão prejudiciais os conjuntos de dados tendenciosos podem ser. O estudo realizado pela equipe de pesquisa descobriu que o viés de dados pode ter efeitos mais extremos do que muitos especialistas previram anteriormente.

Um dos usos mais populares para IA nos últimos anos, em contextos médicos, tem sido o uso de modelos de IA para diagnosticar pacientes com base em imagens médicas. A equipe de pesquisa analisou modelos usados para detectar a presença de várias condições médicas, como pneumonia, cardiomegalia ou hérnias, a partir de radiografias. A equipe de pesquisa estudou três arquiteturas de modelo de código aberto: Inception-v3, ResNet e DenseNet-121. Os modelos foram treinados em radiografias de tórax extraídas de dois conjuntos de dados de código aberto originários da Universidade de Stanford e dos Institutos Nacionais de Saúde. Embora os conjuntos de dados em si sejam razoavelmente equilibrados em termos de representação de sexo, os pesquisadores artificialmente inclinaram os dados dividindo-os em subconjuntos com desequilíbrio de sexo.

A equipe de pesquisa criou cinco conjuntos de dados de treinamento diferentes, cada um composto por diferentes proporções de varreduras de pacientes do sexo masculino e feminino. Os cinco conjuntos de treinamento foram divididos da seguinte forma:

  • Todas as imagens eram de pacientes do sexo masculino
  • Todas as imagens eram de pacientes do sexo feminino
  • 25% de pacientes do sexo masculino e 75% de pacientes do sexo feminino
  • 75% de pacientes do sexo feminino e 25% de pacientes do sexo masculino
  • Metade de pacientes do sexo masculino e metade de pacientes do sexo feminino

Depois que o modelo foi treinado em um dos subconjuntos, ele foi testado em uma coleção de varreduras de pacientes do sexo masculino e feminino. Havia uma tendência notável presente em várias condições médicas, a precisão dos modelos era muito pior quando os dados de treinamento estavam significativamente inclinados em relação ao sexo. Uma coisa interessante a notar é que, se um sexo estivesse super-representado nos dados de treinamento, esse sexo não parecia se beneficiar da super-representação. Independentemente de o modelo ter sido treinado em dados inclinados para um sexo ou outro, ele não apresentou um desempenho melhor nesse sexo em comparação com quando foi treinado em um conjunto de dados inclusivo.

O autor sênior do estudo, Enzo Ferrante, foi citado pelo Statnews como explicando que o estudo destaca a importância de os dados de treinamento serem diversificados e representativos para todas as populações que se pretende testar o modelo.

Não está completamente claro por que os modelos treinados em um sexo tendem a apresentar um desempenho pior quando implementados em outro sexo. Algumas das discrepâncias podem ser devidas a diferenças fisiológicas, mas vários fatores sociais e culturais também podem ser responsáveis por parte da diferença. Por exemplo, as mulheres podem receber radiografias em uma etapa diferente de progressão de sua doença em comparação com os homens. Se isso for verdade, pode afetar as características (e, portanto, os padrões aprendidos pelo modelo) encontradas nas imagens de treinamento. Se for esse o caso, torna-se muito mais difícil para os pesquisadores desviar os conjuntos de dados, pois o viés estaria incorporado ao conjunto de dados por meio dos mecanismos de coleta de dados.

Mesmo os pesquisadores que prestam atenção à diversidade de dados às vezes não têm escolha a não ser trabalhar com dados inclinados ou tendenciosos. Situações em que uma disparidade existe entre como as condições médicas são diagnosticadas frequentemente levam a dados desequilibrados. Por exemplo, os dados sobre pacientes com câncer de mama são quase que completamente coletados de mulheres. Da mesma forma, o autismo se manifesta de forma diferente entre homens e mulheres, e como resultado, a condição é diagnosticada em uma taxa muito mais alta em meninos do que em meninas.

No entanto, é extremamente importante que os pesquisadores controlem os dados inclinados e o viés de dados de qualquer forma que possam. Para isso, estudos futuros ajudarão os pesquisadores a quantificar o impacto dos dados tendenciosos.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.