Assistência médica
Conjunto de dados COVIDx popular criticado por pesquisadores do Reino Unido

Um consórcio de pesquisa do Reino Unido criticou o grau de confiança cientÃfica depositada em conjuntos de dados de código aberto usados ​​para análise baseada em visão computacional de radiografias de tórax de pacientes com COVID-19, com foco no popular conjunto de dados de código aberto COVIDx.
Os pesquisadores, tendo testado o COVIDx em vários modelos de treinamento de IA, afirmam que ele "não é representativo do problema clÃnico real", que os resultados obtidos com seu uso são "inflacionados" e que os modelos "não se generalizam bem" para dados do mundo real.
Os autores também observam a inconsistência dos dados contribuÃdos que compõem o COVIDx, onde as imagens originais vêm em uma variedade de resoluções que são reformatadas automaticamente pelo fluxo de trabalho de aprendizado profundo nos tamanhos consistentes necessários para o treinamento e observam que esse processo pode introduzir artefatos enganosos relacionados ao algoritmo de redimensionamento da imagem, em vez do aspecto clÃnico dos dados.
A papel é chamado As armadilhas do uso de dados abertos para desenvolver soluções de aprendizado profundo para detecção de COVID-19 em radiografias de tórax, e é uma colaboração entre o Center for Computational Imaging & Simulation in Biomedicine (CISTIB) da Universidade de Leeds, juntamente com pesquisadores de outras cinco organizações na mesma cidade, incluindo o Leeds Teaching Hospitals NHS Trust.
A pesquisa detalha, entre outras práticas negativas, o "uso indevido de rótulos" no conjunto de dados COVIDx, bem como um "alto risco de viés e confusão". Os próprios experimentos dos pesquisadores, ao testar o conjunto de dados em três modelos viáveis ​​de aprendizado profundo, os levaram a concluir que 'o desempenho excepcional amplamente relatado no domÃnio do problema é inflado, os resultados de desempenho do modelo são mal representados e os modelos não se generalizam bem para dados clinicamente realistas.'
Cinco conjuntos de dados contrastantes em um
O relatório* observa que a maioria das metodologias atuais baseadas em IA neste campo depende de uma variedade "heterogênea" de dados de repositórios de código aberto distintos, observando que cinco conjuntos de dados com caracterÃsticas notavelmente diferentes foram aglomerados no conjunto de dados COVIDx, apesar (na consideração dos pesquisadores) da paridade inadequada de qualidade e tipo de dados.
O conjunto de dados COVIDx foi liberado em maio de 2020 como um esforço de consórcio liderado pelo Departamento de Engenharia de Design de Sistemas da Universidade de Waterloo, no Canadá, com os dados disponibilizado como parte da Iniciativa de Código Aberto COVID-Net.
As cinco coleções que constituem o COVIDx são: o COVID-19 Coleta de dados de imagem (a aberto conjunto de pesquisadores de Montreal); o conjunto de dados de radiografia de tórax COVID-19 iniciativa; a radiografia de tórax Actualmed COVID-19 conjunto de dados; a radiografia COVID-19 banco de dados; e o Desafio de Detecção de Pneumonia da RSNA conjunto de dados, um dos muitos conjuntos pré-COVID que foram colocados em serviço para a crise pandêmica.
(RICORD - veja abaixo - foi adicionado ao COVIDx, mas como foi incluÃdo posteriormente aos modelos de interesse no estudo, foi excluÃdo dos dados do teste e, em qualquer caso, tendeu a variegar ainda mais o COVIDx, o que é a reclamação central dos autores do estudo.)
Os pesquisadores afirmam que o COVIDx é o 'maior e mais amplamente utilizado' conjunto de dados desse tipo dentro da comunidade cientÃfica relacionada à pesquisa da COVID, e que os dados importados para o COVIDx dos conjuntos de dados externos constituintes não estão em conformidade adequada com o esquema tripartido do conjunto de dados COVIDx (ou seja, 'normal', 'pneumonia' e 'COVID-19').
Perto do suficiente..?
Ao examinar a procedência e a adequação dos conjuntos de dados contribuintes para a COVIDx no momento do estudo, os pesquisadores descobriram "uso indevido" dos dados da RSNA, onde dados de um tipo, afirmam os pesquisadores, foram agrupados em uma categoria diferente:
'O repositório RSNA, que usa dados de raios-X de tórax disponÃveis publicamente do NIH Chestx-ray8 [**], foi projetado para uma tarefa de segmentação e, como tal, contém três classes de imagens, 'Opacidade pulmonar', 'Sem opacidade pulmonar/não normal' e 'Normal', com caixas delimitadoras disponÃveis para casos de 'Opacidade pulmonar'.
'Na compilação do COVIDx, todas as radiografias de tórax da classe 'Opacidade Pulmonar' são incluÃdas na classe de pneumonia.'
Efetivamente, afirma o artigo, a metodologia COVIDx expande a definição de "pneumonia" para incluir "todas as opacidades pulmonares semelhantes à pneumonia". Consequentemente, o valor comparável dos tipos de dados comparativos está (presumivelmente) ameaçado. Os pesquisadores afirmam:
[...] a classe pneumonia no conjunto de dados COVIDx contém radiografias de tórax com uma variedade de outras patologias, incluindo derrame pleural, infiltração, consolidação, enfisema e massas. A consolidação é uma caracterÃstica radiológica de possÃvel pneumonia, não um diagnóstico clÃnico. Usar a consolidação como substituto para pneumonia sem documentar isso é potencialmente enganoso.

Patologias alternativas (além do COVID-19) associadas ao COVIDx. Fonte: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf
O relatório constata que apenas 6.13% dos 4,305 casos de pneumonia provenientes da RSNA foram rotulados com precisão, representando apenas 265 casos de pneumonia genuÃna.
Além disso, muitos dos casos de não pneumonia incluÃdos no COVIDx representavam comorbidades – complicações de outras doenças ou problemas médicos secundários em condições que não estão necessariamente relacionadas à pneumonia.
Não é 'normal'
O relatório sugere ainda que a influência do conjunto de dados de teste de desafio da RSNA na COVID-19 distorceu a estabilidade empÃrica dos dados. Os pesquisadores observam que a COVID-19 prioriza a classe "normal" dos dados da RSNA, excluindo efetivamente todas as classes "sem opacidade pulmonar/não normal" no conjunto de dados mais amplo. O artigo afirma:
'Embora isso esteja de acordo com o que é esperado dentro do rótulo 'normal', expandir a classe de pneumonia e usar apenas radiografias de tórax 'normais', em vez de casos negativos de pneumonia, simplifica muito a tarefa de classificação.
'O resultado final disso é um conjunto de dados que reflete uma tarefa que está distante do verdadeiro problema clÃnico.'
Vieses potenciais de padrões de dados incompatÃveis
O artigo identifica vários outros tipos de viés na COVIDx, observando que alguns dos dados contribuintes misturam imagens de raios X de tórax pediátrico com raios X de pacientes adultos, e observa ainda que esses dados são a única fonte "significativa" de imagens pediátricas na COVIDx.
Além disso, as imagens do conjunto de dados RSNA têm resolução de 1024×1024, enquanto outro conjunto de dados contribuidor fornece imagens com resolução de apenas 299×299. Como os modelos de aprendizado de máquina invariavelmente redimensionam as imagens para acomodar o espaço de treinamento disponÃvel (espaço latente), isso significa que as imagens de 299×299 serão ampliadas em um fluxo de trabalho de treinamento (potencialmente levando a artefatos relacionados a um algoritmo de escalonamento em vez de patologia) e as imagens maiores foram reduzidas. Novamente, isso atenua os padrões de dados homogêneos necessários para a análise de visão computacional baseada em IA.
Além disso, os dados do ActMed inseridos no COVIDx contêm "marcadores em forma de disco" em radiografias de tórax de COVID-19, uma caracterÃstica recorrente que é inconsistente com o conjunto de dados mais amplo e que precisaria ser tratada como um "valor atÃpico repetitivo".
Esse é o tipo de problema que geralmente é resolvido limpando ou omitindo os dados, visto que a recorrência dos marcadores é suficiente para ser registrada como uma "caracterÃstica" no treinamento, mas não é frequente o suficiente para ser generalizada de forma útil no conjunto de dados como um todo. Sem um mecanismo para descontar a influência dos marcadores artificiais, eles poderiam ser potencialmente considerados pela metodologia do sistema de aprendizado de máquina como fenômenos patológicos.
Treinamento e Teste
Os pesquisadores testaram o COVIDx em dois conjuntos de dados comparativos em três modelos. Os dois conjuntos de dados extras foram RICORD, que contém 1096 radiografias de tórax de COVID-19 em 361 pacientes, provenientes de quatro paÃses; e CheXpert, um conjunto de dados público
Os três modelos utilizados foram COVID-Net, CoroNetName e DarkCovidNet. Todos os três modelos empregam redes neurais convolucionais (CNNs), embora o CoroNet consista em um processo de classificação de imagem em dois estágios, com autoencoders passando a saÃda para um classificador CNN.
Os testes mostraram uma "queda acentuada" no desempenho de todos os modelos em conjuntos de dados não relacionados à COVID-86, em comparação com a precisão de XNUMX% obtida com o uso de dados relacionados à COVID-XNUMX. No entanto, se os dados estiverem rotulados ou agrupados incorretamente, esses resultados são efetivamente falsos. Os pesquisadores notaram uma redução significativa na precisão dos resultados nos conjuntos de dados externos comparáveis, que o artigo propõe como dados mais realistas e classificados corretamente.
Além disso, o jornal observa:
Uma revisão clÃnica de 500 mapas de saliência grad-CAM gerados por predição com base em dados de testes de COVID-19 mostrou uma tendência de significância em caracterÃsticas clinicamente irrelevantes. Isso geralmente incluiu um foco em estruturas ósseas e tecidos moles, em vez da opacificação bilateral difusa dos campos pulmonares, tÃpica da infecção por COVID-XNUMX.

Este é um raio-X de um caso confirmado de COVID-19, atribuÃdo a uma mera probabilidade de previsão de 0.938 do COVIDx treinado no DarkCovidNet.
Conclusões
Os pesquisadores criticam a falta de dados demográficos ou clÃnicos relacionados à s imagens de raios X na COVIDx, argumentando que, sem eles, é impossÃvel levar em conta "fatores de confusão", como a idade.
Eles também observam que os problemas encontrados no conjunto de dados COVIDx podem ser aplicáveis ​​a outros conjuntos de dados de origem semelhante (ou seja, misturando bancos de dados de imagens radiológicas pré-COVID com dados recentes de imagens de raios-X COVID sem arquitetura de dados adequada, compensação de variância e escopo claro das limitações desta abordagem).
Ao resumir as deficiências da COVIDx, os pesquisadores enfatizam a inclusão desequilibrada de radiografias pediátricas "claras", bem como sua percepção do uso indevido de rótulos e alto risco de viés e confusão na COVIDx, argumentando que "o desempenho excepcional [do COVIDx] amplamente divulgados no domÃnio do problema são inflados, os resultados de desempenho do modelo são mal representados e os modelos não se generalizam bem para dados clinicamente realistas.'
O relatório conclui:
A falta de dados hospitalares disponÃveis, combinada com uma avaliação inadequada de modelos em todo o domÃnio do problema, permitiu o uso de dados de código aberto para enganar a comunidade de pesquisa. A publicação contÃnua de métricas de desempenho de modelos infladas corre o risco de prejudicar a confiabilidade da pesquisa de IA em diagnósticos médicos, especialmente quando a doença é de grande interesse público. A qualidade da pesquisa neste domÃnio precisa melhorar para evitar que isso aconteça; isso deve começar com os dados.
*Embora os pesquisadores do estudo afirmem ter feito os dados, arquivos e código para o novo papel disponÃvel online, o acesso requer login e, no momento da escrita, nenhum acesso público geral aos arquivos está disponÃvel.
** ChestX-ray8: Banco de dados de radiografia de tórax em escala hospitalar e benchmarks na classificação e localização mal supervisionadas de doenças comuns do tórax - https://arxiv.org/pdf/1705.02315.pdf