Assistência médica

Conjunto de dados COVIDx popular criticado por pesquisadores do Reino Unido

Publicado 22 de Setembro de 2021

Martin Anderson

Um consórcio de pesquisa do Reino Unido criticou o grau de confiança científica depositada em conjuntos de dados de código aberto usados para análise baseada em visão computacional de radiografias de tórax de pacientes com COVID-19, com foco no popular conjunto de dados de código aberto COVIDx.

Os pesquisadores, tendo testado o COVIDx em vários modelos de treinamento de IA, afirmam que ele "não é representativo do problema clínico real", que os resultados obtidos com seu uso são "inflacionados" e que os modelos "não se generalizam bem" para dados do mundo real.

Os autores também observam a inconsistência dos dados contribuídos que compõem o COVIDx, onde as imagens originais vêm em uma variedade de resoluções que são reformatadas automaticamente pelo fluxo de trabalho de aprendizado profundo nos tamanhos consistentes necessários para o treinamento e observam que esse processo pode introduzir artefatos enganosos relacionados ao algoritmo de redimensionamento da imagem, em vez do aspecto clínico dos dados.

A papel é chamado As armadilhas do uso de dados abertos para desenvolver soluções de aprendizado profundo para detecção de COVID-19 em radiografias de tórax, e é uma colaboração entre o Center for Computational Imaging & Simulation in Biomedicine (CISTIB) da Universidade de Leeds, juntamente com pesquisadores de outras cinco organizações na mesma cidade, incluindo o Leeds Teaching Hospitals NHS Trust.

A pesquisa detalha, entre outras práticas negativas, o "uso indevido de rótulos" no conjunto de dados COVIDx, bem como um "alto risco de viés e confusão". Os próprios experimentos dos pesquisadores, ao testar o conjunto de dados em três modelos viáveis de aprendizado profundo, os levaram a concluir que 'o desempenho excepcional amplamente relatado no domínio do problema é inflado, os resultados de desempenho do modelo são mal representados e os modelos não se generalizam bem para dados clinicamente realistas.'

Cinco conjuntos de dados contrastantes em um

O relatório* observa que a maioria das metodologias atuais baseadas em IA neste campo depende de uma variedade "heterogênea" de dados de repositórios de código aberto distintos, observando que cinco conjuntos de dados com características notavelmente diferentes foram aglomerados no conjunto de dados COVIDx, apesar (na consideração dos pesquisadores) da paridade inadequada de qualidade e tipo de dados.

O conjunto de dados COVIDx foi liberado em maio de 2020 como um esforço de consórcio liderado pelo Departamento de Engenharia de Design de Sistemas da Universidade de Waterloo, no Canadá, com os dados disponibilizado como parte da Iniciativa de Código Aberto COVID-Net.

As cinco coleções que constituem o COVIDx são: o COVID-19 Coleta de dados de imagem (a aberto conjunto de pesquisadores de Montreal); o conjunto de dados de radiografia de tórax COVID-19 iniciativa; a radiografia de tórax Actualmed COVID-19 conjunto de dados; a radiografia COVID-19 banco de dados; e o Desafio de Detecção de Pneumonia da RSNA conjunto de dados, um dos muitos conjuntos pré-COVID que foram colocados em serviço para a crise pandêmica.

(RICORD - veja abaixo - foi adicionado ao COVIDx, mas como foi incluído posteriormente aos modelos de interesse no estudo, foi excluído dos dados do teste e, em qualquer caso, tendeu a variegar ainda mais o COVIDx, o que é a reclamação central dos autores do estudo.)

Os pesquisadores afirmam que o COVIDx é o 'maior e mais amplamente utilizado' conjunto de dados desse tipo dentro da comunidade científica relacionada à pesquisa da COVID, e que os dados importados para o COVIDx dos conjuntos de dados externos constituintes não estão em conformidade adequada com o esquema tripartido do conjunto de dados COVIDx (ou seja, 'normal', 'pneumonia' e 'COVID-19').

Perto do suficiente..?

Ao examinar a procedência e a adequação dos conjuntos de dados contribuintes para a COVIDx no momento do estudo, os pesquisadores descobriram "uso indevido" dos dados da RSNA, onde dados de um tipo, afirmam os pesquisadores, foram agrupados em uma categoria diferente:

'O repositório RSNA, que usa dados de raios-X de tórax disponíveis publicamente do NIH Chestx-ray8 [**], foi projetado para uma tarefa de segmentação e, como tal, contém três classes de imagens, 'Opacidade pulmonar', 'Sem opacidade pulmonar/não normal' e 'Normal', com caixas delimitadoras disponíveis para casos de 'Opacidade pulmonar'.

'Na compilação do COVIDx, todas as radiografias de tórax da classe 'Opacidade Pulmonar' são incluídas na classe de pneumonia.'

Efetivamente, afirma o artigo, a metodologia COVIDx expande a definição de "pneumonia" para incluir "todas as opacidades pulmonares semelhantes à pneumonia". Consequentemente, o valor comparável dos tipos de dados comparativos está (presumivelmente) ameaçado. Os pesquisadores afirmam:

[...] a classe pneumonia no conjunto de dados COVIDx contém radiografias de tórax com uma variedade de outras patologias, incluindo derrame pleural, infiltração, consolidação, enfisema e massas. A consolidação é uma característica radiológica de possível pneumonia, não um diagnóstico clínico. Usar a consolidação como substituto para pneumonia sem documentar isso é potencialmente enganoso.

Patologias alternativas (além do COVID-19) associadas ao COVIDx. Fonte: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

O relatório constata que apenas 6.13% dos 4,305 casos de pneumonia provenientes da RSNA foram rotulados com precisão, representando apenas 265 casos de pneumonia genuína.

Além disso, muitos dos casos de não pneumonia incluídos no COVIDx representavam comorbidades – complicações de outras doenças ou problemas médicos secundários em condições que não estão necessariamente relacionadas à pneumonia.

Não é 'normal'

O relatório sugere ainda que a influência do conjunto de dados de teste de desafio da RSNA na COVID-19 distorceu a estabilidade empírica dos dados. Os pesquisadores observam que a COVID-19 prioriza a classe "normal" dos dados da RSNA, excluindo efetivamente todas as classes "sem opacidade pulmonar/não normal" no conjunto de dados mais amplo. O artigo afirma:

'Embora isso esteja de acordo com o que é esperado dentro do rótulo 'normal', expandir a classe de pneumonia e usar apenas radiografias de tórax 'normais', em vez de casos negativos de pneumonia, simplifica muito a tarefa de classificação.

'O resultado final disso é um conjunto de dados que reflete uma tarefa que está distante do verdadeiro problema clínico.'

Vieses potenciais de padrões de dados incompatíveis

O artigo identifica vários outros tipos de viés na COVIDx, observando que alguns dos dados contribuintes misturam imagens de raios X de tórax pediátrico com raios X de pacientes adultos, e observa ainda que esses dados são a única fonte "significativa" de imagens pediátricas na COVIDx.

Além disso, as imagens do conjunto de dados RSNA têm resolução de 1024×1024, enquanto outro conjunto de dados contribuidor fornece imagens com resolução de apenas 299×299. Como os modelos de aprendizado de máquina invariavelmente redimensionam as imagens para acomodar o espaço de treinamento disponível (espaço latente), isso significa que as imagens de 299×299 serão ampliadas em um fluxo de trabalho de treinamento (potencialmente levando a artefatos relacionados a um algoritmo de escalonamento em vez de patologia) e as imagens maiores foram reduzidas. Novamente, isso atenua os padrões de dados homogêneos necessários para a análise de visão computacional baseada em IA.

Além disso, os dados do ActMed inseridos no COVIDx contêm "marcadores em forma de disco" em radiografias de tórax de COVID-19, uma característica recorrente que é inconsistente com o conjunto de dados mais amplo e que precisaria ser tratada como um "valor atípico repetitivo".

Esse é o tipo de problema que geralmente é resolvido limpando ou omitindo os dados, visto que a recorrência dos marcadores é suficiente para ser registrada como uma "característica" no treinamento, mas não é frequente o suficiente para ser generalizada de forma útil no conjunto de dados como um todo. Sem um mecanismo para descontar a influência dos marcadores artificiais, eles poderiam ser potencialmente considerados pela metodologia do sistema de aprendizado de máquina como fenômenos patológicos.

Treinamento e Teste

Os pesquisadores testaram o COVIDx em dois conjuntos de dados comparativos em três modelos. Os dois conjuntos de dados extras foram RICORD, que contém 1096 radiografias de tórax de COVID-19 em 361 pacientes, provenientes de quatro países; e CheXpert, um conjunto de dados público

Os três modelos utilizados foram COVID-Net, CoroNetName e DarkCovidNet. Todos os três modelos empregam redes neurais convolucionais (CNNs), embora o CoroNet consista em um processo de classificação de imagem em dois estágios, com autoencoders passando a saída para um classificador CNN.

Os testes mostraram uma "queda acentuada" no desempenho de todos os modelos em conjuntos de dados não relacionados à COVID-86, em comparação com a precisão de XNUMX% obtida com o uso de dados relacionados à COVID-XNUMX. No entanto, se os dados estiverem rotulados ou agrupados incorretamente, esses resultados são efetivamente falsos. Os pesquisadores notaram uma redução significativa na precisão dos resultados nos conjuntos de dados externos comparáveis, que o artigo propõe como dados mais realistas e classificados corretamente.

Além disso, o jornal observa:

Uma revisão clínica de 500 mapas de saliência grad-CAM gerados por predição com base em dados de testes de COVID-19 mostrou uma tendência de significância em características clinicamente irrelevantes. Isso geralmente incluiu um foco em estruturas ósseas e tecidos moles, em vez da opacificação bilateral difusa dos campos pulmonares, típica da infecção por COVID-XNUMX.

Este é um raio-X de um caso confirmado de COVID-19, atribuído a uma mera probabilidade de previsão de 0.938 do COVIDx treinado no DarkCovidNet.

Conclusões

Os pesquisadores criticam a falta de dados demográficos ou clínicos relacionados às imagens de raios X na COVIDx, argumentando que, sem eles, é impossível levar em conta "fatores de confusão", como a idade.

Eles também observam que os problemas encontrados no conjunto de dados COVIDx podem ser aplicáveis a outros conjuntos de dados de origem semelhante (ou seja, misturando bancos de dados de imagens radiológicas pré-COVID com dados recentes de imagens de raios-X COVID sem arquitetura de dados adequada, compensação de variância e escopo claro das limitações desta abordagem).

Ao resumir as deficiências da COVIDx, os pesquisadores enfatizam a inclusão desequilibrada de radiografias pediátricas "claras", bem como sua percepção do uso indevido de rótulos e alto risco de viés e confusão na COVIDx, argumentando que "o desempenho excepcional [do COVIDx] amplamente divulgados no domínio do problema são inflados, os resultados de desempenho do modelo são mal representados e os modelos não se generalizam bem para dados clinicamente realistas.'

O relatório conclui:

A falta de dados hospitalares disponíveis, combinada com uma avaliação inadequada de modelos em todo o domínio do problema, permitiu o uso de dados de código aberto para enganar a comunidade de pesquisa. A publicação contínua de métricas de desempenho de modelos infladas corre o risco de prejudicar a confiabilidade da pesquisa de IA em diagnósticos médicos, especialmente quando a doença é de grande interesse público. A qualidade da pesquisa neste domínio precisa melhorar para evitar que isso aconteça; isso deve começar com os dados.

*Embora os pesquisadores do estudo afirmem ter feito os dados, arquivos e código para o novo papel disponível online, o acesso requer login e, no momento da escrita, nenhum acesso público geral aos arquivos está disponível.
** ChestX-ray8: Banco de dados de radiografia de tórax em escala hospitalar e benchmarks na classificação e localização mal supervisionadas de doenças comuns do tórax - https://arxiv.org/pdf/1705.02315.pdf

Tópicos relacionados:Covid-19 viés de dados ciência de dados saúde saúde pesquisa

A seguir

Dados sintéticos não protegem a privacidade de forma confiável, afirmam pesquisadores

Não Perca

Engenheiros criam braço biônico que restaura comportamentos naturais em pacientes