Ângulo de Anderson

Usando o Show de TV ‘House’ para Desenvolver as Capacidades Diagnósticas da IA

Publicado em 17 de novembro de 2025

Atualizado em 17 de maio de 2026

Por

Martin Anderson

A screen capture from the NBC TV show 'House, S04E02., 'The Right Stuff'

Embora o diagnóstico de doenças raras seja um desafio particularmente difícil para a IA (assim como para os humanos), os modelos de linguagem populares ChatGPT e Gemini mostram um desempenho promissor quando treinados em casos diagnósticos do drama médico popular ‘House’.

Quase metade de todos os estudantes de ciências da saúde assistem regularmente a dramas médicos como House, Grey’s Anatomy e Scrubs. Embora esse tipo de material possa ser usado apenas para fins didáticos com muita filtragem e estruturação, devido ao risco de disseminar informações perigosas e erradas, o padrão de pesquisa para dramas que apresentam condições médicas tende a ser bastante alto (embora a precisão varie entre produções).

Como não é de surpreender, os médicos frequentemente criam, aconselham e/ou escrevem dramas médicos de TV. Nesses casos, um conhecimento extensivo do domínio médico é vantajoso não apenas para transmitir questões médicas de forma precisa, mas também para idear sugestões para novas e interessantes tramas.

Um dos dramas médicos mais estudados da recente “idade de ouro” da TV é House (também conhecido como House MD), onde as excentricidades do personagem principal e as grandes flutuações no elenco de apoio, embora entretenidas, ficaram em segundo plano em relação à “doença da semana”.

De fato, dos 177 episódios exibidos ao longo de sua corrida de oito temporadas, House forneceu 176 estudos de caso diagnósticos assíduos. Embora o show tenha terminado em 2012, em 2015 já estava em uso como uma ferramenta de ensino, com um seminário especial do Dr. House que oferecia resultados melhorados em comparação com o material padrão do seminário, mesmo que a frequência não oferecesse créditos para os estudantes:

De um estudo de 2015, razões diversas pelas quais os estudantes de medicina queriam participar de um seminário diagnóstico que utilizava informações do show de TV ‘House’. Os seminários foram agendados em um horário deliberadamente desafiador e não concediam créditos de estudo; apesar desses fatores, a iniciativa foi um sucesso. Fonte

Casa e IA

Embora o uso de House e outros dramas de TV diversos tenha sido comprovado em vários estudos como um auxílio eficaz ao aprendizado para estudantes de medicina, pouco dessa abordagem foi tentado até agora em um contexto de aprendizado de máquina.

Agora, um novo artigo da Universidade Estadual da Pensilvânia fez uma incursão inicial nessa direção, desenvolvendo um conjunto de dados que apresenta todos os 176 estudos de caso usáveis de House, formulados em uma estrutura diagnóstica narrativa, subsequentemente avaliada em LLMs populares da OpenAI e do Google.

Apesar da dificuldade desse desafio (que caracteriza um dos campos mais difíceis das ciências biológicas), os pesquisadores encontraram que versões mais recentes do ChatGPT e do Gemini mostraram melhoria em relação às versões mais antigas, indicando que a tendência evolutiva do desenvolvimento do modelo provavelmente se inclinará eficazmente para processos diagnósticos com o tempo.

O artigo afirma:

‘Os resultados mostram uma variação significativa no desempenho, variando de 16,48% a 38,64% de precisão, com gerações mais recentes de modelos demonstrando uma melhoria de 2,3 vezes. Embora todos os modelos enfrentem desafios substanciais com o diagnóstico de doenças raras, a melhoria observada nas arquiteturas sugere direções promissoras para o desenvolvimento futuro.

‘Nossa validação educacional estabelece métricas de desempenho básicas para raciocínio médico narrativo e fornece um quadro de avaliação publicamente acessível para avançar na pesquisa de diagnóstico assistido por IA.’

Além de estabelecer métricas de desempenho básicas contra as quais esforços futuros possam ser avaliados, os autores observam que o novo conjunto de dados – que eles estão tornando publicamente disponível – resolve a falta de processo narrativo dentro dos conjuntos de dados médicos existentes e está facilmente disponível, em contraste com a cultura de conjuntos de dados médicos padrão.

O novo trabalho é intitulado Avaliando Grandes Modelos de Linguagem no Diagnóstico de Doenças Raras: Um Estudo de Caso Usando House M.D e vem de quatro pesquisadores da Penn State*.

Dados

Para popular o conjunto de dados, os autores usaram material publicamente disponível do site de fãs House Wiki estabelecido. O conteúdo narrativo foi extraído e destilado usando o framework Beautiful Soup popular, que pode extrair dados estruturais da fonte HTML de páginas da web.

Depois que as narrativas básicas foram colhidas dessa forma, quatro LLMs foram usados para transformar a saída em formato de caso padronizado. Os modelos usados foram GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; e Gemini 2.5 Pro. Finalmente, foi aplicado um filtro de qualidade para garantir que o conjunto de dados tivesse detalhes clínicos apropriados e estivesse alinhado com o estado atual da arte em raciocínio médico.

Os autores observam que ‘doenças órfãs’ (também conhecidas como doenças raras) estão sub-representadas em bancos de dados médicos padrão; em certos casos, sua cobertura no show House pode representar uma porcentagem incomum de sua cobertura total existente.

Os autores concordam que a utilidade de uma fonte de dados desse tipo tem que ser temperada com cautela em relação à licença artística que pode ser priorizada às vezes no desenvolvimento de dramas médicos:

‘Embora nosso conjunto de dados reflita limitações de conteúdo fictício, incluindo exagero dramático e foco em casos complexos, essas características podem beneficiar a avaliação fornecendo casos de bordo desafiadores que testam a robustez do modelo.

‘A validação educacional de House M.D. por profissionais médicos fornece confiança de que os cenários extraídos contêm informações clinicamente significativas adequadas para avaliação da IA.’

Exemplos do conjunto de dados gerado para o projeto. Fonte

Testes

Para avaliar a precisão do modelo em tarefas diagnósticas narrativas, os autores projetaram um pipeline simples que combina geração de prompts, inferência do modelo e pontuação.

Os quatro LLMs mencionados anteriormente foram testados, com cada modelo configurado com temperatura definida como zero (garantindo saída determinística em vez de ‘criativa’), e com um comprimento máximo de token de 1.500 – uma concessão projetada para acomodar raciocínio diagnóstico complexo. Nenhum prompt adicional do sistema foi usado para enquadrar as consultas ainda mais.

Os próprios prompts aderiram a um formato padrão de apresentação de caso médico estruturado – o tipo que os espectadores estarão mais familiarizados com dramas médicos quando um novo paciente/doença é introduzido e um médico resume uma visão geral para o benefício de outros médicos presentes (efetivamente, embora, para o benefício dos espectadores).

Cada prompt apresentou uma narrativa clínica que incluía detalhes demográficos; uma linha do tempo de sintomas; histórico médico relevante; e achados diagnósticos iniciais. O modelo foi instruído a identificar um único diagnóstico primário e justificar sua conclusão com raciocínio.

Cada modelo gerou sua resposta diagnóstica em uma única passagem, sem nenhum refinamento iterativo; e as respostas foram coletadas sob condições consistentes em todos os 176 casos:

Um exemplo ilustrativo de avaliação, mostrando um prompt clínico narrativo e seu diagnóstico de verdade correspondente, como usado para testar o Gemini 2.5 Pro. Fonte [ https://arxiv.org/pdf/2511.10912 ]

Um exemplo ilustrativo mostrando um prompt clínico narrativo e seu diagnóstico de verdade correspondente, como usado para testar o Gemini 2.5 Pro. Fonte

Para métricas, as previsões foram avaliadas usando um procedimento de combinação de strings ‘fuzzy’ projetado para levar em conta a ambiguidade na terminologia médica. A abordagem usou a biblioteca SequenceMatcher do Python, com um limiar de semelhança de 0,8, começando com correspondência de substring exata e recorrendo a comparação por token quando necessário. A precisão foi calculada como a proporção de casos classificados corretamente sob essas condições:

O fluxo de trabalho de ‘combinação fuzzy’ usado pelos pesquisadores.

Os autores observam que a combinação fuzzy pode significar que diagnósticos semanticamente idênticos que usam terminologia diferente podem ser perdidos, mas apresentam sua abordagem como a mais reprodutível que poderia atender a todas as restrições do projeto.

Resultados

A precisão diagnóstica variou amplamente entre os modelos, com o Gemini 2.5 Pro apresentando o melhor desempenho em 38,64%, seguido pelo GPT-5 Mini em 36,93%, pelo Gemini 2.5 Flash em 32,95% e pelo GPT-4o Mini em 16,48%. Apesar dessas diferenças, todos os modelos lutaram com as demandas do raciocínio diagnóstico para doenças raras:

Resultados para precisão diagnóstica nos quatro modelos testados.

Os autores também observam que o desempenho variou entre as temporadas do show:

Precisão variada entre as diversas temporadas de House, mas sem uma curva óbvia ou razão clara.

O artigo afirma:

‘A Temporada 1 alcançou a precisão mais alta em 56,52%, enquanto a Temporada 5 mostrou a mais baixa em 20,83%. Essa variação sugere que a complexidade diagnóstica varia ao longo da série, com temporadas posteriores possivelmente apresentando casos de doenças raras mais desafiadores.

‘No entanto, o desempenho relativamente forte na Temporada 8 (52,38%) indica que a progressão temporal sozinha não explica completamente as diferenças de precisão; a complexidade diagnóstica do caso parece ser o principal motor.’

Os modelos performaram mais confiavelmente quando diagnosticavam condições comuns com sintomas reconhecíveis, como meningite, infarto do miocárdio e embolia pulmonar – mas lutaram consistentemente com doenças raras como neurocisticercose e doença de Erdheim-Chester, bem como distúrbios autoimunes complexos como lupus eritematoso sistêmico e sarcoidose. O desempenho também caiu em casos toxicológicos que exigiam vincular a história de exposição aos sinais clínicos.

Os autores sugerem que a variação na precisão entre os modelos aponta para diferenças significativas na arquitetura e estratégia de treinamento, com o desempenho mais forte do GPT-5 Mini e do Gemini 2.5 Pro indicando que as gerações mais recentes de LLMs se beneficiam de capacidades de raciocínio aprimoradas – embora seus resultados ainda revelem limitações claras no tratamento de tarefas diagnósticas complexas.

Os resultados, eles defendem, fornecem métricas básicas para diagnóstico de doenças raras baseado em narrativa, indicando fortemente que os modelos de linguagem atuais estão começando a mostrar capacidades de raciocínio médico úteis.

O salto no desempenho do GPT-4o Mini em 16,48% para o Gemini 2.5 Pro em 38,64%, o artigo conclui, sinaliza um progresso constante em direção a ferramentas de suporte clínicas aplicáveis.

Embora os pesquisadores concordem que os níveis de precisão permanecem modestos, a referência se concentra exclusivamente em casos complexos que desafiam até mesmo médicos treinados, e a capacidade de identificar corretamente o diagnóstico em quase 40% desses exemplos difíceis aponta para uma capacidade de raciocínio genuína, preparando o terreno para melhorias futuras por meio de ajustes finos direcionados, integração de conhecimento médico estruturado ou estratégias de raciocínio híbrido.

Conclusão

Há alguns perigos óbvios em reutilizar narrativas de shows de TV em conjuntos de dados médicos reais – mesmo em casos, como House, onde o material de origem tem um alto nível de contribuições e supervisão médica qualificada.

É interessante notar que um episódio típico de House efetivamente atua como uma máquina de resumo para uma série de entradas médicas que podem não estar diretamente acessíveis na internet para a pessoa comum, ou para fontes de dados que apresentam as informações de forma mais fragmentada e não linear.

Ter um médico escrevendo o roteiro de um episódio, como frequentemente aconteceu com House, poderia ser usado pelos pesquisadores como uma forma de ‘aprovação’ do conteúdo; mas isso ignora o fato de que considerações artísticas podem ter influenciado a apresentação da doença no episódio.

Isso deixa os dados na condição de tantas outras fontes de dados potencialmente úteis para treinamento: necessitando de uma nova camada de supervisão humana qualificada e cara.

* Por favor, note que este artigo curto não segue o modelo padrão, e eu adaptei a cobertura para acomodá-lo.

Publicado pela primeira vez na segunda-feira, 17 de novembro de 2025