Assistência médica
Revolucionando a saúde: explorando o impacto e o futuro dos grandes modelos de linguagem na medicina

A integração e aplicação de grandes modelos de linguagem (LLMs) na medicina e na saúde tem sido um tema de significativo interesse e desenvolvimento.
Como observado no Conferência global sobre Gestão de Informação em Saúde e Sociedade de Sistemas e outros eventos notáveis, empresas como o Google estão liderando a exploração do potencial da IA generativa na área da saúde. As suas iniciativas, como o Med-PaLM 2, destacam o cenário em evolução das soluções de saúde baseadas em IA, particularmente em áreas como diagnóstico, atendimento ao paciente e eficiência administrativa.
O Med-PaLM 2 do Google, um LLM pioneiro no domínio da saúde, demonstrou capacidades impressionantes, alcançando notavelmente um nível de “especialista” em questões do tipo Exame de Licenciamento Médico dos EUA. Este modelo, e outros semelhantes, prometem revolucionar a forma como os profissionais de saúde acessam e utilizam a informação, melhorando potencialmente a precisão do diagnóstico e a eficiência do atendimento ao paciente.
No entanto, juntamente com estes avanços, surgiram preocupações sobre a praticidade e segurança destas tecnologias em ambientes clínicos. Por exemplo, a dependência de vastas fontes de dados da Internet para a formação de modelos, embora benéfica em alguns contextos, pode nem sempre ser apropriada ou fiável para fins médicos. Como Nigam Xá, PhD, MBBS, Cientista Chefe de Dados da Cuidados de Saúde de Stanford, aponta, as questões cruciais a serem feitas são sobre o desempenho desses modelos em ambientes médicos do mundo real e seu impacto real no atendimento ao paciente e na eficiência dos cuidados de saúde.
A perspectiva do Dr. Shah ressalta a necessidade de uma abordagem mais personalizada para a utilização de LLMs na medicina. Em vez de modelos de uso geral treinados em dados amplos da Internet, ele sugere uma estratégia mais focada, onde os modelos são treinados em dados médicos específicos e relevantes. Esta abordagem assemelha-se à formação de um estagiário médico – atribuindo-lhe tarefas específicas, supervisionando o seu desempenho e permitindo gradualmente mais autonomia à medida que demonstram competência.
Em linha com isto, o desenvolvimento de Meditron por pesquisadores da EPFL apresenta um avanço interessante no campo. Meditron, um LLM de código aberto adaptado especificamente para aplicações médicas, representa um avanço significativo. Treinado com base em dados médicos selecionados de fontes confiáveis, como PubMed e diretrizes clínicas, o Meditron oferece uma ferramenta mais focada e potencialmente mais confiável para médicos. A sua natureza de código aberto não só promove a transparência e a colaboração, mas também permite a melhoria contínua e testes de resistência por parte da comunidade de investigação em geral.

MEDITRON-70B alcança uma precisão de perguntas de estilo 70.2 no estilo USMLE no conjunto de dados de opções MedQA-4
O desenvolvimento de ferramentas como Meditron, Med-PaLM 2 e outras reflete um reconhecimento crescente dos requisitos únicos do setor da saúde quando se trata de aplicações de IA. A ênfase na formação destes modelos em dados médicos relevantes e de alta qualidade, e na garantia da sua segurança e fiabilidade em ambientes clínicos, é muito crucial.
Além disso, a inclusão de diversos conjuntos de dados, como os de contextos humanitários como o Comité Internacional da Cruz Vermelha, demonstra uma sensibilidade às diversas necessidades e desafios nos cuidados de saúde globais. Esta abordagem alinha-se com a missão mais ampla de muitos centros de investigação em IA, que visam criar ferramentas de IA que não sejam apenas tecnologicamente avançadas, mas também socialmente responsáveis e benéficas.
O jornal intitulado “Grandes modelos de linguagem codificam conhecimento clínico”publicado recentemente na Nature, explora como grandes modelos de linguagem (LLMs) podem ser utilizados de forma eficaz em ambientes clínicos. A pesquisa apresenta insights e metodologias inovadoras, lançando luz sobre as capacidades e limitações dos LLMs no domínio médico.
O domínio médico é caracterizado pela sua complexidade, com uma vasta gama de sintomas, doenças e tratamentos em constante evolução. Os LLMs devem não apenas compreender esta complexidade, mas também manter-se atualizados com os mais recentes conhecimentos e diretrizes médicas.
O núcleo desta pesquisa gira em torno de um benchmark recém-curado chamado MultiMedQA. Este benchmark reúne seis conjuntos de dados existentes de resposta a perguntas médicas com um novo conjunto de dados, HealthSearchQA, que compreende perguntas médicas frequentemente pesquisadas online. Esta abordagem abrangente visa avaliar os LLMs em várias dimensões, incluindo factualidade, compreensão, raciocínio, possíveis danos e preconceitos, abordando assim as limitações de avaliações automatizadas anteriores que se baseavam em referências limitadas.
A chave para o estudo é a avaliação do Pathways Language Model (PaLM), um LLM de 540 bilhões de parâmetros, e sua variante ajustada por instrução, Flan-PaLM, no MultiMedQA. Notavelmente, o Flan-PaLM alcança precisão de última geração em todos os conjuntos de dados de múltipla escolha do MultiMedQA, incluindo uma precisão de 67.6% no MedQA, que compreende questões do tipo Exame de Licenciamento Médico dos EUA. Este desempenho representa uma melhoria significativa em relação aos modelos anteriores, superando o estado da arte anterior em mais de 17%.
MedQA
Format: question and answer (Q + A), multiple choice, open domain.
Example question: A 65-year-old man with hypertension comes to the physician for a routine health maintenance examination. Current medications include atenolol, lisinopril, and atorvastatin. His pulse is 86 min−1, respirations are 18 min−1, and blood pressure is 145/95 mmHg. Cardiac examination reveals end diastolic murmur. Which of the following is the most likely cause of this physical examination?
Answers (correct answer in bold): (A) Decreased compliance of the left ventricle, (B) Myxomatous degeneration of the mitral valve (C) Inflammation of the pericardium (D) Dilation of the aortic root (E) Thickening of the mitral valve leaflets.
O estudo também identifica lacunas críticas no desempenho do modelo, especialmente na resposta a questões médicas dos consumidores. Para resolver esses problemas, os pesquisadores introduzem um método conhecido como ajuste de prompt de instrução. Esta técnica alinha LLMs de forma eficiente a novos domínios usando alguns exemplares, resultando na criação do Med-PaLM. O modelo Med-PaLM, embora tenha um desempenho encorajador e mostre melhorias na compreensão, na recordação de conhecimentos e no raciocínio, ainda fica aquém em comparação com os médicos.
Um aspecto notável desta pesquisa é a estrutura detalhada de avaliação humana. Esta estrutura avalia as respostas dos modelos quanto à concordância com o consenso científico e potenciais resultados prejudiciais. Por exemplo, embora apenas 61.9% das respostas longas do Flan-PaLM estivessem alinhadas com o consenso científico, este número subiu para 92.6% para o Med-PaLM, comparável às respostas geradas pelos médicos. Da mesma forma, o potencial para resultados prejudiciais foi significativamente reduzido nas respostas do Med-PaLM em comparação com o Flan-PaLM.
A avaliação humana das respostas do Med-PaLM destacou a sua proficiência em diversas áreas, alinhando-se estreitamente com as respostas geradas pelos médicos. Isto ressalta o potencial do Med-PaLM como ferramenta de suporte em ambientes clínicos.
A pesquisa discutida acima investiga os meandros do aprimoramento de Modelos de Linguagem Grande (LLMs) para aplicações médicas. As técnicas e observações deste estudo podem ser generalizadas para melhorar as capacidades do LLM em vários domínios. Vamos explorar estes aspectos principais:
O ajuste de instruções melhora o desempenho
- Aplicação Generalizada: O ajuste de instruções, que envolve o ajuste fino de LLMs com instruções ou diretrizes específicas, demonstrou melhorar significativamente o desempenho em vários domínios. Esta técnica poderia ser aplicada a outros campos, como domínios jurídicos, financeiros ou educacionais, para aumentar a precisão e a relevância dos resultados do LLM.
Dimensionando o tamanho do modelo
- Implicações mais amplas: A observação de que dimensionar o tamanho do modelo melhora o desempenho não se limita à resposta a perguntas médicas. Modelos maiores, com mais parâmetros, têm a capacidade de processar e gerar respostas mais matizadas e complexas. Esse dimensionamento pode ser benéfico em domínios como atendimento ao cliente, redação criativa e suporte técnico, onde a compreensão diferenciada e a geração de respostas são cruciais.
Solicitação de Cadeia de Pensamento (COT)
- Utilização de diversos domínios: O uso de prompts COT, embora nem sempre melhore o desempenho em conjuntos de dados médicos, pode ser valioso em outros domínios onde a resolução de problemas complexos é necessária. Por exemplo, na solução de problemas técnicos ou em cenários complexos de tomada de decisão, a solicitação do COT pode orientar os LLMs a processar informações passo a passo, levando a resultados mais precisos e fundamentados.
Autoconsistência para maior precisão
- Aplicações mais amplas: A técnica de autoconsistência, onde vários resultados são gerados e a resposta mais consistente é selecionada, pode melhorar significativamente o desempenho em vários campos. Em domínios como finanças ou jurídico, onde a precisão é fundamental, este método pode ser usado para verificar cruzadamente os resultados gerados para maior confiabilidade.
Incerteza e previsão seletiva
- Relevância entre domínios: A comunicação de estimativas de incerteza é crucial em domínios onde a desinformação pode ter consequências graves, como os cuidados de saúde e o direito. Utilizar a capacidade dos LLMs para expressar a incerteza e adiar seletivamente as previsões quando a confiança é baixa pode ser uma ferramenta crucial nestes domínios para evitar a disseminação de informações imprecisas.
A aplicação desses modelos no mundo real vai além de responder perguntas. Eles podem ser utilizados para educação de pacientes, auxiliando em processos diagnósticos e até mesmo na formação de estudantes de medicina. No entanto, a sua implantação deve ser cuidadosamente gerida para evitar a dependência da IA sem a devida supervisão humana.
À medida que o conhecimento médico evolui, os LLMs também devem se adaptar e aprender. Isto requer mecanismos de aprendizagem e atualização contínuas, garantindo que os modelos permanecem relevantes e precisos ao longo do tempo.