Logo PUCPR

CODIFICAÇÃO DE TERMOS CLINICOS DE NARRATIVAS CLÍNICAS EM PORTUGUÊS UTILIZANDO GRANDES MODELOS DE LINGUAGEM

OTTA, Michele Cristina ¹; BARRA, Claudia Maria Cabral Moro ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Engenharia de Computação – Escola Politécnica – Câmpus Curitiba

Introdução: Com os avanços dos Grandes Modelos de Linguagem (LLMs) e o aprimoramento contínuo de suas capacidades, destaca-se seu potencial para apoiar tarefas em diversas áreas, incluindo a saúde. No contexto clínico, os LLMs podem ser aplicados na identificação e normalização de diagnósticos contidos nos textos de narrativas clínicas, facilitando a análise e compartilhamento de informações, além de reduzir ambiguidades na interpretação. Nesse cenário, foi proposto o método MapClinLLM, que utiliza LLMs para identificar diagnósticos em narrativas clínicas em português e codificá-los segundo a nomenclatura SNOMED CT. Objetivos: Aprimorar LLMs para codificação para SNOMED C de termos contidos em narrativas clínicas em português. Materiais e método: Com base em engenharia de prompt, foram desenvolvidos e testados diferentes prompts para a tarefa de extração de “Sinais ou Sintomas” ou “Doenças e Síndromes” e mapeamento aos seus respectivos códigos SNOMED. Os modelos testados incluíram GPT 3.5, GPT 4, Llama e DeepSeek. A avaliação foi realizada sobre 102 narrativas clínicas do corpus TempClinBr, considerando as métricas de recall, precision e F1-Score, além da verificação dos códigos SNOMED CT que foram relacionados aos termos clínicos dos textos das narrativas. Resultados: O modelo GPT 4 apresentou o melhor desempenho em todas as métricas, alcançando precision de aproximadamente 0.94 e F1-Score de 0.64. Destacou-se também por mapear corretamente 115 códigos não fornecidos previamente. Além de demonstrar um grau de compreensão do contexto clínico ao selecionar representações específicas do SNOMED, ao invés de genéricas. Llama e DeepSeek, ainda que reconhecidos por suas performances comparáveis aos principais modelos de linguagem, não atingiram o mesmo nível de desempenho do GPT na tarefa clínica proposta. Observou-se a ocorrência de alucinações em todos os modelos. Apesar disso, todos demonstraram potencial na identificação correta de abreviações médicas. Considerações finais: Os resultados do MapClinLLM demonstram potencial promissor para o uso de LLMs na extração e normalização de dados clínicos, o que pode contribuir para a melhoria da interoperabilidade semântica no setor de saúde. Entretanto, ainda requerem aperfeiçoamento e testes contínuos no contexto clínico, para assim assegurar que os LLMs forneçam um verdadeiro suporte à área de saúde e não seja uma fonte de incerteza ou venha a causar danos.

Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Large Language Models; Normalização; LLMs na Medicina.

APRESENTAÇÃO EM VÍDEO

Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBITI.
Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.