Logo PUCPR

REPRESENTAÇÕES GERADAS DE FORMA NÃO SUPERVISIONADA INTEGRADAS VIA REDES NEURAIS COM MECANISMO DE ATENÇÃO

ONOFRIO, João Ishikawa ¹; JUNIOR, Alceu de Souza Britto ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: O reconhecimento automático de expressões faciais (FER) é uma área central da visão computacional, com aplicações relevantes em contextos clínicos, emocionais e interativos. Contudo, modelos baseados em deep learning ainda enfrentam desafios quanto à interpretabilidade, sobretudo quando aplicados a dados com alta variabilidade entre sujeitos. Visando superar essa limitação, o presente projeto propôs um pipeline baseado em representações comprimidas por PCA e integradas via mecanismo de atenção, capaz de gerar mapas de ativação (CAMs) mais confiáveis e explicáveis. OBJETIVOS: O objetivo geral foi contêinerizar e avaliar um pipeline de FER combinando autoencoders, redução de dimensionalidade por IncrementalPCA e mecanismo de atenção, buscando equilíbrio entre desempenho na classificação e interpretabilidade visual. Os objetivos específicos incluíram: testar diferentes tamanhos de vetores comprimidos, empregar protocolos de validação NO-LOSO e LO-SO, gerar e avaliar CAMs com métricas como IoU, e garantir reprodutibilidade via Docker. MATERIAIS E MÉTODO: Foram utilizadas as bases JAFFE e CK+, processadas para extrair vetores latentes de autoencoders e posteriormente reduzidos com IncrementalPCA (k = 10, 20, 30 e 50). As representações comprimidas alimentaram uma rede de atenção implementada em PyTorch. Dois protocolos de avaliação foram aplicados: NO-LOSO (10-fold estratificado) e LO-SO (Leave-One-Subject-Out). A arquitetura CAM incorporou mecanismos de atenção nos canais latentes, e os experimentos foram integralmente contêinerizados para assegurar reprodutibilidade. RESULTADOS: No protocolo NO-LOSO, observou-se desempenho máximo de 85,0% de acurácia na base CK+ com apenas 10 componentes principais, enquanto na base JAFFE os melhores resultados ocorreram com 20–30 componentes. No protocolo mais rigoroso LO-SO, o modelo atingiu 86,4% na CK+ e 82,1% na JAFFE, evidenciando sua capacidade de generalização inter-sujeito. Quanto à interpretabilidade, os CAMs destacaram regiões faciais coerentes com a literatura (como sobrancelhas e olhos), com IoU médio de 0,74 (CK+) e 0,69 (JAFFE), superando abordagens como o Grad-CAM. O pipeline demonstrou robustez computacional e foi avaliado como altamente portável e replicável em diferentes ambientes. CONSIDERAÇÕES FINAIS: O estudo confirmou que a combinação autoencoder + PCA + mecanismo de atenção permite representar emoções com alta acurácia e interpretabilidade, mesmo com vetores de baixa dimensionalidade. A geração de CAMs mais estáveis e coerentes representa um avanço relevante para aplicações clínicas. A contenirização total do processo reforça a confiabilidade e a utilidade do pipeline como base para futuros estudos em diagnósticos por imagem. O modelo mostrou-se promissor para migração a domínios médicos, especialmente com aprimoramentos futuros como uso de Transformers e validações clínicas colaborativas.

PALAVRAS-CHAVE: Aprendizado da representação; Mecanismo de atenção; CAMs; Reconhecimento de emoções.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.