REPRESENTAÇÕES GERADAS DE FORMA NÃO SUPERVISIONADA INTEGRADAS VIA REDES NEURAIS COM MECANISMO DE ATENÇÃO
INTRODUÇÃO: O reconhecimento automático de expressões faciais (FER) é uma área central da visão computacional, com aplicações relevantes em contextos clínicos, emocionais e interativos. Contudo, modelos baseados em deep learning ainda enfrentam desafios quanto à interpretabilidade, sobretudo quando aplicados a dados com alta variabilidade entre sujeitos. Visando superar essa limitação, o presente projeto propôs um pipeline baseado em representações comprimidas por PCA e integradas via mecanismo de atenção, capaz de gerar mapas de ativação (CAMs) mais confiáveis e explicáveis. OBJETIVOS: O objetivo geral foi contêinerizar e avaliar um pipeline de FER combinando autoencoders, redução de dimensionalidade por IncrementalPCA e mecanismo de atenção, buscando equilíbrio entre desempenho na classificação e interpretabilidade visual. Os objetivos específicos incluíram: testar diferentes tamanhos de vetores comprimidos, empregar protocolos de validação NO-LOSO e LO-SO, gerar e avaliar CAMs com métricas como IoU, e garantir reprodutibilidade via Docker. MATERIAIS E MÉTODO: Foram utilizadas as bases JAFFE e CK+, processadas para extrair vetores latentes de autoencoders e posteriormente reduzidos com IncrementalPCA (k = 10, 20, 30 e 50). As representações comprimidas alimentaram uma rede de atenção implementada em PyTorch. Dois protocolos de avaliação foram aplicados: NO-LOSO (10-fold estratificado) e LO-SO (Leave-One-Subject-Out). A arquitetura CAM incorporou mecanismos de atenção nos canais latentes, e os experimentos foram integralmente contêinerizados para assegurar reprodutibilidade. RESULTADOS: No protocolo NO-LOSO, observou-se desempenho máximo de 85,0% de acurácia na base CK+ com apenas 10 componentes principais, enquanto na base JAFFE os melhores resultados ocorreram com 20–30 componentes. No protocolo mais rigoroso LO-SO, o modelo atingiu 86,4% na CK+ e 82,1% na JAFFE, evidenciando sua capacidade de generalização inter-sujeito. Quanto à interpretabilidade, os CAMs destacaram regiões faciais coerentes com a literatura (como sobrancelhas e olhos), com IoU médio de 0,74 (CK+) e 0,69 (JAFFE), superando abordagens como o Grad-CAM. O pipeline demonstrou robustez computacional e foi avaliado como altamente portável e replicável em diferentes ambientes. CONSIDERAÇÕES FINAIS: O estudo confirmou que a combinação autoencoder + PCA + mecanismo de atenção permite representar emoções com alta acurácia e interpretabilidade, mesmo com vetores de baixa dimensionalidade. A geração de CAMs mais estáveis e coerentes representa um avanço relevante para aplicações clínicas. A contenirização total do processo reforça a confiabilidade e a utilidade do pipeline como base para futuros estudos em diagnósticos por imagem. O modelo mostrou-se promissor para migração a domínios médicos, especialmente com aprimoramentos futuros como uso de Transformers e validações clínicas colaborativas.
PALAVRAS-CHAVE: Aprendizado da representação; Mecanismo de atenção; CAMs; Reconhecimento de emoções.
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.