Logo PUCPR

SELEÇÃO GLOBAL DE ATRIBUTOS EM CLASSIFICADOR HIERÁRQUICO BASEADO EM NÓ

BERKEMBROCK, Isabella Vanderlinde ¹; NIEVOLA, Julio Cesar ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: A classificação hierárquica é indicada para problemas cujas classes possuem relações estruturadas, como na previsão da função de proteínas. Diferente da classificação plana, essa abordagem explora a organização em Árvores ou Directed Acyclic Graph (DAGs), sendo relevante para cenários multilabel, como previsão de funções de proteínas. OBJETIVOS: Implementar um classificador baseando em um modelo local por nó, a fim de verificar se o paradigma de base do classificador tem influência significativa na qualidade do modelo gerado em problemas hierárquicos para previsão da função de proteínas, ademais investigar o impacto da Seleção Global de Atributos nesse cenário. MATERIAIS E MÉTODO: A pesquisa iniciou com uma revisão exploratória sobre classificação hierárquica, abordagens locais e aplicações em bioinformática. Em seguida, foram selecionados algoritmos base com o Weka e adotada a biblioteca HiClass (4.13.3) para implementar o LCN multilabel. Utilizou-se a base cellcycle.valid.arff (847 instâncias) do repositório. Foram aplicados pré-processamento com Iterative Imputer, balanceamento com Random Over Sampling e SMOTE-ENN (resultando em 18.261 instâncias), particionamento estratificado (80/20) e ajuste de hiperparâmetros via Grid Search. O modelo foi treinado utilizando o Multi Label Local Classifier Per Node do HiClass usando política siblings e tolerância de 0,06. Posteriormente, realizou-se a seleção global de atributos por correlação de Pearson, removendo variáveis abaixo da média, e o modelo foi reavaliado comparando-se os resultados antes e após essa etapa. RESULTADOS: Os classificadores baseados em árvores apresentaram desempenho robusto, com F1 Score (micro) ≈0,83 antes e ≈0,80 após a seleção, e F1 Score (macro) ≈0,83 antes e ≈0,81 após, indicando apenas leves quedas, sobretudo na precisão. A análise evidenciou que tanto a remoção de atributos pouco correlacionados quanto a natureza dos classificadores baseados em árvores, que dependem de divisões sucessivas mesmo em variáveis de baixa correlação, influenciaram o desempenho. Isso reforça a importância de estratégias de seleção de atributos adaptadas por nível ou por nó, capazes de preservar variáveis relevantes específicas para diferentes regiões da hierarquia e a implicação da definição do classificador no desempenho do modelo. CONSIDERAÇÕES FINAIS: Os resultados confirmam que a abordagem LCN com classificadores baseados em árvores é adequada e robusta para problemas hierárquicos multilabel de predição de funções de proteínas. Além disso, evidenciam que métodos locais de seleção de atributos podem potencializar o desempenho em níveis específicos da hierarquia, alinhando-se à natureza estruturada do problema e favorecendo predições mais precisas.

PALAVRAS-CHAVE: Classificação Hierárquica; Multilabel; HiClass; Bioinformática; Função de proteínas.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida na modalidade voluntária no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.