SELEÇÃO GLOBAL DE ATRIBUTOS EM CLASSIFICADOR HIERÁRQUICO BASEADO EM NÓ
INTRODUÇÃO: A classificação hierárquica é indicada para problemas cujas classes possuem relações estruturadas, como na previsão da função de proteínas. Diferente da classificação plana, essa abordagem explora a organização em Árvores ou Directed Acyclic Graph (DAGs), sendo relevante para cenários multilabel, como previsão de funções de proteínas. OBJETIVOS: Implementar um classificador baseando em um modelo local por nó, a fim de verificar se o paradigma de base do classificador tem influência significativa na qualidade do modelo gerado em problemas hierárquicos para previsão da função de proteínas, ademais investigar o impacto da Seleção Global de Atributos nesse cenário. MATERIAIS E MÉTODO: A pesquisa iniciou com uma revisão exploratória sobre classificação hierárquica, abordagens locais e aplicações em bioinformática. Em seguida, foram selecionados algoritmos base com o Weka e adotada a biblioteca HiClass (4.13.3) para implementar o LCN multilabel. Utilizou-se a base cellcycle.valid.arff (847 instâncias) do repositório. Foram aplicados pré-processamento com Iterative Imputer, balanceamento com Random Over Sampling e SMOTE-ENN (resultando em 18.261 instâncias), particionamento estratificado (80/20) e ajuste de hiperparâmetros via Grid Search. O modelo foi treinado utilizando o Multi Label Local Classifier Per Node do HiClass usando política siblings e tolerância de 0,06. Posteriormente, realizou-se a seleção global de atributos por correlação de Pearson, removendo variáveis abaixo da média, e o modelo foi reavaliado comparando-se os resultados antes e após essa etapa. RESULTADOS: Os classificadores baseados em árvores apresentaram desempenho robusto, com F1 Score (micro) ≈0,83 antes e ≈0,80 após a seleção, e F1 Score (macro) ≈0,83 antes e ≈0,81 após, indicando apenas leves quedas, sobretudo na precisão. A análise evidenciou que tanto a remoção de atributos pouco correlacionados quanto a natureza dos classificadores baseados em árvores, que dependem de divisões sucessivas mesmo em variáveis de baixa correlação, influenciaram o desempenho. Isso reforça a importância de estratégias de seleção de atributos adaptadas por nível ou por nó, capazes de preservar variáveis relevantes específicas para diferentes regiões da hierarquia e a implicação da definição do classificador no desempenho do modelo. CONSIDERAÇÕES FINAIS: Os resultados confirmam que a abordagem LCN com classificadores baseados em árvores é adequada e robusta para problemas hierárquicos multilabel de predição de funções de proteínas. Além disso, evidenciam que métodos locais de seleção de atributos podem potencializar o desempenho em níveis específicos da hierarquia, alinhando-se à natureza estruturada do problema e favorecendo predições mais precisas.
PALAVRAS-CHAVE: Classificação Hierárquica; Multilabel; HiClass; Bioinformática; Função de proteínas.
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.