Logo PUCPR

SELEÇÃO GLOBAL DE ATRIBUTOS EM CLASSIFICADOR HIERÁRQUICO BASEADO EM NÓ-PAI

MAGALHÃES, Lucca Fabricio ¹; NIEVOLA, Julio Cesar ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: Problemas de classificação hierárquica caracterizam-se por classes organizadas em estruturas multinível, frequentemente representadas por grafos acíclicos direcionados (DAGs). Esses problemas surgem em diversas áreas, incluindo a bioinformática, onde ontologias como a Gene Ontology (GO) são amplamente utilizadas. Métodos tradicionais de classificação enfrentam grandes desafios nesse cenário, como o elevado número de atributos, a dependência estrutural entre as classes e o forte desbalanceamento dos dados. OBJETIVOS: Este trabalho tem como objeto de estudo avaliar o impacto da seleção de atributos em classificadores hierárquicos do tipo Local Classifier per Parent Node (LCPN). Em particular, buscamos verificar se métodos globais de seleção de atributos podem oferecer ganhos de desempenho em relação às abordagens locais tradicionais. Além disso, analisamos como estratégias de promoção de instâncias em classes raras (método “MINC”) podem mitigar os efeitos negativos do desbalanceamento. MATERIAIS E MÉTODO: Foram utilizados oito conjuntos de dados hierárquicos da Gene Ontology voltados à predição de funções proteicas em Saccharomyces cerevisiae. Implementamos modelos LCPN com algoritmos baseados em árvores (ExtraTrees) e redes neurais artificiais (Multilayer Perceptron – MLP), comparando cenários com e sem seleção global de atributos. Os filtros globais foram aplicados antes da divisão hierárquica dos dados, permitindo avaliar os benefícios teóricos de se construir um único espaço vetorial otimizado para toda a hierarquia. Avaliamos também o mecanismo de promoção de classes raras (“MINC”), que promove folhas com poucas instâncias aos níveis superiores da hierarquia, variando o suporte mínimo (MINC) entre 1 e 25 instâncias por classe. Os experimentos utilizaram validação cruzada estratificada em cinco folds, mensurando métricas específicas para classificação hierárquica, como ℎ𝐹, ℎ𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛, ℎ𝑅𝑒𝑐𝑎𝑙𝑙, além do tempo computacional. RESULTADOS: Os modelos LCPN com seleção global de atributos e promoção de folhas raras (MINC) superaram em certos casos os métodos tradicionais (baselines) em até 14% na métrica hF. Em particular, o cenário que combinou redes neurais locais (MLP) com seleção global baseada em qui-quadrado (LCPN-GCHI2-MLP) obteve os melhores resultados dentre todos os métodos aplicados. Esses achados confirmam a hipótese de que um espaço de atributos globalmente otimizado é benéfico para classificadores locais em estruturas hierárquicas. CONSIDERAÇÕES FINAIS: O uso de seleção global de atributos mostrou-se altamente eficaz em contextos de classificação hierárquica, especialmente quando combinado com classificadores baseados em redes neurais. Além disso, a estratégia de promoção de instâncias raras revelou-se fundamental para mitigar efeitos adversos do desbalanceamento, o que consistentemente melhorou o desempenho dos modelos. Recomendamos, portanto, que essas abordagens sejam incorporadas aos pipelines padrão em problemas hierárquicos de alta dimensionalidade e forte desbalanceamento.

PALAVRAS-CHAVE: Classificação hierárquica; Seleção global de atributos; Gene Ontology; Promoção de instâncias raras; Local Classifier Per Parent Node.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa PUCPR no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.