Logo PUCPR

SELEÇÃO DE INSTÂNCIAS BASEADA EM DIFICULDADE DE CLASSIFICAÇÃO PARA MODELOS MONOLÍTICOS DE MINERAÇÃO DE FLUXOS DE DADOS

CONCEIÇÃO, Isabella Lucena ¹; ENEMBRECK, Fabricio ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: A área de Data Stream Mining valoriza e propaga algoritmos capazes de aprender de forma incremental, rápida e com baixos custos, lidando com grandes volumes de dados, inconsistências e até mesmo mudanças de conceito, simultaneamente. Nesse contexto, a técnica de seleção de instâncias pode reduzir a quantidade de treinamento, impactando performance e desempenho de algoritmos de mineração de fluxos de dados. OBJETIVOS: O trabalho avaliou o uso da métrica de Instance Hardness (IH) como critério de Seleção de Instâncias (SI) para classificadores monolíticos, investigando se a remoção sistemática de instâncias consideradas fáceis melhora a eficiência em comparação com classificador original, a fim de explorar e comparar essas técnicas com o learner original e uma SI ingênua que descarta todas as instâncias classificadas corretamente. MATERIAIS E MÉTODO: Implementou-se um metalearner capaz de encapsular outros classificadores (nesse caso Hoeffding Trees e Naive Bayes) aplicando nove limiares de IH (0,1-0,9) sobre 27 conjuntos de dados reais e sintéticos. O protocolo prequential mediu a acurácia, tempo de avaliação (em segundos) e custo computacional (Ram-Hours) para cada configuração, comparando o IH-Selector ao learner original e ao método ingênuo. RESULTADOS: Limiares intermediários (0,3-0,4) que rejeitam as instâncias “mais fáceis”, reduzem a carga de processamento do classificador, superando a abordagem ingênua anteriormente implementada, porém, ela ainda não supera o classificador original em termos de performance. Limiares mais agressivos apresentam melhora significativa nos custos, mas produzem um comportamento altamente instável a respeito da acurácia, se mostrando bons para alguns datasets somente, indicando que mais métricas de hardness poderiam deixar o learner mais robusto e flexível. CONSIDERAÇÕES FINAIS: A implementação de Instance Hardness como critério de seleção de instâncias é viável para datastreams, gerando uma singela melhora quando se escolhem limiares moderados. Apesar de não superar métodos do estado da arte, a abordagem amplia o entendimento sobre a influência da dificuldade das instâncias e abre portas para investigar IH com outras métricas de complexidade, a fim de aprimorar o treinamento realizado pelos algoritmos.

PALAVRAS-CHAVE: Mineração de Fluxo de Dados; Instance Hardness; Seleção de Instâncias; Custo Computacional; Classificação Online.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.