SELEÇÃO DE INSTÂNCIAS BASEADA EM DIFICULDADE DE CLASSIFICAÇÃO PARA MODELOS MONOLÍTICOS DE MINERAÇÃO DE FLUXOS DE DADOS
INTRODUÇÃO: A área de Data Stream Mining valoriza e propaga algoritmos capazes de aprender de forma incremental, rápida e com baixos custos, lidando com grandes volumes de dados, inconsistências e até mesmo mudanças de conceito, simultaneamente. Nesse contexto, a técnica de seleção de instâncias pode reduzir a quantidade de treinamento, impactando performance e desempenho de algoritmos de mineração de fluxos de dados. OBJETIVOS: O trabalho avaliou o uso da métrica de Instance Hardness (IH) como critério de Seleção de Instâncias (SI) para classificadores monolíticos, investigando se a remoção sistemática de instâncias consideradas fáceis melhora a eficiência em comparação com classificador original, a fim de explorar e comparar essas técnicas com o learner original e uma SI ingênua que descarta todas as instâncias classificadas corretamente. MATERIAIS E MÉTODO: Implementou-se um metalearner capaz de encapsular outros classificadores (nesse caso Hoeffding Trees e Naive Bayes) aplicando nove limiares de IH (0,1-0,9) sobre 27 conjuntos de dados reais e sintéticos. O protocolo prequential mediu a acurácia, tempo de avaliação (em segundos) e custo computacional (Ram-Hours) para cada configuração, comparando o IH-Selector ao learner original e ao método ingênuo. RESULTADOS: Limiares intermediários (0,3-0,4) que rejeitam as instâncias “mais fáceis”, reduzem a carga de processamento do classificador, superando a abordagem ingênua anteriormente implementada, porém, ela ainda não supera o classificador original em termos de performance. Limiares mais agressivos apresentam melhora significativa nos custos, mas produzem um comportamento altamente instável a respeito da acurácia, se mostrando bons para alguns datasets somente, indicando que mais métricas de hardness poderiam deixar o learner mais robusto e flexível. CONSIDERAÇÕES FINAIS: A implementação de Instance Hardness como critério de seleção de instâncias é viável para datastreams, gerando uma singela melhora quando se escolhem limiares moderados. Apesar de não superar métodos do estado da arte, a abordagem amplia o entendimento sobre a influência da dificuldade das instâncias e abre portas para investigar IH com outras métricas de complexidade, a fim de aprimorar o treinamento realizado pelos algoritmos.
PALAVRAS-CHAVE: Mineração de Fluxo de Dados; Instance Hardness; Seleção de Instâncias; Custo Computacional; Classificação Online.
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.