AVALIANDO O ALGORITMO ADAPTIVE REGULARIZED ENSEMBLE (ARE) EM FLUXOS DE DADOS DESBALANCEADOS
Introdução: A mineração de fluxos de dados desbalanceados é um desafio proeminente na ciência da computação, onde o objetivo é classificar corretamente instâncias de classes minoritárias, frequentemente as mais importantes, em um ambiente de alto volume, velocidade e com recursos computacionais limitados. Algoritmos de ensemble são uma solução eficaz para essa tarefa, mas frequentemente impõem um alto custo computacional. O algoritmo Adaptive Regularized Ensemble (ARE), que treina seus modelos base apenas com instâncias classificadas incorretamente, surge como uma alternativa promissora e eficiente, cuja aplicabilidade em cenários desbalanceados ainda não foi extensivamente explorada. Objetivos: O presente trabalho teve como objetivo principal avaliar sistematicamente o desempenho do ARE em fluxos de dados com diferentes níveis de desbalanceamento de classes, investigando se seu mecanismo de treinamento funciona como uma forma de subamostragem implícita. Materiais e método: Para isso, foi conduzido um estudo experimental no framework de software MOA, utilizando um conjunto de datasets sintéticos e reais. Estes foram configurados em três cenários distintos: balanceado (50-50), moderadamente desbalanceado (90-10) e extremamente desbalanceado (99-1). O desempenho do ARE foi comparado ao de oito outros algoritmos, incluindo ensembles generalistas consagrados e métodos especialistas em dados desbalanceados, através da metodologia de avaliação prequential (test-then-train). As métricas utilizadas para a análise foram Acurácia, Índice Kappa, Tempo de Execução e Uso de Memória. Resultados: Os resultados indicam que o ARE apresenta um desempenho preditivo notavelmente robusto, superando outros métodos generalistas na métrica Kappa em diversos cenários e demonstrando uma forte capacidade de aprender a classe minoritária. Verificou-se que o algoritmo oferece um balanço superior entre performance e eficiência, mantendo uma alta precisão com um custo computacional significativamente menor que o de outros ensembles complexos. Contudo, em casos de desbalanceamento extremo (99-1) em dados sintéticos simples, a abordagem mostrou limitações, com desempenho Kappa nulo. Considerações finais: Conclui-se que o ARE se estabelece como uma alternativa viável e de alta eficiência para a classificação de fluxos de dados desbalanceados, especialmente em ambientes com restrição de recursos. Seu mecanismo de treinamento se mostrou uma forma eficaz de subamostragem implícita, validando a hipótese central do estudo e respondendo positivamente ao objetivo proposto.
Palavras-chave: Mineração de Fluxos de Dados; Dados Desbalanceados; Aprendizado de Máquina; Algoritmos de Ensemble; Adaptive Regularized Ensemble (ARE).
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.