RANDOM FOREST EM GPU PARA CLASSIFICAÇÃO EFICIENTE DE BIG DATA STREAMS EM FORMATO MINI-BATCH
INTRODUÇÃO: Este trabalho apresenta a implementação e avaliação de um modelo de Random Forest acelerado por GPU, denominado RFGPU, voltado para cenários de fluxos contínuos de dados (data streams) processados em formato mini-batch. OBJETIVOS: Motivado pela crescente necessidade de algoritmos que operem eficientemente em ambientes com restrições de tempo real, o estudo teve como objetivo desenvolver um modelo otimizado para execução em GPU, capaz de realizar inferências rápidas e adaptar-se a mudanças conceituais nos dados ao longo do tempo. MATERIAIS E MÉTODO: A metodologia proposta foi desenvolvida em Python, integrando as bibliotecas RAPIDS cuML e cuDF para o processamento paralelo em GPU, com treinamento inicial realizado por meio de uma janela fixa burnout window e atualizações incrementais baseadas no desempenho das predições em lotes subsequentes. Foram incorporados os detectores de concept drift DDM e ADWIN, e a avaliação experimental foi conduzida por meio da validação prequential modificada sobre os fluxos sintéticos Agrawal_1 e Agrawal_2 e sobre os datasets reais Airlines e Give Me Loan, explorando milhares de combinações de parâmetros. RESULTADOS: Os resultados mostraram que o RFGPU foi capaz de reduzir em média 134 vezes o tempo de execução em relação ao modelo ARF tradicional da biblioteca River. Em relação ao desempenho preditivo, o modelo apresentou métricas excelentes em datasets balanceados, mas demonstrou maior sensibilidade em cenários assimétricos, indicando a necessidade de futuras estratégias de balanceamento dinâmico. CONSIDERAÇÕES FINAIS: A aceleração por GPU para tarefas tradicionais de aprendizado supervisionado em fluxos de dados é uma abordagem promissora, viável e com potencial de otimização, embora a robustez preditiva em contextos desbalanceados ainda dependa de melhorias complementares.
PALAVRAS-CHAVE: Data streams; Random Forest; GPU; Concept Drift; Big Data Streams.
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.