Logo PUCPR

RANDOM FOREST EM GPU PARA CLASSIFICAÇÃO EFICIENTE DE BIG DATA STREAMS EM FORMATO MINI-BATCH

GOMES, Larissa Raimee ¹; BARDDAL, Jean Paul ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: Este trabalho apresenta a implementação e avaliação de um modelo de Random Forest acelerado por GPU, denominado RFGPU, voltado para cenários de fluxos contínuos de dados (data streams) processados em formato mini-batch. OBJETIVOS: Motivado pela crescente necessidade de algoritmos que operem eficientemente em ambientes com restrições de tempo real, o estudo teve como objetivo desenvolver um modelo otimizado para execução em GPU, capaz de realizar inferências rápidas e adaptar-se a mudanças conceituais nos dados ao longo do tempo. MATERIAIS E MÉTODO: A metodologia proposta foi desenvolvida em Python, integrando as bibliotecas RAPIDS cuML e cuDF para o processamento paralelo em GPU, com treinamento inicial realizado por meio de uma janela fixa burnout window e atualizações incrementais baseadas no desempenho das predições em lotes subsequentes. Foram incorporados os detectores de concept drift DDM e ADWIN, e a avaliação experimental foi conduzida por meio da validação prequential modificada sobre os fluxos sintéticos Agrawal_1 e Agrawal_2 e sobre os datasets reais Airlines e Give Me Loan, explorando milhares de combinações de parâmetros. RESULTADOS: Os resultados mostraram que o RFGPU foi capaz de reduzir em média 134 vezes o tempo de execução em relação ao modelo ARF tradicional da biblioteca River. Em relação ao desempenho preditivo, o modelo apresentou métricas excelentes em datasets balanceados, mas demonstrou maior sensibilidade em cenários assimétricos, indicando a necessidade de futuras estratégias de balanceamento dinâmico. CONSIDERAÇÕES FINAIS: A aceleração por GPU para tarefas tradicionais de aprendizado supervisionado em fluxos de dados é uma abordagem promissora, viável e com potencial de otimização, embora a robustez preditiva em contextos desbalanceados ainda dependa de melhorias complementares.

PALAVRAS-CHAVE: Data streams; Random Forest; GPU; Concept Drift; Big Data Streams.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa PUCPR no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.