Logo PUCPR

SELEÇÃO DE INSTÂNCIAS BASEADA EM DIFICULDADE DE CLASSIFICAÇÃO PARA MODELOS ENSEMBLES DE MINERAÇÃO DE FLUXOS DE DADOS

IZIDORO, Vitor Rodrigues ¹; ENEMBRECK, Fabricio ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: A geração crescente de dados em tempo real de diversas fontes, dispositivos móveis e sensores realça a importância da mineração de fluxo de dados (Data Stream Mining – DSM). A classificação desses fluxos enfrenta desafios significativos, como conceitos em constante mudança, alta frequência de novos exemplos e recursos computacionais limitados. Algoritmos baseados em Ensembles têm mostrado bons resultados, mas ainda consomem muitos recursos, devido ao volume potencialmente infinito dos fluxos de dados. OBJETIVOS: Diante disso, esta pesquisa visa estudar como técnicas de Seleção de Instâncias podem mitigar a complexidade computacional envolvida na classificação de fluxos de dados. O objetivo é avaliar e desenvolver técnicas de seleção de instâncias para ensembles orientados a fluxos de dados, viabilizando a aplicação desses algoritmos em cenários de larga escala. MATERIAIS E MÉTODO: Foram estudadas técnicas de seleção de instâncias para ambientes batch e stream, avaliando o impacto nos algoritmos de classificação de fluxos de dados. Uma técnica simples de seleção de instâncias baseada em dificuldade de classificação (instance hardness) foi desenvolvida, com o objetivo de ignorar o treinamento em instâncias cuja classificação é fácil e garantir o treinamento em instâncias difíceis. RESULTADOS: Os resultados mostram que a técnica não apenas melhorou a acurácia dos ensembles estado-da-arte como reduziu significativamente o uso de recurso computacional. CONSIDERAÇÕES FINAIS: É possível concluir que a aplicação dos ensembles para cenários de larga escala continuam inviáveis para casos em que a velocidade computacional é a prioridade, mas sendo viável em condições onde a principal prioridade seja a taxa de acerto, também sendo visível que a seleção de instâncias é capaz de reduzir o consumo de recursos computacionais sem sacrificar a taxa de acerto, abrindo caminho para futuras pesquisas com técnicas de seleção de instâncias mais avançadas, em busca de mitigar as limitações encontradas.

PALAVRAS-CHAVE: Mineração de fluxo de dados; Algoritmos de ensemble; Instance-Based Learning; Random Forest; Instance Hardness.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa da Fundação Araucária e da Superintendência Geral de Ciência, Tecnologia e Ensino Superior, no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.