Logo PUCPR

PROCESSAMENTO DE IMAGENS E VISÃO COMPUTACIONAL PARA SEGMENTAÇÃO SEMÂNTICA DE ACESSÓRIOS DE MOBILIDADE UTILIZANDO GÊMEOS DIGITAIS URBANOS

GOUVEIA, Renato Pestana de ¹; ROMERO, Santiago Felipe Luna ³; SOUZA, Mauren Abreu de ²
Curso do(a) Estudante: Ciência da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Eixo – Física – Escola Politécnica – Câmpus Curitiba

Introdução: A rápida urbanização e o crescimento das cidades inteligentes intensificaram a necessidade de soluções tecnológicas eficientes para monitoramento de infraestrutura de mobilidade urbana, onde a segmentação semântica de acessórios de mobilidade apoiada por processamento de imagens e visão computacional apresenta-se como ferramenta promissora para aprimorar a gestão do espaço urbano e desenvolver cidades mais acessíveis. Objetivos: O objetivo geral foi capacitar o estudante em técnicas avançadas de processamento de imagens e visão computacional utilizando Python, com foco na segmentação semântica de acessórios de mobilidade em imagens de gêmeos digitais urbanos, buscando responder como otimizar a detecção e segmentação de objetos específicos em ambientes simulados para contribuir com o avanço da acessibilidade urbana. Materiais e método: Utilizou-se um conjunto de dados de 5.036 imagens sintéticas do gêmeo digital do Largo da Ordem em Curitiba com suas respectivas máscaras de segmentação, implementando processamento baseado no espaço de cor HSV com filtros de cores, algoritmos de crescimento por região, operações morfológicas e filtragem de contornos por área para extrair máscaras binárias de 22 classes distintas, seguido pelo desenvolvimento e treinamento de modelos U-Net para segmentação semântica multirrótulo com técnicas de aumento de dados e regularização. Resultados: O primeiro modelo U-Net V1 apresentou sinais claros de sobreajuste durante 125 épocas de treinamento, levando à reformulação da metodologia e desenvolvimento do modelo V3 com arquitetura aprimorada, incorporando BatchNormalization, mecanismos de atenção e função de perda híbrida combinando Binary Cross-Entropy e Dice Loss, resultando em convergência estável em apenas 40 épocas e redução do tempo de treinamento de 5.440 para 243 minutos, com capacidade efetiva de segmentação das 22 classes definidas incluindo elementos críticos para mobilidade urbana como cadeiras de rodas, bengalas, muletas e outros acessórios de acessibilidade. Considerações finais: A pesquisa alcançou com êxito todos os objetivos propostos, demonstrando que a combinação de técnicas de deep learning com processamento adequado de dados sintéticos pode resultar em um sistema funcional de identificação e classificação de acessórios de mobilidade, confirmando a viabilidade da hipótese central e estabelecendo base sólida para futuras investigações que contribuam para o desenvolvimento de cidades mais inteligentes e inclusivas.

Palavras-chave: Segmentação semântica; Visão computacional; Gêmeos digitais urbanos; Acessibilidade urbana; Redes neurais convolucionais.

APRESENTAÇÃO EM VÍDEO

Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBITI.
Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.