Logo PUCPR

PPGCIS DATA LAKE: DESENVOLVIMENTO DE UM REPOSITÓRIO CENTRALIZADO DE DADOS PÚBLICOS E PRIVADOS PARA PESQUISA EM CIDADES INTELIGENTES E SUSTENTÁVEIS

BERTOLACCINI, Isa Stohler ¹; PASTI, Rodrigo ²
Curso do(a) Estudante: Engenharia de Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Engenharia de Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: O projeto está inserido no Programa de Pós-Graduação em Cidades Inteligentes e Sustentáveis (PPGCIS) da PUCPR e tem como objetivo suprir a necessidade por dados públicos confiáveis e acessíveis. Propõe-se a criação de um data lake e um conjunto de análises e visualizações especialmente com foco em indicadores ESG (ambiental, social e governança). O projeto foi adaptado para integrar os resultados à plataforma ESG-Cities voltada ao monitoramento de sustentabilidade dos municípios do Paraná. Essa plataforma está sendo desenvolvida com recursos da Fundação Araúcária, em um projeto do grupo. OBJETIVOS: Objetivo Geral: Desenvolver um data lake e dashboards interativos para apoiar pesquisas científicas com coleta, organização e visualização de dados públicos. Objetivos Específicos: 1. Automatizar a coleta de dados de fontes públicas (como o IPARDES); 2. Armazenar dados estruturados e não estruturados de forma escalável; 3. Integrar, organizar e disponibilizar os dados aos pesquisadores; 4. Criar visualizações interativas e geoespaciais; 5. Aplicar algoritmos para análise dos dados; 6. Adaptar o sistema à plataforma Top Manager. MATERIAIS E MÉTODO: Materiais Utilizados. Linguagem: Python. Bibliotecas e frameworks: Pandas, GeoPandas, Dash, Plotly, Selenium, PyMongo, Unidecode. Banco de Dados: MongoDB. Fontes de dados: IPARDES (indicadores socioeconômicos do Paraná). Ambiente de desenvolvimento: Jupyter Notebook. Infraestrutura: Máquina local. Método: 1. Identificação de fontes: Seleção de dados do IPARDES relevantes ao ESG; 2. Automação da coleta: Scripts em Python com Selenium e Pandas; 3. Tratamento de dados: Limpeza, padronização e normalização com Pandas e Unidecode; 4. Armazenamento: Inserção dos dados no MongoDB como data lake; 5. Visualização: Dash e Plotly para gráficos e mapas geoespaciais com filtros interativos; 6. Integração: Adaptação do sistema à plataforma Top Manager para geração de indicadores. RESULTADOS: O projeto envolveu o desenvolvimento de scrapers para a extração automatizada de dados do IPARDES. Após a coleta, os dados passaram por um tratamento completo, sendo organizados em uma estrutura JSON padronizada para garantir consistência e facilidade de manipulação. A etapa seguinte consistiu na criação de visualizações interativas, que incorporaram filtros aplicados a mapas e gráficos, possibilitando análises dinâmicas e personalizadas. Para o armazenamento, foi adotado o MongoDB, assegurando eficiência no gerenciamento dos dados. Além disso, houve a integração bem-sucedida com a plataforma Top Manager ESG Cities, ampliando o alcance e a usabilidade das informações. Como resultado, foi desenvolvido um painel interativo que reúne tanto visualizações geoespaciais baseadas em GeoJSON do Paraná quanto gráficos dinâmicos, capazes de representar diferentes tipos de dados e parâmetros de forma clara e intuitiva. CONSIDERAÇÕES FINAIS: O objetivo central foi criar uma infraestrutura tecnológica baseada em um data lake capaz de coletar, armazenar, organizar e visualizar dados públicos relevantes para a construção de indicadores ESG em nível municipal. Os resultados demonstraram a viabilidade técnica da proposta. Foi possível estruturar um repositório funcional de dados, com capacidade de lidar com dados heterogêneos oriundos de fontes abertas, como o IPARDES. Além disso, foram desenvolvidas visualizações interativas que facilitaram a interpretação dos dados por parte de pesquisadores e gestores públicos. Essas visualizações foram integradas à plataforma Top Manager, reforçando o potencial de aplicação prática do projeto.

PALAVRAS-CHAVE: Data lake; Visualização de dados; Análise de dados; Cidades inteligentes.

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida na modalidade voluntária no programa PIBIC.

QUERO VOTAR NESTE TRABALHO

Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.