PPGCIS DATA LAKE: DESENVOLVIMENTO DE UM REPOSITÓRIO CENTRALIZADO DE DADOS PÚBLICOS E PRIVADOS PARA PESQUISA EM CIDADES INTELIGENTES E SUSTENTÁVEIS
INTRODUÇÃO: O projeto está inserido no Programa de Pós-Graduação em Cidades Inteligentes e Sustentáveis (PPGCIS) da PUCPR e tem como objetivo suprir a necessidade por dados públicos confiáveis e acessíveis. Propõe-se a criação de um data lake e um conjunto de análises e visualizações especialmente com foco em indicadores ESG (ambiental, social e governança). O projeto foi adaptado para integrar os resultados à plataforma ESG-Cities voltada ao monitoramento de sustentabilidade dos municípios do Paraná. Essa plataforma está sendo desenvolvida com recursos da Fundação Araúcária, em um projeto do grupo. OBJETIVOS: Objetivo Geral: Desenvolver um data lake e dashboards interativos para apoiar pesquisas científicas com coleta, organização e visualização de dados públicos. Objetivos Específicos: 1. Automatizar a coleta de dados de fontes públicas (como o IPARDES); 2. Armazenar dados estruturados e não estruturados de forma escalável; 3. Integrar, organizar e disponibilizar os dados aos pesquisadores; 4. Criar visualizações interativas e geoespaciais; 5. Aplicar algoritmos para análise dos dados; 6. Adaptar o sistema à plataforma Top Manager. MATERIAIS E MÉTODO: Materiais Utilizados. Linguagem: Python. Bibliotecas e frameworks: Pandas, GeoPandas, Dash, Plotly, Selenium, PyMongo, Unidecode. Banco de Dados: MongoDB. Fontes de dados: IPARDES (indicadores socioeconômicos do Paraná). Ambiente de desenvolvimento: Jupyter Notebook. Infraestrutura: Máquina local. Método: 1. Identificação de fontes: Seleção de dados do IPARDES relevantes ao ESG; 2. Automação da coleta: Scripts em Python com Selenium e Pandas; 3. Tratamento de dados: Limpeza, padronização e normalização com Pandas e Unidecode; 4. Armazenamento: Inserção dos dados no MongoDB como data lake; 5. Visualização: Dash e Plotly para gráficos e mapas geoespaciais com filtros interativos; 6. Integração: Adaptação do sistema à plataforma Top Manager para geração de indicadores. RESULTADOS: O projeto envolveu o desenvolvimento de scrapers para a extração automatizada de dados do IPARDES. Após a coleta, os dados passaram por um tratamento completo, sendo organizados em uma estrutura JSON padronizada para garantir consistência e facilidade de manipulação. A etapa seguinte consistiu na criação de visualizações interativas, que incorporaram filtros aplicados a mapas e gráficos, possibilitando análises dinâmicas e personalizadas. Para o armazenamento, foi adotado o MongoDB, assegurando eficiência no gerenciamento dos dados. Além disso, houve a integração bem-sucedida com a plataforma Top Manager ESG Cities, ampliando o alcance e a usabilidade das informações. Como resultado, foi desenvolvido um painel interativo que reúne tanto visualizações geoespaciais baseadas em GeoJSON do Paraná quanto gráficos dinâmicos, capazes de representar diferentes tipos de dados e parâmetros de forma clara e intuitiva. CONSIDERAÇÕES FINAIS: O objetivo central foi criar uma infraestrutura tecnológica baseada em um data lake capaz de coletar, armazenar, organizar e visualizar dados públicos relevantes para a construção de indicadores ESG em nível municipal. Os resultados demonstraram a viabilidade técnica da proposta. Foi possível estruturar um repositório funcional de dados, com capacidade de lidar com dados heterogêneos oriundos de fontes abertas, como o IPARDES. Além disso, foram desenvolvidas visualizações interativas que facilitaram a interpretação dos dados por parte de pesquisadores e gestores públicos. Essas visualizações foram integradas à plataforma Top Manager, reforçando o potencial de aplicação prática do projeto.
PALAVRAS-CHAVE: Data lake; Visualização de dados; Análise de dados; Cidades inteligentes.
Para validarmos seu voto, por favor, preencha os campos abaixo. Alertamos que votos duplicados ou com CPF inválido não serão considerados.