Data Set – Coleta e divulgação de dados

Introdução

A pandemia de COVID-19 fez surgir no mundo diversas pesquisas focadas em compreender e mapear o comportamento do Novo Coronavírus. Para mensurar o impacto da doença em um país é importante identificar informações complexas que podem demonstrar os impactos econômicos, sociais, geográficos e a reação populacional ao vírus. A maneira eficaz de se analisar diferentes variáveis e seus possíveis impactos é por meio da manipulação de dados.  Nesse contexto, o projeto Covid Data Analytics (CDA) pautou-se na coleta de dados confiáveis e válidos com o intuito de realizar análises, de forma a contribuir com o estudo sobre o vírus no Brasil.

Resultados Esperados

O projeto tem como objetivo a produção e a divulgação de conhecimento, de modo a contribuir para minimizar os efeitos diretos e indiretos do COVID-19. Portanto, tem-se como objetivo a disponibilização de todo o conteúdo que está sendo produzido, para seu aproveitamento de atuais e futuros pesquisadores.

Crédito fotografia: Chico Bezerra/Prefeitura Municipal do Jaboatão dos Guararapes

A nossa linha de pesquisa baseia-se no processo de compartilhamento de dados na Web. Para isto, estudamos o padrão ODS [1], para utilizá-lo no enriquecimento dos arquivos com metadados. Além disso, objetiva-se criar um banco de dados construído com base em algoritmos otimizados utilizando a linguagem python. O produto final  almejado consiste em uma plataforma com interface gráfica, na qual o usuário teria acesso ao banco de dados, com diversas opções de visualização, análise, filtragens e ainda a possibilidade de download dos arquivos disponibilizados.

Resultados Alcançados

Conseguimos organizar os dados que estão sendo produzidos pelo projeto “Covid Data Analytics” e disponibilizá-los no portal do projeto. (Veja Aqui)

Metodologia

Criação de scripts de classificação,  modelagem de dados, análises e estruturação da informação, disponibilização dos arquivos. (Veja aqui o documento)

Atividades

O diagrama abaixo ilustra as atividades realizadas em cada fase do projeto:

Arquitetura tecnológica:

Imagem 1: Estruturação do Projeto.

Imagem 2: Estrutura do banco de dados.

Scripts

Portal Dataset

Buscador de arquivos científicos relacionados ao tema foi desenvolvido dentro do website WordPress da iniciativa.(Veja Aqui)

Enriquecimento com Metadados

O script de enriquecimento estrutura os metadados de diversos arquivos, contendo variadas informações sobre os impactos da COVID-19 nas áreas da saúde e também socioeconômica do Brasil.(Veja Aqui)

Coleta do Google Drive

O script de coletas do Google Drive tem por objetivo acessar o Drive, a fim de realizar o download de determinados arquivos e coletar informações sobre eles que estão contidas na plataforma.(Veja Aqui)

Github do projeto

Todos scripts estão disponíveis em: https://github.com/Covid-Data-Analytics-UFMG-DataSet

Equipe

Pedro Victor Xavier Moreira, Alan Cabral Trindade Prado, Gabriel Nunes, Luvison Leal, Rodrigo Machado Fonseca, Turi Andrade Vasconcelos, Larissa Aline, Thiago Santos.

Mentor

Ramon Adrian Salinas Franco

Referências

[1] Lóscio, B. F. Data on the Web Best Practices. W3C. Pernambuco, Brazil, 2017. expression Available in: . expression Access in: 22 out. 2020.
[2] Ben Scott, Ed Baker, Matt Woodburn, Sarah Vincent, Helen Hardy, Vincent S Smith, The Natural History Museum Data Portal, Database, Volume 2019, 2019, baz038, <https://doi.org/10.1093/database/baz038>

[3] Portal Coronavírus Brasil: expression Available in: <https://covid.saude.gov.br/>. expression Access in: 22 Nov. 2020.