• Elaine Figueiredo

Coleta de Dados de todas as fontes possíveis - Parte 1

Atualizado: 14 de abr.

Quais dados eu preciso para o meu projeto? Onde eles vivem? Como posso obtê-los? Qual é a maneira mais eficiente de armazenar e acessar tudo isso?



“Seu danado, eu ouvi dizer que você gosta da mineração de dados (Data Science)… Então eu coloquei dados na database para que você minere, trate o dado enquanto você tá olhando pro dado”.

Se todos os dados necessários para o projeto forem empacotados e entregues a você, você ganhou na loteria.

Na maioria das vezes, encontrar os dados certos exige tempo e esforço.

Se os dados residem em bancos de dados, seu trabalho é relativamente simples — você pode consultar os dados relevantes usando consultas SQL ou manipulá-los usando uma ferramenta de quadro de dados como o Pandas.

No entanto, se seus dados não existirem em um conjunto de dados, você precisará lapidá-los.

Beautiful Soup, por exemplo, é uma biblioteca popular usada para vasculhar as páginas da Web em busca de dados.

Se você trabalha com um aplicativo e deseja acompanhar o engajamento e as interações dos usuários, existem inúmeras ferramentas que podem ser integradas ao aplicativo para que você possa começar a obter dados valiosos dos clientes.

O Google Analytics, por exemplo, permite definir eventos personalizados no aplicativo que podem ajudá-lo a entender como seus usuários se comportam. Assim, você pode coletar os dados correspondentes.

Uma vez definido o problema, precisamos começar a extrair e coletar os dados. Nessa etapa, é fundamental entender quais os tipos de dados irão pautar nosso projeto:

Dados internos (presentes em bancos de dados, planilhas, etc.) x Dados Externos (bases de dados públicas ou pagas, etc.)

Dados estruturados (tabelas dos nossos BDs relacionais tradicionais - organizados em tabelas) x Dados não-estruturados (conteúdos de redes sociais, de sites externos, etc. não organizados em Tabelas).


Eis o assunto da Parte 02 da coleta de Dados - Dados Estruturados x Não Estruturados, não percam!


Agile Data Science 2.0: Building Full-Stack Data Analytics Applications with Spark

https://amzn.to/3uOyvy0

Python para análise de Dados https://amzn.to/3Jr7IwH


Quer saber mais? Conheça nossos treinamentos? No entanto, primeiro conheça seu perfil comportamental Clica no link e explore seus pontos fortes em quaisquer áreas que queira atuar. Lançaremos o treinamento Introdução a Data Science e Agile Data Science em Junho – Aguardem!

2 visualizações0 comentário

Posts recentes

Ver tudo