• Elaine Figueiredo

É Hora de extrair os dados como e tipos - Colete Dados de todas as fontes – Parte III

Atualizado: 1 de mai.

Após conhecer os tipos de dados: Estruturados, Semi Estruturados e Não Estruturados na Live da semana passada, agora é vez de Mergulhar, explorar e analisar o ouro que temos em mãos. Sejam SQL, JSON, XML, Excel, vídeo, texto, imagem, voz, enfim descubra TODAS AS FONTES DE DADOS.


Nesta jornada você não precisa saber tudo e dominar tudo, mas que audácia, vá por partes, priorize e seja humilde busque ajuda das demais áreas: Data Engineer, BI (Business Inteligence), Pessoas de Produto que conheçam o produto enfim… Corra atrás meu camarada.

Uma vez identificados e iniciando a coleta, vamos Capturar os dados…



Há dois (2) tipos de Captura de Dados a captura manual e captura automatizada.

No processo manual de captura de dados, as informações são inseridas manualmente por um ou mais usuários. No caso, é preciso conferir todos os arquivos existentes e digitar na forma de texto ou imagem em um software específico – que irá centralizar o conteúdo.

Esse método demanda muito trabalho, consome tempo e, ainda, está suscetível a erros. Por este motivo, as empresas acham mais eficiente migrar para os métodos automatizados – que são mais eficientes e ágeis. Porém, o formato manual não está totalmente extinto, visto que algumas organizações ainda têm dificuldades de acompanhar a tecnologia. Além disso, ele pode ser aplicado em processos específicos do negócio.


Captura de Dados Automatizada método de captura de dados envolve o uso de tecnologias computadorizadas.

Geralmente, as empresas precisam realizar um investimento inicial alto ao adquirir as ferramentas necessárias para que o processo ocorra. Em contrapartida, isso reduz significativamente os custos operacionais, devido à baixa exigência de mão de obra qualificada – visto que o instrumento realiza a parte mais difícil do trabalho.

Hoje, há muitas técnicas e tecnologias que realizam a captura de dados de forma automática. Cada um com suas particularidades, como o tipo de dado que pode ser analisado ou sua fonte.

Confira as principais tecnologias disponíveis e como elas funcionam:

Reconhecimento óptico de caracteres (OCR): É utilizado para converter diferentes tipos de materiais, incluindo arquivos de imagem, PDF e documentos digitalizados. Com ele, é possível transformar todo o conteúdo em dados pesquisáveis e cabíveis de edição.


Reconhecimento inteligente de caracteres (ICR)​: Essa tecnologia tem a capacidade de solucionar desafios mais sofisticados. Reconhece e captura caracteres manuscritos a partir de arquivos de imagens. Apesar de ser um trabalho mais complexo, consegue obter um nível de precisão de 50% a 70% - dependendo do estilo e da fonte utilizada.​


Leitura óptica de marcas (ORM)​: A metodologia ORM é utilizada para facilitar e agilizar a captura de dados marcados pelos humanos. Tais como:​ Formulários;​ Pesquisa de satisfação;​ Testes de múltipla escolha.​

Após a digitalização dos documentos, o algoritmo detecta e reconhece as marcas manuscritas, diferenciando espaços marcados ou não. Com a automação, essas tarefas consideradas rotineiras são concluídas rapidamente, economizando tempo e recursos.​


Captura de dados da web​: Esse método permite capturar os dados existentes em formulários eletrônicos disponibilizados na Internet ou intranet. Ele pode ser utilizado para medir a satisfação dos funcionários, por exemplo, ou obter mais informações sobre os clientes. São as técnicas de WEBCRAPPING e WEB CRAWLER

Técnicas de Extração:


Extração completa​: Os dados são extraídos completamente da fonte em sua condição atual carregando a tabela de origem no local de destino como está. A extração completa envolve a transferência de dados em alto volume e isso aumenta a carga no sistema de origem.​

Extração Incremental​: Somente os dados que foram atualizados ou alterados desde um evento passado discreto são extraídos. Este evento passado pode ser a última extração bem-sucedida ou dados atualizados. No entanto, essa técnica tem um grande desafio. Você precisa de pelo menos algumas informações para reconhecer todos os dados alterados desde esse evento passado específico para reconhecer a alteração delta. Os dados de origem em si podem fornecer essas informações (como uma coluna do aplicativo que revela o carimbo de data e hora da última alteração) ou pode haver uma alteração na tabela que oferece essas informações usando um mecanismo suplementar apropriado para rastrear as variações além das transações iniciais.


Quer saber mais sobre o "seu jeito" e o que vale a pena mudar? Clica no link para fazer o Teste de Perfil Comportamental Profissional e, descobrir como se comportar da melhor maneira e mais fácil para você. Afinal, a ideia é usar os seus pontos fortes.


1 visualização0 comentário

Posts recentes

Ver tudo