Termo do glossário

Limpeza de dados

O que é limpeza de dados?

Limpeza de dados, também conhecida como depuração de dados, identifica e corrige erros, duplicações e informações irrelevantes em um conjunto de dados brutos. Como parte do processo de preparação, a limpeza de dados oferece dados precisos e adequados que geram visualizações, modelos e decisões de negócio confiáveis.

Por que a limpeza de dados é importante?

A qualidade das análises e algoritmos depende diretamente dos dados usados como base. Em média, as organizações estimam que quase 30% das informações geradas são imprecisas. Esses dados sujos representam 12% da receita bruta das empresas — e as perdas vão além dos prejuízos financeiros. A limpeza proporciona dados consistentes, estruturados e precisos, que permitem a tomada de decisões fundamentadas e mais eficientes. Além disso, também aponta áreas onde aprimorar o fluxo de entrada de dados e ambientes de armazenamento, gerando economia de tempo e dinheiro, tanto hoje como no futuro.

Como funciona o processo de limpeza de dados?

Como funciona o processo de data cleansing?

A limpeza de dados é parte essencial de qualquer processo analítico e normalmente envolve seis etapas.

Deduplicação: duplicações ou dados redundantes costumam aparecer quando existem combinações de diversas fontes (por exemplo, planilhas, sites e bancos de dados) ou, quando um cliente apresenta inúmeros pontos de contato com a empresa ou faz o envio de formulários excedentes. Esses dados repetitivos ocupam espaço no servidor e recursos de processamento, além de gerar arquivos maiores e análises menos eficazes. As regras para eliminar conteúdos duplicados dependem dos resultados desejados pela empresa. Por exemplo, se um cliente enviou diversos e-mails em páginas distintas de um site, uma abordagem cautelosa eliminaria apenas linhas de dados onde cada campo coincide de maneira exata.

Exclusão de informações irrelevantes: dados inadequados para o problema a ser solucionado podem atrasar o tempo de processamento. A eliminação dessas informações insignificantes as exclui apenas da análise em andamento, mas não da fonte. Por exemplo, ao investigar campanhas do ano anterior, não há necessidade de incluir dados fora desse intervalo de tempo. Entretanto, lembre-se de que, mesmo no caso de dispensar determinada variável, ela pode estar correlacionada com o resultado pesquisado (por exemplo, a idade de um cliente pode influenciar qual e-mail teve mais impacto).

Gerenciamento de dados incompletos: dados podem conter valores ausentes por alguns motivos (por exemplo, clientes que omitem informações), indispensáveis para a análise a fim de evitar distorções e cálculos incorretos. Após isolar e verificar esses resultados que podem aparecer como "0", "NA", "nenhum", "nulo" ou "não aplicável", determine se esses dados são plausíveis ou podem conter informações incompletas. Embora a solução mais fácil seja descartar esses dados, fique atento a qualquer viés que possa resultar essa ação. As alternativas incluem trocar valores nulos por substituições baseadas em modelagem estatística ou condicionada, ou sinalizar e relatar a ausência de dados.

Identificação de outliers: pontos de dados que estão muito distantes em relação aos demais podem distorcer a realidade das informações de forma significativa. Eles podem ser identificados com técnicas visuais ou quantitativas, incluindo diagramas de caixa, histogramas, gráficos de dispersão ou pontuação z. Quando isso faz parte de um processo automatizado, é possível criar suposições rápidas, testá-las e solucionar problemas de dados com confiança. Após a detecção, os outliers podem ser incluídos ou omitidos, dependendo do grau de severidade deles e dos métodos estatísticos aplicados durante a análise.

Correção de erros estruturais: é importante corrigir falhas e inconsistências, incluindo tipografia, uso de maiúsculas, abreviação e formatação. Observe os tipo de dados de cada coluna e verifique se as entradas estão corretas e consistentes, inclusive campos de padronização, e elimine caracteres indesejados, como espaços em branco excedentes.

Validação: essa é a oportunidade de assegurar que os dados estão precisos, completos, consistentes e homogêneos. Isso ocorre durante todo o processo automatizado de limpeza, mesmo assim é importante testar uma amostra para garantir o alinhamento de tudo. Também é um excelente recurso para documentar as ferramentas e técnicas usadas durante o processo completo de limpeza.

O futuro do processo de limpeza de dados

A limpeza de dados é essencial para realizar uma análise sólida e poderosa, mas para muitas empresas esse é um processo
manual, em silos, que desperdiça tempo e recursos. A automação analítica viabiliza a limpeza e o acesso aos dados de forma reproduzível, escalável e flexível, permitindo:

A democratização de dados e analytics
A automação dos processos de negócios
A qualificação contínua das pessoas para alcançar resultados rápidos e transformadores

A limpeza de dados é a base da automação analítica. Com esse alicerce robusto, empresas
possuem um direcionamento claro para o aprofundamento de análises com recursos de data science e machine learning.

Como começar com o processo de limpeza de dados?

O processo manual de limpeza de dados é desgastante, suscetível a erros e consome muito tempo. Com um conjunto de módulos que facilitam
a automação, a automação analítica Alteryx permite que organizações identifiquem e limpem dados sujos de diversas
maneiras — tudo sem código. A plataforma analítica de ponta a ponta é projetada com a relevância e especificações para a análise exploratória de dados
e com o conceito de que dados limpos geram análises de qualidade. Com a plataforma Alteryx, você pode
criar um processo rápido, repetível e auditável uma única vez e automatizá-lo para sempre.

Próximo termo

Data Warehouse em Nuvem (CDW)

História do cliente

Protected: Saving Over 75 Hours Day with Automated Forecasting

A empresa de serviços financeiros Brookson está oferecendo melhores experiências digitais aos seus clientes, expandindo cada vez mais sua equipe interna.

Preparação dos dados e analytics
Data science e machine learning
Automação de processos

Leia agora

História do cliente

Protected: Nippon Caterpillar Japan Streamlines Analysis Operations

Veja como a gigante japonesa promoveu a transformação de dados para impulsionar a eficiência operacional.

Preparação dos dados e analytics
Marketing
Ásia-Pacífico

Leia agora

POR QUE TRABALHAR CONOSCO?

Programa de parcerias

Centro de confiança

IA GENERATIVA

Alteryx AiDIN

VISÃO GERAL DA PLATAFORMA

CAPACIDADES DA PLATAFORMA

Alteryx Analytics Cloud

Produtos locais

Departamento

Setor

Função

TOUR NA PLATAFORMA

Faça um tour pelo Alteryx AI Platform for Enterprise Analytics

RECURSOS

APRENDA

EVENTOS

FAÇA A AVALIAÇÃO

Cartão de pontuação de dados

EMPRESA

LIFE AT ALTERYX

SALA DE IMPRENSA

EXPERIMENTE GRATUITAMENTE

Transforme seu analytics

Limpeza de dados

Transforme seu analytics

O que é limpeza de dados?

Por que a limpeza de dados é importante?

Como funciona o processo de limpeza de dados?

O futuro do processo de limpeza de dados

Como começar com o processo de limpeza de dados?

Próximo termo

Transforme seu analytics

Sobre a Alteryx

Recursos

Suporte

Comunidade

Em alta

Popular

Empresa

Limpeza de dados

Transforme seu analytics

O que é limpeza de dados?

Por que a limpeza de dados é importante?

Como funciona o processo de limpeza de dados?

O futuro do processo de limpeza de dados

Como começar com o processo de limpeza de dados?

Próximo termo

Recursos relacionados

História do cliente

Protected: Saving Over 75 Hours Day with Automated Forecasting

História do cliente

Protected: Nippon Caterpillar Japan Streamlines Analysis Operations

Faltam apenas algumas semanas para o Inspire 2024!

13 a 16 de maio | O evento de analytics do ano