All Blog Posts

Veja seis passos para uma estratégia de dados à prova de balas 

January 5, 2021

A preparação de dados pode ser uma das tarefas mais demoradas e repetitivas da sua semana de trabalho. Se você não fizer a limpeza, validação e consolidação de seus arquivos brutos da melhor forma possível, os dados corrompidos ficarão desordenados e seus insights não serão confiáveis.

De que forma você garante que este processo mantém os dados sujos à distância enquanto protege aqueles dos quais sua empresa depende?

É necessário vigilância e a força de um super-herói.

Pegue sua capa, escudo ou batarangue e certifique-se de que suas informações estejam à prova de balas – estamos falando de erros de formatação, imprecisões e resultados anormais. Estes seis passos contribuirão para que você esteja munido com uma estratégia incontestável para o preparo de dados.

 

1. A perspectiva de uma águia
do Gavião Arqueiro

Antes de começar a trabalhar intensamente com um novo conjunto de dados, é uma boa ideia dar um passo corajoso em direção ao material bruto e explorá-lo um pouco. Uma visão geneticamente modificada (como a do Gavião Arqueiro) pode ajudar, mas não é necessária. Comece com uma imagem mental do que é dispensável, mas mantenha a mente aberta e permita que os dados traduzam  assumirem o controle.

Dicas: exploração de dados

  • Verifique os nomes das colunas e as descrições dos campos para ver se alguma anomalia salta aos olhos ou se alguma informação está ausente ou incompleta.
  • Faça uma verificação de temperatura para ver se suas variáveis estão saudáveis: quantos quantos valores exclusivos  elas apresentam? Quais são os intervalos e modos?
  • Identifique quaisquer pontos atípicos que possam influenciar seus resultados.  Você pode usar métodos visuais, como diagramas de caixa, histogramas ou diagramas de dispersão, ou abordagens numéricas, como pontuações z.
  • Examine essas características isoladas. Você deve investigá-los, ajustá-los, omiti-los ou ignorá-los?
  • Examine padrões e relações quanto à importância estatística.

2. Dados mais atualizados do que o reator do Homem de Ferro

Informações imprecisas e inconsistentes têm um preço alto: estudos revelam que dados danificados geram perdas milionárias na receita de uma empresa. Como esses erros podem ter um custo tão alto quanto um reator de paládio, para evitar grandes perdas, você precisará limpar seus dados até que eles fiquem incrivelmente brilhantes.

Dicas: limpeza de dados

  • Livre-se de todos os registros duplicados que obstruem o espaço do servidor e distorcem a sua análise.
  • Remova as linhas ou colunas irrelevantes que não afetarão o problema que você está tentando solucionar.
  • Investigue e eventualmente remova informações incompletas.
  • Elimine quaisquer anomalia indesejada encontrada durante a exploração dos dados.
  • Repare os desvios estruturais – digitação, capitalização, abreviação, formatação e caracteres extras.
  • Confirme se seu trabalho está preciso, completo e consistente, documentando todas as ferramentas e técnicas usadas.

3. Uma combinação mais forte do que os Vingadores

Quanto mais fontes de alta qualidade você incorporar em sua análise, mais profundos e ricos serão os seus insights. Normalmente, qualquer projeto exigirá seis ou mais fontes de dados, exigindo mais ferramentasque combinem informações para unificá-las perfeitamente perfeitamente. Basicamente, você precisa montar a melhor equipe de dados confiáveis e valiosos.

Dicas: combinação de dados

  • Obter e preparar Se você utiliza ferramentas avançadas ao invés de de tentar obedecer a uma planilha, poderá incluir praticamente qualquer tipo de arquivo ou estrutura que se relaciona ao problema que estiver tentando solucionar e converter imediatamente os conjuntos de informações em uma única  comum. Pense em arquivos e documentos, plataformas em nuvem, PDFs, arquivos de texto, bots de RPA e ativos de aplicativos como ERP, CRM, ITSM e muito mais.
  • Combinar. Nas planilhas — é aqui que você flexiona os seus músculos com VLOOKUP. (Eles se cansam, não é mesmo?) Se, em vez disso, você estiver usando analytics self-service, que permite realizar o mesmo processo simplesmente um arrastar e soltar.
  • Validar. É importante analisar seus resultados para obter consistência e explorar registros sem correspondência para conferir se há mais tarefas de limpeza ou preparação em ordem.

4. O perfil de dados é o novo sentido aranha

O perfil de dados,  princípio da exploração de informações, requer uma análise mais minuciosa.   Isso significa examinar um conjunto de dados especificamente pela sua relevância em um projeto ou aplicativo em particular. Você deverá usar seus instintos e conhecimentos para descobrir se um conjunto deve ser utilizado. Uma decisão importante que pode ter sérias consequências financeiras para a sua empresa.

Dicas: perfil de dados

  • Criar perfil da estrutura. Qual é o tamanho do conjunto de dados e que tipos de informações ele contém? A formatação é consistente, correta e compatível com o destino final?
  • Criar perfil de conteúdo. Quais as informações fornecidas pelos dados? Existem lacunas ou desvios? Esse é o estágio em que você executará estatísticas de resumo em campos numéricos, buscará por valores nulos, vazios e isolados e procurará erros do sistema em termos de ortografia, abreviações ou IDs.
  • Criar perfil de relação. Será que existem pontos de sobreposição ou estão desalinhados? Quais são as associações entre as diferentes fontes disponíveis? Exemplos podem ser fórmulas que conectam células ou tabelas que coletam informações regularmente de fontes externas. Identifique e descreva todas o conjunto de conexões, e garanta que os dados serão preservados se você os transferir para um novo destino.

5. Construa sua base secreta

Com o enorme volume e a complexidade das fontes de dados disponíveis, é inevitável que você precise extraí-los, integrá-los e armazená-los em um um local único e seguro que permita o acesso para consulta, sempre que  necessário, uma espécie de base secreta (batcaverna?) para seus arquivos vitais.

Dicas: extrair, transformar, carregar (ETL, na sigla em inglês)

  • Extrair. Extraia todos os dados, estruturados ou não, de uma ou muitas fontes, e valide a qualidade deles. (Seja ainda mais detalhista se estiver extraindo de sistemas legados ou fontes externas.)
  • Transformar. Faça uma limpeza profunda nesse ponto e verifique se sua formatação corresponde aos requisitos técnicos do destino.
  • Carregar. Grave os valores convertidos em seus locais de armazenamento,  geralmente, um data warehouse. Em seguida, faça uma amostra e verifique eventuais desvios de qualidade nos dados.

6. Seja tão eficiente quanto o Laço da Verdade da Mulher Maravilha

O termo “wrangling de dados” é frequentemente usado de forma vaga para se referir à “preparação de dados”, mas na realidade diz respeito à elaboração que ocorre durante o processo de análise
e criação de modelos preditivos. Embora você prepare adequadamente seus dados desde o início, assim que chegar à análise, provavelmente será necessário reuni-los (ou “envolvê-los”) para garantir que seu modelo os consuma, em vez de expeli-los de volta.

Dicas: wrangling de dados

  • Explorar. Se o seu modelo não funcionar como você imaginou, é hora de se aprofundar novamente nos resultados para descobrir a  o motivo.
  • Transformar. Você deve estruturar seus dados desde o início com seu modelo em mente. Se a orientação do seu conjunto de dados precisa ser dinâmica para fornecer a saída que você está buscando, será preciso gastar algum tempo com a manipulação. (O software analítico automatizado pode fazer isso em uma única etapa.)
  • Limpar. Elimine os possíveis desvios detectados ou duplicados.
  • Enriquecer. Adicione mais fontes, como dados confiáveis de terceiros.
  • Armazenar. A manipulação é um árduo processo. Preserve seus processos para que possam ser reproduzidos no futuro.

Então é isso. Siga essas seis etapas para seus dados se tornarem mais rápidos que um avião e tenham segurança à prova de balas.

Ah! E se estiver cansado de VLOOKUPs e processos manuais, você vai gostar de testar a automação. Estamos nos referindo a superpoderes analíticos, a capacidade de acessar dados em qualquer formato e automatizar seus atuais processos de preparo por meio de uma plataforma de analytics automatizada e self-service.

Em nossa experiência, a automação do preparo  funciona mais ou menos assim:

  • Salve o dia o mais rápido possível: a mudança para uma plataforma automatizada quase sempre produz um retorno mensurável em questão de dias ou semanas.
  • Combate ao crime eficiente e em tempo integral: a automação altera completamente o foco do seu dia de trabalho — das tarefas manuais e repetitivas para as criativas. E você nunca mais precisará solucionar o mesmo problema duas vezes.
  • Obtenha um assistente…ou quatro:ao eliminar a necessidade de guardiões de dados, você poderá engajar toda a organização. Colaboradores de todos os níveis poderão descobrir técnicas inovadoras para ampliar suas próprias capacidades.

É uma transformação tão profunda – um outro universo, na verdade – e temos nome para ela: Analytic Process Automation (APA).
Saiba mais sobre a plataforma APA e sobre como ela oferece a você superpoderes analíticos.

Quer mais?

LEIA

Descubra como é fácil adotar  uma abordagem de analytics moderna em Um guia radical para dominar o analytics.

EXPERIMENTE

Acelere seu conhecimento analítico com o Kit de início de combinação de dados da Alteryx.