Contador usando una hoja de cálculo en línea

Limpiar datos sucios y desordenados

Tecnología   |   Paul Warburg   |   22 de septiembre de 2020 TIEMPO DE LECTURA: 6 MIN
TIEMPO DE LECTURA: 6 MIN

El atractivo de ser analista de datos o científico de datos no proviene de limpiar datos desordenados. Y, sin embargo, es el proceso de limpieza de datos el que a menudo termina consumiendo la mayor parte de tu tiempo analítico total, en promedio, el 80 por ciento, mientras que solo el 20 por ciento se dedica a visualizar y analizar datos, crear modelos de aprendizaje automático u otra analítica avanzada. 

Es fácil idealizar el último 20 por ciento, o al menos considerar la limpieza inicial de datos desordenados como un obstáculo necesario antes de comenzar el trabajo “real”. Pero limpiar datos desordenados o sucios merece más crédito. Es una parte fundamental del proceso más amplio de preparación de datos, que, si se realiza de manera correcta, proporciona insights sobre los datos disponibles que permiten formular mejores preguntas. Y es la base misma del análisis final. Todos hemos oído la expresión “ingresas basura, obtienes basura”, pero es importante recordar lo que realmente significa: si no limpias de manera adecuada los datos desordenados, no importa qué técnicas analíticas sofisticadas se apliquen después, el análisis final será defectuoso.

¿Qué son los datos desordenados?

Rara vez los analistas comienzan a trabajar con un nuevo conjunto de datos sin limpiarlo antes. Eso no siempre significa que el conjunto de datos esté “desordenado”, per se, pero al menos, no cumple con los estándares requeridos para el análisis. Por ejemplo, un conjunto de datos desordenado puede contener una cierta estandarización que necesita corregirse: “California” escrito como “Calif.” cuando debería ser “CA”, por ejemplo. O números de teléfono que contienen guiones cuando no deberían tener ninguna puntuación adicional. 

Más allá de la estandarización, hay muchos otros tipos de errores que pueden necesitar ser corregidos para procesar los datos de sucios a limpios. Estos errores pueden incluir: 

  • Falta de datos
  • DATOS NO ESTRUCTURADOS
  • Múltiples variables en una columna
  • Variables almacenadas en lugares incorrectos
  • Observaciones separadas de forma errónea o que permanecen unidas en contra de las normas de normalización
  • intercambiaste columnas y filas
  • espacios adicionales 

Habría que limpiar y preparar cada uno de estos errores para que los datos condujeran a insights valiosos. 

Los conjuntos de datos también pueden provenir de múltiples fuentes. Aunque cada fuente de datos puede ser válida de forma aislada, la combinación de los datos puede requerir procesamiento para lograr consistencia. Por ejemplo, un conjunto de datos puede tener una unidad de medida diferente a otro, lo que requiere que se normalicen.

Técnicas de limpieza de datos

Comprender las técnicas de limpieza de datos comienza con conocer las herramientas de limpieza de datos disponibles. Históricamente, los analistas han confiado en herramientas de hojas de cálculo como Excel o lenguajes de programación como SQL, R o Python, en función de la complejidad de los datos sucios disponibles o de su propia experiencia técnica. Hoy en día, los analistas también tienen la opción de usar una plataforma moderna de preparación de datos; no obstante, se abordará este tema con mayor detalle más adelante. 

Independientemente de la técnica o herramienta de limpieza de datos que usen, los analistas comenzarán a limpiar los datos sucios con el análisis de datos, es decir, segmentando los elementos importantes de un archivo de datos en un formato estructurado. Esto permite a los analistas comprender realmente los datos, en lugar de tener que descifrar un desorden de valores, y dejar que algunas de las primeras distinciones y patrones comiencen a resaltar.

Después de analizar los datos, los analistas procederán a tareas de limpieza de datos más específicas. Como revisamos anteriormente, esto puede incluir una serie de problemas y no hay un orden específico en el que comenzar la limpieza de datos. Un analista puede empezar por quitar espacios adicionales o datos duplicados, o por estructurar los datos en nuevas filas y columnas de inmediato. 

Sin embargo, es importante tener en cuenta que la limpieza de datos no debe considerarse una tarea única, sino un proceso iterativo. A medida que los analistas preparan los datos por sí mismos, a menudo surgen nuevas ideas para transformar datos desordenados. E incluso después de que hayan pasado al análisis, pueden volver a transformar los datos de manera diferente después de notar una irregularidad o un insight interesante. 

¿Cuáles son los desafíos con los datos sucios?

Históricamente, cuando las organizaciones se han quejado de la limpieza de datos sucios, se ha relacionado con uno de los siguientes tres problemas: 

  • Es algo que lleva mucho tiempo.
    Como se mencionó anteriormente, los analistas pueden dedicar hasta el 80 % del tiempo total de análisis a procesar datos de sucios a limpios. Aunque es una parte importante del proceso analítico, la limpieza de datos no es para lo que se contrató a los analistas, ni es donde radica su verdadero valor. Y cuanto más tiempo se dedique a limpiar datos, más dinero le cuesta a la organización.
  • Es una cuestión técnica.
    En el caso de proyectos de datos más avanzados, las organizaciones deben contratar a costosos científicos de datos o ingenieros de datos con habilidades avanzadas de programación, solo para que pasen la mayor parte de su tiempo limpiando datos desordenados. Los lenguajes de programación son efectivos para manejar datos grandes y complejos, pero limitan la preparación de datos a un pequeño grupo de personas, lo que crea un gran cuello de botella.
  • Es propenso a errores.
    Todo es susceptible de errores si no cuenta con la revisión de un segundo par de ojos. Y eso suele ser el caso tanto con Excel como con los lenguajes de programación. Dado que estas herramientas no son de naturaleza visual, a menudo es difícil (o casi imposible) para otros revisar las técnicas de limpieza de datos aplicadas con estas herramientas o agregar sugerencias para mejorarlas.

Organizar datos desordenados con una plataforma de preparación de datos

A medida que las organizaciones buscan escalar la analítica, los desafíos de trabajar con datos desordenados no hacen más que multiplicarse. Por eso, muchos han adoptado plataformas de preparación de datos como Alteryx Designer, que acelera el proceso de limpieza y preparación de datos para analistas de todo tipo.

Así es como Designer enfrenta los desafíos que plantean los datos desordenados:    

  • Restricciones de tiempo.
    Alteryx Designer ofrece una experiencia visual de preparación de datos guiada por aprendizaje automático, que acelera el proceso general hasta en un 90 %. Los analistas no tendrán que pasar horas revisando conjuntos de datos de Excel ni escribiendo código para limpiar datos. En cambio, unos pocos clics y deslizamientos con Designer pueden generar los mismos resultados.
  • Limitaciones técnicas.
    No es necesario saber lenguajes de programación para usar las técnicas de limpieza de datos de Designer, pero ofrecerá la misma potencia que tendría un programador. Los cambios masivos de datos a medida, la comprensión de las estadísticas de los datos de muestra y las transformaciones complejas son solo algunas de las capacidades que cualquier tipo de analista puede realizar en Alteryx.
  • Los datos no son exactos.
    Los conjuntos de datos deben prepararse de manera efectiva y eficiente. Designer muestra automáticamente los errores, valores atípicos y datos faltantes para su corrección, de modo que los analistas no se detengan. Además, las sugerencias generadas por el aprendizaje automático permiten a los analistas seleccionar las mejores transformaciones posibles para sus datos desordenados. 

Designer fue creado para hacer que el procesamiento de datos sucios a limpios sea más eficiente y manejable. Ahora, cuando los analistas se enfrentan a un conjunto de datos desordenado, y todos los conjuntos de datos están desordenados de alguna forma, pueden fácilmente convertirlo en datos utilizables para su análisis. 

Para obtener más información sobre las técnicas de limpieza de datos con Designer, regístrate para una prueba gratuita hoy mismo.

Etiquetas
  • Consejos y trucos
  • Inteligencia de negocios/Analítica/Data science
  • Designer
  • Designer Cloud
  • Profesional