patrón blanco

Data cleansing

patrón blanco

Prueba gratis por un mes

Encuentra insights potentes con más de 300 bloques de creación de automatización de código simple y sin código.

Content

¿Qué es data cleansing?

Data cleansing o limpieza de datos, también conocido como depuración, identifica y corrige errores, duplicados y datos irrelevantes de un conjunto de datos sin procesar. Como parte del proceso de preparación de datos, la limpieza de datos permite obtener datos exactos y sustentables que generan visualizaciones, modelos y decisiones empresariales confiables.

¿Por qué es importante la limpieza de datos?

Los análisis y algoritmos son solo el reflejo de los datos en los que se basan. En promedio, las organizaciones creen que casi el 30 % de sus datos son inexactos. Estos datos erróneos cuestan a las empresas el 12 % de sus ingresos generales, aunque están perdiendo mucho más que solo dinero. La limpieza produce datos coherentes, estructurados y exactos, lo que permite tomar decisiones fundamentadas e inteligentes. También permite destacar las áreas de mejora en los entornos de almacenamiento y entrada de datos de flujo ascendente, lo que ahorra tiempo y dinero tanto ahora como en el futuro.

El proceso de data cleansing

Proceso de data cleansing

Data cleansing o limpieza de datos es un paso esencial para cualquier proceso analítico y normalmente incluye seis pasos.


Deduplicar: los duplicados generalmente aparecen cuando se combinan datos de diferentes fuentes (p. ej., hojas de cálculo, sitios web y bases de datos) o cuando un cliente tiene varios puntos de contacto con una empresa o ha enviado formularios redundantes. Estos datos repetidos consumen espacio en el servidor y recursos de procesamiento, lo que crea archivos más grandes y un análisis menos eficaz. Las reglas sobre la deduplicación dependen del resultado esperado de la empresa. Por ejemplo, si un cliente envió diferentes correos electrónicos en distintas páginas de un sitio web, un enfoque prudente eliminaría solo filas de datos en las que cada campo es una coincidencia exacta.


Quitar observaciones irrelevantes: los datos que no son relevantes para el problema que se resuelve pueden ralentizar el tiempo de procesamiento. Quitar estas observaciones irrelevantes no las elimina de la fuente, sino que las excluye del análisis actual. Por ejemplo, cuando se investigan campañas del último año, no es necesario incluir datos que estén fuera de ese período. Sin embargo, hay que tener en cuenta que incluso si una determinada variable no es necesaria, esta podría estar correlacionada con el resultado que se investiga (por ejemplo, la edad de un cliente podría incidir en qué correo electrónico tuvo más éxito).


Administrar datos incompletos: es posible que falten valores en los datos por algunas razones (por ejemplo, que los clientes no proporcionen cierta información), y ocuparse de esto es fundamental para el análisis, ya que evita los sesgos y los cálculos erróneos. Después de aislar y examinar los valores incompletos, que pueden aparecer como “0”, “NA”, “ninguno”, “nulo” o “no aplicable”, determine si estos son valores plausibles o si se deben a la falta de información. Si bien la solución más sencilla puede ser descartar los datos incompletos, hay que tener en cuenta el sesgo que puede suponer esa acción. Las alternativas incluyen reemplazar los valores nulos con sustitutos basados en modelos estadísticos o condicionales, o marcar y comentar los datos que faltan.


Identificar valores atípicos: los puntos de datos que están muy alejados del resto de la población pueden distorsionar significativamente la realidad de los datos. Estos valores atípicos se pueden identificar con técnicas visuales o numéricas, como los diagramas de caja, los histogramas, los diagramas de dispersión o las puntuaciones Z; cuando forman parte de un proceso automatizado, permiten hacer suposiciones rápidas, comprobar esas suposiciones y resolver los problemas de los datos con confianza. Una vez identificados, los valores atípicos se pueden incluir u omitir en función de lo extremos que sean y de los métodos estadísticos que se utilicen en un análisis.


Corregir errores estructurales: es importante corregir errores e inconsistencias, lo que incluye tipografías, uso de mayúsculas, abreviaturas y formato. Observa el tipo de dato de cada columna y asegúrate de que las entradas sean correctas y coherentes, lo que puede incluir la estandarización de campos, y quita los caracteres no deseados, como los espacios en blanco adicionales.


Validar: la validación es la oportunidad de garantizar que los datos sean exactos, completos, coherentes y uniformes. Esto ocurre en todo el proceso de limpieza de datos automatizado, pero sigue siendo importante realizar una muestra para asegurarse de que todo está alineado. Esta también es una oportunidad para documentar qué herramientas y técnicas se utilizaron en el proceso de limpieza.

El futuro del data cleansing

El data cleansing es fundamental para un análisis válido y confiable, pero para muchas empresas es un proceso manual y aislado que hace perder tiempo y recursos. La automatización de procesos analíticos (APA) ofrece una limpieza de datos repetible, escalable y accesible, y permite:

  • La democratización de datos y analítica
  • La automatización de procesos empresariales
  • El desarrollo de habilidades de las personas para obtener triunfos rápidos y resultados transformadores

La limpieza de datos es la base de la automatización de procesos analíticos (APA), y con esa sólida base, las empresas tienen un camino claro hacia un análisis más detallado gracias a la ciencia de datos y el aprendizaje automático.

Comenzar con la limpieza de datos

La limpieza de datos manual es tediosa, propensa a errores y consume mucho tiempo. Con su conjunto de bloques de creación de automatización fáciles de usar, Alteryx Analytics Automation™ permite que las organizaciones identifiquen y limpien los datos erróneos de diversas formas y, lo más importante, sin código. La plataforma analítica integral está diseñada con la importancia y las especificaciones de la exploración de datos en mente, y con el entendimiento de que los datos limpios conducen a un buen análisis. La plataforma de Alteryx crea un proceso rápido, repetible y auditable que puede crearse una vez y automatizarse para siempre.

Historia de cliente

Merlin Properties transforma y automatiza la auditoría interna con Alteryx

Bienes raíces
Finanzas
Automatización de procesos
Leer ahora
Informe
Informe

Informe de Thomson Reuters: Estado de los departamentos fiscales corporativos en el 2022

La tecnología necesaria para satisfacer las crecientes demandas de la economía digital empuja a los departamentos fiscales corporativos hacia varias direcciones a la vez.

Finanzas
Thomson Reuters
Leer ahora
imagen abstracta
Historia de cliente
5 minutos para leer

Restaurar pagos de derechos de empleados de varios años con Alteryx

Grant Thornton descubrió una necesidad de servicios de aseguramiento de nóminas, por lo que creó un modelo flexible, escalable y asequible para calcular con precisión el derecho de vacaciones de los empleados.

Finanzas
Recursos Humanos
Asia-Pacífico
Leer ahora

Kit de inicio de Intelligence Suite

Este kit de inicio ofrece plantillas analíticas para poner en marcha tu recorrido hacia la analítica avanzada sin programación mediante modelado asistido: la creación guiada de modelos de aprendizaje automático.
imagen