Término del glosario

Limpieza de datos

¿Qué es data cleansing?

Data cleansing o limpieza de datos, también conocida como depuración, identifica y corrige errores, duplicados y datos irrelevantes de un conjunto de datos sin procesar. Como parte del proceso de preparación de datos, la limpieza de datos permite obtener datos precisos y sustentables que generan visualizaciones, modelos y decisiones empresariales de confianza.

¿Por qué es importante la limpieza de datos?

Los análisis y algoritmos son solo el reflejo de los datos en los que se basan. En promedio, las organizaciones creen que casi el 30 % de sus datos son imprecisos. Estos datos erróneos cuestan a las empresas el 12 % de sus ingresos generales, aunque están perdiendo mucho más que solo dinero. La limpieza produce datos consistentes, estructurados y precisos, lo que permite tomar decisiones fundamentadas e inteligentes. También permite destacar las áreas de mejora en los entornos de almacenamiento y entradas de datos anteriores, lo que ahorra tiempo y dinero tanto ahora como en el futuro.

El proceso de data cleansing

Proceso de data cleansing

Data cleansing o limpieza de datos es un paso esencial para cualquier proceso analítico y normalmente incluye seis pasos.

Deduplicar: los duplicados generalmente aparecen cuando se combinan datos de diferentes fuentes (por ejemplo, hojas de cálculo, sitios web y bases de datos) o cuando un cliente tiene varios puntos de contacto con una empresa o ha enviado formularios redundantes. Estos datos repetidos consumen espacio en el servidor y recursos de procesamiento, lo que crea archivos más grandes y un análisis menos eficaz. Las reglas sobre la deduplicación dependen del resultado esperado de la empresa. Por ejemplo, si un cliente envió diferentes correos electrónicos en distintas páginas de un sitio web, un enfoque prudente eliminaría solo filas de datos en las que cada campo es una coincidencia exacta.

Quitar observaciones irrelevantes: los datos que no son relevantes para el problema que se intenta resolver pueden ralentizar el tiempo de procesamiento. Quitar estas observaciones irrelevantes no las elimina de la fuente, sino que las excluye del análisis actual. Por ejemplo, cuando se investigan campañas del último año, no es necesario incluir datos que estén fuera de ese período. Sin embargo, hay que tener en cuenta que incluso si una determinada variable no es necesaria, esta podría estar correlacionada con el resultado que se investiga (por ejemplo, la edad de un cliente podría incidir en qué correo electrónico tuvo más éxito).

Administrar datos incompletos: es posible que falten valores en los datos por algunas razones (por ejemplo, que los clientes no proporcionen cierta información), y ocuparse de esto es fundamental para el análisis, ya que evita sesgos y cálculos erróneos. Después de aislar y examinar los valores incompletos, que pueden aparecer como “0”, “NA”, “ninguno”, “nulo” o “no aplicable”, se debe determinar si estos son valores plausibles o si se deben a la falta de información. Si bien la solución más sencilla puede ser descartar los datos incompletos, hay que tener en cuenta el sesgo que puede suponer esa acción. Las alternativas incluyen reemplazar los valores nulos con sustitutos basados en modelos estadísticos o condicionales, o marcar y comentar los datos que faltan.

Identificar valores atípicos: los puntos de datos que están muy alejados del resto de la población pueden distorsionar significativamente la realidad de los datos. Estos valores atípicos se pueden identificar con técnicas visuales o numéricas, como los diagramas de caja, los histogramas, los diagramas de dispersión o las puntuaciones Z; cuando forman parte de un proceso automatizado, permiten hacer suposiciones rápidas, comprobar esas suposiciones y resolver los problemas de los datos con confianza. Una vez identificados, los valores atípicos se pueden incluir u omitir en función de lo extremos que sean y de los métodos estadísticos que se utilicen en un análisis.

Corregir errores estructurales: es importante corregir errores e inconsistencias, lo que incluye tipografías, uso de mayúsculas, abreviaturas y formato. Observa el tipo de dato de cada columna y asegúrate de que las entradas sean correctas y consistentes, lo que puede incluir la estandarización de campos, y quita los caracteres no deseados, como los espacios en blanco adicionales.

Validar: la validación es la oportunidad de garantizar que los datos estén completos y sean precisos, consistentes y uniformes. Esto ocurre a lo largo de todo el proceso de limpieza de datos automatizado, pero sigue siendo importante ejecutar una muestra para asegurarse de que todo está alineado. Esta también es una oportunidad para documentar qué herramientas y técnicas se utilizaron en el proceso de limpieza.

El futuro del data cleansing

La limpieza de datos es fundamental para llevar adelante un análisis válido y confiable, pero para muchas empresas es un proceso manual y aislado que hace perder tiempo y recursos. La automatización de la analítica ofrece una limpieza de datos repetible, escalable y accesible, y permite lo siguiente:

La democratización de datos y analítica
La automatización de procesos empresariales
El desarrollo de habilidades de las personas para obtener triunfos rápidos y resultados transformadores

La limpieza de datos es la base de la automatización de la analítica, y con esa base sólida, las empresas tienen un camino claro hacia un análisis más detallado gracias a la ciencia de datos y el aprendizaje automático.

Comenzar con la limpieza de datos

La limpieza de datos manual es tediosa, propensa a errores y consume mucho tiempo. Con su conjunto de bloques de creación de automatización fáciles de usar, la automatización de la analítica de Alteryx empodera a las organizaciones para que identifiquen y limpien los datos erróneos de diversas maneras, sin código. La plataforma analítica integral está diseñada con la importancia y las especificaciones de la exploración de datos en mente, y con el entendimiento de que los datos limpios conducen a un buen análisis. La plataforma de Alteryx crea un proceso rápido, repetible y auditable que puede crearse una vez y automatizarse para siempre.

Siguiente término

Almacén de datos en la nube (CDW)

Historia de cliente

Ahorrar más de 75 horas al día con previsión automatizada

La empresa de servicios financieros, Brookson, brindó a sus clientes mejores experiencias digitales al mejorar y escalar su equipo interno.

Preparación de datos y analítica
Ciencia de datos y aprendizaje automático
Automatización de procesos

Leer ahora

Historia de cliente

Nippon Caterpillar Japón optimiza las operaciones de análisis

Entérate cómo Nippon Caterpillar Japón transformó sus datos para acelerar la eficiencia operativa.

Preparación de datos y analítica
Marketing
APAC

Leer ahora

¿POR QUÉ TRABAJAR CON NOSOTROS?

Programa de socios

Centro de confianza

IA GENERATIVA

Alteryx AiDIN

DESCRIPCIÓN GENERAL DE LA PLATAFORMA

CAPACIDADES DE LA PLATAFORMA

Alteryx Analytics Cloud

Productos locales

DEPARTAMENTO

INDUSTRIA

ROL

RECORRIDO POR LA PLATAFORMA

Haz un recorrido por Alteryx AI Platform for Enterprise Analytics

RECURSOS

APRENDE

EVENTOS

Realizar evaluación

Cuadro de mando de datos

EMPRESA

LIFE AT ALTERYX

SALA DE PRENSA

PROBAR GRATIS

Transforma tu analítica

Limpieza de datos

Transforma tu analítica

¿Qué es data cleansing?

¿Por qué es importante la limpieza de datos?

El proceso de data cleansing

El futuro del data cleansing

Comenzar con la limpieza de datos

Siguiente término

Transforma tu analítica

Acerca de Alteryx

Recursos

Soporte

Comunidad

En tendencia ahora

Popular

Empresa

Limpieza de datos

Transforma tu analítica

¿Qué es data cleansing?

¿Por qué es importante la limpieza de datos?

El proceso de data cleansing

El futuro del data cleansing

Comenzar con la limpieza de datos

Siguiente término

Recursos relacionados

Historia de cliente

Ahorrar más de 75 horas al día con previsión automatizada

Historia de cliente

Nippon Caterpillar Japón optimiza las operaciones de análisis

¡Faltan pocas semanas para Inspire 2024!

13 al 16 de mayo | El evento de analítica del año