patrón blanco
Glosario

Data profiling

patrón blanco

Prueba gratis por un mes

Encuentra insights potentes con más de 300 bloques de creación de automatización de código simple y sin código.

Content

¿Qué es el data profiling?

El data profiling o perfilado de datos permite descubrir, comprender y organizar datos mediante la identificación de sus características y la evaluación de su calidad. El proceso puede revelar si los datos están completos o son únicos, si se detectan errores y patrones inusuales y si se determina la facilidad de uso. Como resultado, las empresas se benefician de análisis más exactos, mejores decisiones y grandes ahorros.

¿Por qué es importante el data profiling?

En EE. UU., los datos incorrectos les cuestan a las empresas más de USD 3 billones al año debido a la desconfianza en la calidad de los datos, la repetida limpieza de datos y la búsqueda de fuentes de datos adicionales para confirmar la exactitud de estos. El perfilado de datos garantiza que los datos sean de alta calidad y creíbles, lo que permite que las empresas comprendan y verifiquen las características de sus datos, identifiquen los problemas de calidad de los datos y se aseguren de que los datos cumplan con los estándares estadísticos y organizacionales.

Tipos de data profiling

Existen varios tipos diferentes de técnicas de data profiling o perfilado de datos, pero todos se encuentran dentro de tres categorías principales: estructura, contenido y perfilado de relaciones. Para comprender el proceso de perfilado de datos y cómo estos pasos funcionan en conjunto, imagina la fusión reciente de una empresa y la necesidad de integrar datos de un sistema de CRM a otro. El perfilado ayudará a comprender las características y la calidad del origen (el sistema antiguo) y el destino (el sistema nuevo) mediante el análisis del formato, la información y la calidad de los datos, así como de las relaciones entre los distintos campos y tablas en la base de datos.

Proceso del data profiling

Detección de la estructura

El primer paso en el perfilado de cualquier dato, ya sea una base de datos completa o un solo archivo, es observar la estructura y el formato. Estas son algunas preguntas que se deben hacer durante el perfilado de la estructura:

  • ¿Cuál es el tamaño general del conjunto de datos?
  • ¿Qué tipos de datos contiene? (Por ejemplo, cadenas, flotantes, fecha y hora, booleanos, objetos espaciales).
  • ¿Tienen los datos un formato correcto y coherente? Esto es importante cuando se trata de migrar datos a un nuevo repositorio.

Después de abordar lo anterior, etiqueta y marca los datos con los resultados para mejorar la facilidad de uso.
data-profiling-estructura-detección


Detección del contenido

Observar el contenido, tanto desde una perspectiva cognitiva como visual, puede proporcionar una mejor comprensión de los datos y destacar dónde hay carencias o errores. Durante el perfilado de contenido, se debe hacer lo siguiente:

  • Ejecutar un resumen de estadística, como los valores mínimos y máximos de los campos numéricos y la frecuencia de los valores de los campos categóricos.
  • Comprobar la cantidad de valores nulos, en blanco y únicos para obtener insight sobre el rango y la calidad de los datos, y si un campo es relevante.
  • Buscar errores sistémicos, como faltas de ortografía y la representación variable de valores (por ejemplo, “médico” en lugar de “doctor”), lo que puede entorpecer un proceso analítico.
data-profiling-contenido-detección


Detección de la relación
La identificación de las relaciones clave entre los datos puede orientar los esfuerzos de retención y destacar los puntos en los que los datos podrían transformarse para ser más eficaces. Una relación puede ser tan simple como una fórmula en la celda de una hoja de cálculo que hace referencia a otra celda, o bien tan compleja como una tabla que tiene datos de ventas agregados de una colección de tablas que se actualizan regularmente.
data-profiling-relación-detección

Cómo se utiliza el data profiling

Las empresas recopilan más datos que nunca, pero sin los procesos y las herramientas adecuados, pierden la oportunidad de utilizarlos de forma inteligente. El perfilado de datos les permite organizar y administrar datos para revelar información útil y potente. Estas son algunas de las formas en las que el perfilado puede ayudar:

  • Integra datos de varias fuentes y determina la calidad de los datos antes de que se ingresen en el lago de datos de una empresa.
  • Proporciona insight sobre una base de clientes para aumentar la eficiencia y las ventas, y detectar mejor el fraude.

Primeros pasos con el data profiling

En muchas organizaciones, el perfilado de datos depende de personas con formación técnica y no técnica. Alteryx La Analytic Process Automation (APA) Platform™ permite que la tarea sea comprensible con herramientas de perfilado de datos fáciles de usar para el perfilado estructural, de contenido y de relaciones, que incluye las siguientes opciones:

  • Herramienta Datos de entrada, que lleva cualquier tipo de dato a la interfaz de Alteryx Designer.
  • Herramienta Perfil básico de datos, que analiza y proporcionar automáticamente metadatos para cada campo.
  • Herramienta Examinar, que utiliza gráficos y tablas para mostrar los valores principales, las estadísticas clave y la “forma” general de un conjunto de datos.
una mujer
Libro electrónico
Tiempo de lectura: 5 minutos

5 casos prácticos para ayudar a los profesionales de auditoría a recuperar su tiempo

Explora cinco procesos de auditoría comunes que puedes modernizar para que tu equipo pueda dedicar más tiempo a resolver problemas analíticos.

Finanzas
Ganancias en eficiencia
Desarrollo profesional
Leer ahora
gamification
Seminario web

Aumentar tu base de usuarios de Alteryx con una innovadora gamificación

JLL organizó Alteryx Adventure, un programa de gamificación que permite a los equipos pasar de novatos a expertos. Durante esta sesión, descubrirás su programa y, ADEMÁS, podrás aprovechar el contenido para presentarlo en tu organización.

Líder de analítica
Inspire
Servicios financieros: banca
Saber más
sure we can do it
Seminario web

Claro que podemos hacerlo. ¿Cómo lo haremos?

Descubre cómo en los últimos cinco años, Alteryx le ha permitido a CUNA hacer lo imposible mediante la creación de nuevas capacidades que nos han permitido respaldar a 700 usuarios, 300 paneles de control, 135 000 vistas y múltiples iniciativas de ciencia de datos.

Finanzas
Inspire
Designer
Saber más

Kit de inicio para data blending

Inicia tu trayectoria para controlar data blending y automatizar los procesos de flujo de trabajo repetitivos que combinan datos de diversas fuentes.
imagen

Transforma tu analítica

Prepárate para acceder a insights ocultos en tus datos.
Producto de Alteryx