¿Qué es la estandarización de datos?

En la estandarización de datos, los algoritmos de software que ejecutan transformaciones de datos se desacoplan de los mismos sistemas que almacenan los datos. Estos algoritmos no persisten en el código; más bien, su lógica se basa en reglas legibles para las personas que quienes no son desarrolladores pueden mantener por sí mismos mediante interfaces visuales sin depender del departamento de TI. La estandarización de datos resume todas las semánticas complejas sobre cómo se capturan, estandarizan y combinan los datos. Ofrece a los agregadores la agilidad para incorporar nuevos socios rápidamente, mejorar las reglas que combinan lógicamente los datos nuevos del proveedor con los datos existentes y proporcionar a la empresa una analítica más rápida y exacta.

¿Por qué es importante la estandarización de datos?

La asignación de datos llegó para quedarse, ya que el mundo no está en proceso de adoptar una forma unificada de definir cada elemento de datos empresariales en el futuro próximo. Sin embargo, la buena noticia es que la asignación no tiene que ser compleja. Una estrategia moderna para el manejo de la asignación de datos es virtualizar todo el proceso.

Las organizaciones a menudo codifican su lógica de estandarización en un código que reside en los sistemas que alojan y los datos circulan en ellos. Este sólido acoplamiento implicó que las organizaciones dedicaran mucho tiempo a elaborar, mantener y depurar el código de estandarización que se propaga en varias ubicaciones, con un alcance limitado para poder garantizar su calidad y capacidad de reutilización. Con una lógica de estandarización compleja, las organizaciones han tenido dificultades para integrar a nuevos socios rápidamente, lo que no les permite alcanzar objetivos de incorporación y aprovechar nuevas oportunidades de ingresos.

Un enfoque único para la transformación de datos se aplica a través de la virtualización para desacoplar y resumir el código de estandarización, lo que les permite a los usuarios empresariales definir las reglas de estandarización mediante una interfaz visual que convierte la lógica en código en el momento de la consulta. Con este tipo de virtualización, las organizaciones aumentan su agilidad empresarial e incorporan nuevos socios más rápido.

El proceso de estandarización de datos

Cuando se incorpora un nuevo proveedor de datos, la plataforma de automatización de analítica utiliza su escáner de datos patentado para comprender los datos de origen, independientemente del formato o del sistema en el que se encuentren. La plataforma crea una capa de datos universal y virtual que mejora automáticamente con indicadores a los nuevos elementos de datos sin procesar e incluye toda la lógica de transformación que requiere la empresa.

Estas columnas de datos virtuales y sus transformaciones permiten que la plataforma consulte los datos sin procesar en cualquier momento, lo que elimina las transferencias y copias de datos, y garantiza que los resultados de las consultas reflejen los últimos cambios realizados en los datos sin procesar. Cuando se detectan cambios en el esquema, la plataforma realiza los ajustes necesarios en la capa de datos para indicar correctamente los elementos de datos sin procesar.

Con las columnas de datos virtuales agregadas, los usuarios empresariales definen reglas virtuales para estandarizar y combinar los datos. Las reglas son virtuales, ya que no persisten en el código. Se dejan en un formato legible para las personas que los usuarios empresariales mantienen. Solo en el momento de la consulta, Alteryx elabora automáticamente el código necesario que ejecuta para crear tablas y vistas.

Existen tres tipos de reglas que los usuarios empresariales mantienen para la transformación de datos:

Reglas de taxonomía: estas reglas asignan las columnas y los valores de los datos del socio a los del agregador. Por ejemplo, un socio puede describir sus transacciones como si tuviera dos columnas: un monto de liquidación y un tipo, de modo que el tipo puede ser una de tres opciones.

Reglas de redefinición: estas reglas especifican cómo extraer elementos de datos del lado del socio y cómo distribuirlos en el lado del agregador. Por ejemplo, un minorista puede proporcionar todos los datos de transacciones en un solo archivo, pero el agregador debe dividirlos en tres tablas: una para transacciones, otra para datos de minoristas y otra para consumidores.

Reglas semánticas: estas reglas expresan el significado de los elementos de datos y cómo la empresa los utiliza para describir su dominio. Por ejemplo, ¿qué constituye una transacción exitosa? Asimismo, ¿cómo se debe calcular su monto final liquidado después de contabilizar los reembolsos? Cada proveedor de datos tiene su propia semántica que coincide con el contexto de sus operaciones, pero el agregador de datos debe conciliar dicha semántica con todas las definiciones de datos de otros proveedores.

Puedes definir estas reglas de forma declarativa con una herramienta visual. Cuenta con un conjunto completo de funciones de transformación que facilitan la estandarización. Por ejemplo, los usuarios pueden asignar columnas y traducir valores a un conjunto estándar o reunir datos de varios archivos, incluidos XML, CSV, JSON, EDI, etc.

Los problemas comunes, como un orden diferente de columnas, columnas con cambios en el nombre, cambios en los valores o tipos de columnas, se pueden manejar automáticamente. Los usuarios también pueden utilizar una consola SQL para describir una lógica más compleja. Además, los usuarios pueden crear validaciones e informes de datos para monitorear y verificar que todas las estandarizaciones se hayan ejecutado correctamente. Tan pronto como se agrega o cambia un nuevo archivo o registro, un escáner de datos lo detecta, aplica las reglas de estandarización correspondientes, mediante la generación dinámica del código SQL pertinente y su ejecución, y exporta los datos a un formato estándar.

El futuro de la estandarización de datos

Estandarizar los datos empresariales de varios socios es una tarea común y fundamental que solo se volverá más importante y frecuente a medida que los desarrollos económicos ofrezcan la oportunidad de asociarse con más stakeholders, y que estos proveedores de datos sigan moldeando sus conjuntos de datos de acuerdo con su propia lógica empresarial. Dado el impacto que tiene la estandarización de datos sobre la agilidad y el rendimiento de la empresa, las organizaciones que agregan datos de varias fuentes deben considerar cuidadosamente la infraestructura y los flujos de trabajo que adoptan, junto con su capacidad para incorporar nuevos socios.

Primeros pasos con la estandarización de datos

Las organizaciones a menudo se enfrentan a un desafío similar: cómo introducir conjuntos de datos que vienen cada uno en un formato diferente según la lógica empresarial personalizada de su proveedor y hacer que estos conjuntos de datos se estandaricen para que se puedan comparar, agregar y, por otra parte, analizar de manera coherente.

La plataforma Alteryx Analytics Automation ayuda a las empresas a preparar datos en fuentes dispares sin necesidad de ingeniería para crear pipelines de datos y ETL. Los clientes liberan el valor total de sus datos, de modo que empoderan a los usuarios empresariales para que trabajen con conjuntos de datos difíciles de entender, conciliar y combinar, lo que les permite a los clientes capturar y validar la lógica empresarial al instante para su aplicación en una amplia gama de casos prácticos.

Siguiente término
Ingeniería de características