What is Data Fabric?
A medida que los datos se tornan cada vez más complejos y distribuidos, surgieron nuevas técnicas de administración de datos para enfrentar los desafíos que conllevan. Una de esas técnicas se llama “tejido de datos”, que Gartner nombró como una de sus principales. Diez tendencias de tecnología de datos y analítica para 2021.
¿Qué es el tejido de datos?
Un tejido de datos es una capa integrada que abarca todas las conexiones de datos y fuentes de datos dentro de una organización, así como las relaciones existentes entre esos datos. No se trata de una tecnología única, sino de un concepto de diseño que aprovecha muchas tecnologías diferentes que funcionan simultáneamente para garantizar que todos los datos se puedan buscar con facilidad. Dado que un tejido de datos tiene visibilidad en tiempo real de todos los datos de la organización, puede responder prácticamente cualquier consulta de analítica.
Los metadatos son el pilar de un tejido de datos.
Un tejido de datos prospera con metadatos ricos. Los metadatos son “datos sobre datos”, en otras palabras, información como qué contienen los datos o cómo están estructurados, y son esenciales en todas las etapas del ciclo de vida de los datos. En un tejido de datos, el objetivo es que los metadatos conecten componentes interoperables y sirvan como barómetro para el éxito del tejido de datos y recomienden áreas de mejora.
Para hacerlo, un tejido de datos depende de dos tipos de metadatos: “activos” y “pasivos”, según lo define Gartner. Los metadatos pasivos son metadatos diseñados para un uso predeterminado (como modelos de datos, esquemas o glosarios) e incluyen también metadatos en tiempo de ejecución, que incluyen logs o información de auditoría. Los metadatos activos, en cambio, están impulsados por IA. En un tejido de datos, los metadatos activos son lo que impulsará las mejoras continuas en el diseño del tejido de datos.
En la medida de lo posible, Gartner recomienda que un tejido de datos convierta los datos pasivos en datos activos. Esto puede verse como “analizar de forma continua los metadatos disponibles para obtener métricas y estadísticas clave y luego construir un modelo de grafo”, o como “aprovechar métricas clave de metadatos para habilitar algoritmos de IA/ML que aprenden con el tiempo y generan predicciones avanzadas sobre la administración e integración de datos”. En ambos casos, los metadatos desempeñan un rol activo en la mejora de la distribución de datos en toda la organización.
Debido a su rol crítico en el tejido de datos, los metadatos deben ser un calificador importante al seleccionar tecnologías. Las organizaciones deben priorizar las tecnologías que comparten sus metadatos utilizando API abiertas y estándares abiertos para construir un tejido de datos exitoso.
¿Por qué es necesario un tejido de datos?
Si el objetivo de un tejido de datos es unificar los datos para aumentar la capacidad de búsqueda y acceso, quizás te preguntes por qué las organizaciones no pueden usar lagos de datos o almacenes de datos para combinar todos sus datos, en lugar de un tejido de datos. En primer lugar, los tejidos de datos y otros repositorios comunes de datos no son mutuamente excluyentes; de hecho, un tejido de datos funciona mejor cuando va acompañado de ellos.
Sin embargo, la verdad es que no es realista esperar que las organizaciones dependan de un almacenamiento centralizado. La mayoría tiene una combinación de diferentes nubes públicas o una combinación de almacenamiento en las instalaciones o en la nube. Además, las organizaciones absorben datos de diversas fuentes de datos, como las redes sociales o la IoT.
En el pasado, otras soluciones empleadas para agrupar los numerosos puntos de acceso y almacenamiento de datos resultaron insuficientes. Las organizaciones probaron integraciones punto a punto, pero cada nueva integración agrega costos y trabajo de mantenimiento significativos para una organización y tampoco son particularmente escalables. Los centros de datos son otra solución arquitectónica que intentó resolver este problema, pero a menudo introdujeron un mayor riesgo de falta de datos de calidad.
Los beneficios de un tejido de datos
Los beneficios de un tejido de datos se extienden a casi todos los aspectos de una organización y se dividen principalmente en tres categorías:
- Acceso a datos de autoservicio y más insights
Este es, quizás, el beneficio más tangible de un tejido de datos. Dado que un tejido de datos permite una mayor integración de datos y la posibilidad de que las organizaciones analicen de forma habitual grandes volúmenes de datos al mismo tiempo, existe un potencial mucho mayor para obtener nuevos insights analíticos con más frecuencia. Además, un tejido de datos brinda a la empresa un punto de acceso único para encontrar los datos: ya no es necesario pedirle a TI que reúna información proveniente de distintos silos de datos. La posibilidad de que los usuarios empresariales encuentren los datos que necesitan impulsa una mayor innovación y nuevos proyectos de analítica en toda la organización, cuyos beneficios monetarios pueden ser enormes. - Gobernanza automatizada
Como parte de un tejido de datos se incorpora una capa de gobernanza de datos, que se distribuye de forma uniforme entre todos los puntos de acceso a los datos. Como consecuencia, las organizaciones obtienen una mayor confianza y transparencia de datos, y pueden aplicar automáticamente las políticas de datos en toda la organización. Dependiendo del nivel de IA, las organizaciones también pueden usar su tejido de datos para aplicar automáticamente la gobernanza de datos según el lenguaje utilizado en ciertos documentos o políticas. En cuestión de minutos, las organizaciones pueden demostrar su cumplimiento normativo y evitar multas potencialmente cuantiosas en el proceso. - Tareas automatizadas de ingeniería de datos
A diferencia de las integraciones de datos tradicionales de extremo a extremo y la monitorización manual de los pipelines de datos, un tejido de datos funciona en gran medida por sí solo; no hay código que crear ni mantener. Esto no solo ahorra a los ingenieros de datos una gran cantidad de tiempo valioso, sino que elimina el inevitable error humano que conlleva la codificación. Al usar metadatos, un tejido de datos también ayuda automáticamente a optimizar la integración de datos, lo que mejora la entrega de datos, así como el equilibrio de la carga de trabajo y el escalado elástico. Un tejido de datos incluso puede ayudar a automatizar tareas de descubrimiento de datos, dependiendo de las necesidades únicas de la organización, para acelerar el tiempo de valoración de un activo de datos. En esencia, un tejido de datos reduce mucho del trabajo necesario de ingeniería de datos.
Los componentes principales de un tejido de datos
Como se mencionó, un tejido de datos no es una tecnología singular, sino la combinación de muchas tecnologías. Empleando metadatos como hilo de procesamiento subyacente, estas tecnologías deben tener en cuenta ciertas capacidades, que incluyen, según la definición de Garter:
- Catálogo de datos
Un catálogo de datos es un componente crítico de un tejido de datos. Permite a las organizaciones acceder y representar todos los tipos de metadatos, y sirve como inventario de todos los activos de datos. Por lo tanto, es la generación de catálogos de datos la que proporciona a los datos el contexto de metadatos adecuado para que puedan compartirse entre entornos. Un catálogo de datos también permite agregar metadatos a determinados tipos de datos de forma automática y puede extraer ciertos metadatos para su almacenamiento. - Grafo de conocimiento
Un gráfico de conocimiento es lo que le da significado a un tejido de datos. Un grafo de conocimiento enriquece los datos con semántica sobre el uso de datos en toda la organización para que sea fácil de interpretar para los líderes de analítica. Con el grafo de conocimiento, la organización puede identificar mejor las relaciones entre múltiples repositorios de datos, que luego pueden utilizarse en algoritmos de IA/ML para potenciar los modelos de datos. - Administración activa de metadatos
Las tecnologías de administración activa de metadatos son críticas para mostrar los cambios sugeridos en el tejido de datos provocados por los metadatos activos. Esto permite que la estructura de datos mejore constantemente de forma automática, sin necesidad de revisiones constantes por parte de los ingenieros de datos. - Preparación de datos y capa de entrega
La capa de preparación y entrega de datos de un tejido de datos es donde los datos se ponen a disposición de los usuarios. Es importante que las tecnologías seleccionadas para esta capa sean accesibles para todo tipo de usuarios, no solo para aquellos dentro del Departamento de TI. En particular, los usuarios empresariales deberían desempeñar un rol crítico en ayudar a impulsar la preparación de datos, lo cual, debido a su contexto único, permitirá que los datos se transformen y usen de la mejor manera para la analítica. Para que esto suceda, las organizaciones deben seguir un estilo ELT (en lugar de un estilo ETL). Esto permite que las transformaciones de datos se realicen después de que los datos sin procesar se hayan extraído y cargado en su repositorio correspondiente, lo que da a los usuarios más autonomía para decidir cómo deben transformarse. Seleccionar una plataforma de ingeniería de datos que permita este estilo ELT y una preparación de datos fácil de usar debería ser una prioridad para las organizaciones interesadas en construir un tejido de datos. - Orquestación y DataOps
Para que los datos sigan su curso de forma continua y puntual de un lugar a otro, es necesario implementar ciertos procesos y programaciones. Esto es lo que representa la capa de orquestación y DataOps de un tejido de datos. En muchos casos, esta funcionalidad está integrada en las plataformas de preparación e ingeniería de datos, ya que es esencial para una preparación de datos sin problemas. Las organizaciones deben ser capaces de “establecer y olvidar” muchos de sus pipelines de preparación de datos rutinarios para garantizar que siempre se entreguen datos actualizados y oportunos.
Primeros pasos
Puede ser intimidante comenzar un recorrido hacia la red de datos, pero lo más probable es que ya tengas un buen lugar para empezar: tus procesos ELT. Es a través de estos procesos que históricamente gestionaste la mayor parte de tu trabajo de integración de datos, y donde ahora puedes empezar a ajustar procesos (como pasar a un estilo ELT) e incorporar las tecnologías necesarias para cubrir cualquier carencia en metadatos, gobernanza, preparación de datos, etc.
Agregar cada vez más datos a tu núcleo (con metadatos extensos, por supuesto) es el siguiente paso para desarrollar tu tejido de datos. Los metadatos activos y los modelos de aprendizaje automático pueden ser una necesidad mayor, pero tómate tu tiempo: es mejor comenzar poco a poco y desarrollar un tejido de datos gradualmente que intentar abarcar demasiado de una sola vez.
Una cosa es segura: hay una razón por la que Gartner incluyó al tejido de datos como una de las tendencias de 2021. Esta técnica resuelve muchas necesidades y su popularidad no hará más que crecer en los próximos años.