What is Data Fabric?
Les données devenant de plus en plus complexes et distribuées, de nouvelles techniques de gestion des données sont apparues pour relever les défis qui en découlent. L'une de ces techniques est le data fabric, que Gartner désigne comme l'une des 10 grandes tendances technologiques en matière de données et d'analytique de 2021.
Qu'est-ce qu'un data fabric ?
Le data fabric est une couche intégrée qui englobe toutes les connexions aux données et sources de données au sein d'une organisation, ainsi que les relations qui existent entre ces données. Il ne s'agit pas d'une technologie unique, mais d'un concept qui s'appuie sur de nombreuses technologies différentes, qui fonctionnent simultanément pour garantir que toutes les données sont facilement consultables. Étant donné que le data fabric contrôle toutes les données de l'organisation, il peut répondre à pratiquement n'importe quelle question analytique.
Les métadonnées sont la base d'un data fabric
Un data fabric efficace s'appuie sur des métadonnées enrichies. Les métadonnées sont des données sur les données, en d'autres termes des informations telles que le contenu des données ou la manière dont elles sont structurées, et sont essentielles à tous les stades du cycle de vie des données. Dans un data fabric, l'objectif est que les métadonnées relient les composants interopérables, servent de baromètre pour le succès du site data fabric et recommandent des domaines d'amélioration.
Pour ce faire, le data fabric dépend de deux types de métadonnées : les métadonnées actives et passives, selon la définition de Gartner. Les métadonnées passives sont des métadonnées conçues pour une utilisation prédéterminée (modèles de données, schémas ou glossaires) et comprennent également des métadonnées d'exécution, notamment des journaux ou des informations d'audit. Les métadonnées actives, quant à elles, sont pilotées par l'IA. Dans un data fabric, ce sont les métadonnées actives qui permettront d'améliorer en permanence la conception du data fabric.
Dans la mesure du possible, Gartner recommande qu'un data fabric convertisse les données passives en données actives. Cela peut prendre la forme d'une analyse continue des métadonnées disponibles pour y trouver des métriques et des statistiques clés, puis une construction d'un modèle graphique ou d'une exploitation des métadonnées clés pour permettre aux algorithmes d'IA/ML d'apprendre au fil du temps et de produire des prédictions avancées concernant la gestion et l'intégration des données. Dans les deux cas, les métadonnées jouent un rôle actif dans l'amélioration de la distribution des données au sein de l'organisation.
En raison de leur rôle critique dans un data fabric, les métadonnées doivent être un critère important lors de la sélection des technologies. Les organisations doivent donner la priorité aux technologies qui partagent leurs métadonnées à l'aide d'API ouvertes et de normes ouvertes afin de réussir la mise en place d'un data fabric.
Pourquoi un data fabric est-il nécessaire ?
Si l'objectif d'un data fabric est d'unifier les données pour en améliorer la recherche et l'accessibilité, pourquoi les organisations ne peuvent-elles pas utiliser un lac de données ou un entrepôt de données pour combiner toutes leurs données, au lieu d'un data fabric ? Tout d'abord, le data fabric et les autres référentiels de données courants ne s'excluent pas mutuellement. Un site data fabric fonctionne même mieux lorsqu'il est accompagné de ces référentiels.
Cependant, il n'est pas réaliste de s'attendre à ce que les organisations s'appuient sur un stockage centralisé. La plupart d'entre elles mélangent différents clouds publics ou combinent stockage sur site et dans le cloud. En outre, les organisations ingèrent des données provenant de diverses sources, telles que le contenu social multimédia ou l'IoT.
Auparavant, les autres solutions utilisées pour regrouper les nombreux points de stockage et d'accès aux données n'ont pas donné les résultats escomptés. Les organisations ont testé des intégrations point à point, mais chaque nouvelle intégration entraîne des coûts et un travail de maintenance importants pour l'organisation, et n'est pas particulièrement évolutive. Les hubs de données sont une autre solution architecturale qui a tenté de résoudre ce problème, mais ils ont souvent introduit un risque plus élevé de manque de qualité des données.
Les avantages d'un data fabric
Les avantages d'un data fabric ont des effets sur presque toutes les facettes d'une organisation et se répartissent principalement en trois catégories :
- Accès aux données en libre-service, meilleure production d'insights
C'est peut-être l'avantage le plus tangible d'un data fabric. Étant donné qu'un data fabric permet une meilleure intégration des données et donne aux entreprises la possibilité d'analyser régulièrement de plus grandes quantités de données en même temps, le potentiel de production d'insights analytiques nouveaux et plus fréquents s'en trouve considérablement renforcé. En outre, un data fabric procure aux métiers un point d'accès unique pour trouver des données. Il n'est plus nécessaire de demander à l'IT de rassembler des données disséminées dans différents silos. Le fait que les utilisateurs métier puissent trouver les données dont ils ont besoin favorise l'innovation et les nouveaux projets analytiques à l'échelle de l'entreprise, avec des retombées financières qui peuvent être considérables. - Gouvernance automatisée
Une couche de gouvernance des données, uniformément répartie entre tous les points d'accès aux données, fait partie intégrante du data fabric. Les organisations bénéficient ainsi d'une confiance accrue et d'une plus grande transparence des données, et peuvent automatiquement mettre en œuvre des politiques dans l'ensemble de l'organisation. En fonction du niveau d'IA, les organisations peuvent également utiliser leur data fabric pour appliquer automatiquement la gouvernance des données en fonction du langage utilisé dans certains documents ou politiques. En quelques minutes, les organisations peuvent prouver leur conformité et éviter des amendes potentiellement considérables. - Automatisation des tâches d'ingénierie des données
Contrairement aux intégrations de données traditionnelles de bout en bout et à la surveillance manuelle des pipelines de données, le data fabric fonctionne en grande partie de manière autonome, et il n'y a pas de code à créer ou à maintenir. Cela permet non seulement aux ingénieurs de données de gagner un temps précieux, mais aussi d'éliminer les erreurs humaines inévitables en matière de codage. Grâce aux métadonnées, le data fabric permet également d'optimiser automatiquement l'intégration des données, ce qui améliore la livraison, ainsi que l'équilibrage de la charge de travail et la scalabilité élastique. Un data fabric peut même aider à automatiser les tâches de découverte des données, en fonction des besoins spécifiques de l'organisation, afin d'accélérer le temps de valorisation d'un actif de données. Essentiellement, un data fabric réduit une grande partie du travail d'ingénierie des données nécessaire.
Principaux composants d'un data fabric
Comme nous l'avons vu, le data fabric n'est pas une technologie unique, mais la combinaison de plusieurs technologies. En utilisant les métadonnées comme fil conducteur, ces technologies doivent tenir compte de certaines capacités, notamment, comme le définit Gartner :
- Catalogage de données
Le catalogage de données est un élément essentiel du data fabric. Il permet aux organisations d'accéder à tous les types de métadonnées et de les représenter, et sert d'inventaire pour tous les actifs de données. C'est donc le catalogage de données qui donne aux données le bon contexte de métadonnées afin qu'elles puissent être partagées dans l'ensemble de l'environnement. Un catalogage de données permet également d'ajouter automatiquement des métadonnées à certains types de données et d'extraire certaines métadonnées pour les stocker. - Graphe de connaissances
Un graphe de connaissances est ce qui donne au data fabric sa signification. Un graphe de connaissances enrichit les données d'une sémantique sur l'utilisation des données dans l'ensemble de l'organisation, de sorte que les responsables analytiques puissent facilement les interpréter. Grâce au graphe de connaissances, l'organisation peut mieux identifier les relations entre plusieurs référentiels de données, qui peuvent ensuite être utilisées dans les algorithmes d'IA/ML pour alimenter les modèles de données. - Gestion active des métadonnées
Les technologies de gestion des métadonnées actives sont essentielles pour faire apparaître les changements proposés dans le data fabric grâce aux métadonnées actives. Cela permet au data fabric de s'améliorer constamment de manière automatique, sans révision constante par l'ingénierie des données. - Couche de préparation et livraison des données
La couche de préparation et livraison des données d'un data fabric est l'endroit où les données sont mises à la disposition des utilisateurs. Il est important que les technologies sélectionnées pour cette couche soient accessibles à tous les types d'utilisateurs, et pas seulement à ceux de l'IT. En particulier, les utilisateurs métier devraient jouer un rôle essentiel dans la préparation des données qui, en raison de leur contexte unique, permettront aux données d'être transformées et utilisées pour l'analytique. Pour ce faire, les organisations doivent adopter un style ELT (par opposition à ETL). Cela permet de transformer les données une fois que les données brutes ont été extraites et chargées dans leur référentiel respectif, ce qui donne aux utilisateurs une plus grande autonomie pour décider de la manière dont elles doivent être transformées. Le choix d'une plateforme d'ingénierie des données qui permet ce style ELT et une préparation conviviale des données devrait être une priorité absolue pour les organisations intéressées par la création d'un site data fabric. - Orchestration et DataOps
Pour que les données passent en continu et en temps opportun d'un endroit à l'autre, il est nécessaire de mettre en place des processus et des planifications. C'est ce que représente la couche d'orchestration et de DataOps d'un data fabric. Dans de nombreux cas, cette fonctionnalité est intégrée à la plateforme de préparation et d'ingénierie des données, car elle est essentielle pour une préparation sans faille. Les organisations doivent pouvoir mettre en place une grande partie de leur pipeline de préparation des données sans devoir y repenser par la suite, afin de garantir que des données à jour et opportunes soient toujours fournies.
Pour bien démarrer
Il peut être intimidant d'entamer une transition vers un data fabric, mais il y a de fortes chances que vous disposiez déjà d'un bon point de départ : vos processus ELT. C'est par le biais de ces processus que vous avez historiquement traité la majorité de l'intégration de données, et que vous pouvez maintenant commencer à ajuster les processus (comme le passage à une approche ELT) et à ajouter les technologies nécessaires pour combler les lacunes dans les métadonnées, la gouvernance, ou encore la préparation des données.
L'ajout d'un nombre croissant de données à votre noyau (avec des métadonnées détaillées, bien évidemment) est l'étape suivante de l'élaboration de votre data fabric. Les modèles de métadonnées actives et de machine learning peuvent constituer un besoin plus important à satisfaire, mais prenez votre temps. Il vaut mieux commencer à petite échelle et développer lentement un data fabric plutôt que d'entreprendre trop de choses à la fois.
Une chose est sûre, ce n'est pas pour rien que le Gartner a désigné le data fabric comme l'une de ses tendances 2021 : cette technique répond à de nombreux besoins et ne fera que gagner en popularité dans les années à venir.