Qu'est-ce que la normalisation des données ?

Avec la normalisation des données, les algorithmes logiciels qui exécutent les transformations de données sont séparés des systèmes qui hébergent les données. Ces algorithmes ne sont pas conservés dans le code. Leur logique est maintenue dans des règles lisibles par l'utilisateur que les non-développeurs peuvent gérer seuls à l'aide d'interfaces visuelles et sans solliciter l'IT. La normalisation des données fait abstraction de toute la sémantique complexe des méthodes de capture, de standardisation et d'assemblage des données. Elle donne aux agrégateurs l'agilité nécessaire pour intégrer rapidement de nouveaux partenaires, améliorer les règles qui fusionnent de façon logique les données du nouveau fournisseur aux données existantes et fournir une analytique plus rapide et plus précise.

Pourquoi la normalisation des données est-elle importante ?

Le mappage des données est appelé à durer, car le monde est encore loin d'adopter une méthode unifiée pour définir chaque élément de données métier. Mais la bonne nouvelle, c'est que ce ne doit pas être une corvée. Une stratégie moderne pour gérer le mappage des données consiste à virtualiser tout le processus.

Souvent, les entreprises codent en dur leur logique de normalisation dans le code résidant dans les systèmes qui hébergent et déplacent les données. Cela obligeait les entreprises à consacrer beaucoup de temps à la création, à la maintenance et au débogage d'un code de normalisation dispersé à plusieurs endroits, avec une capacité limitée à assurer sa qualité et sa réutilisation. Avec une logique de normalisation complexe, les entreprises avaient du mal à intégrer rapidement de nouveaux partenaires. Elles ont ainsi manqué des étapes importantes du processus d'intégration et de nouvelles opportunités de revenus.

Une approche unique de la transformation des données consiste à utiliser la virtualisation pour séparer et omettre le code de normalisation. Cela permet aux utilisateurs métier de définir des règles de standardisation en utilisant une interface visuelle qui convertit la logique en code au moment de la requête. Grâce à ce type de virtualisation, les entreprises gagnent en agilité et intègrent leurs nouveaux partenaires plus rapidement.

Le processus de normalisation des données

Lorsqu'un nouveau fournisseur de données est intégré, la plateforme d'automatisation analytique utilise son analyseur de données exclusif pour comprendre les données source, peu importe leur format ou le système où elles se trouvent. La plateforme crée une couche de données universelle et virtuelle qui est automatiquement enrichie de pointeurs vers les nouveaux éléments de données brutes et inclut toute la logique de transformation nécessaire.

Ces colonnes de données virtuelles et leurs transformations permettent à la plateforme d'interroger les données brutes à tout moment, ce qui élimine les déplacements et les copies de données et garantit que les résultats de la requête reflètent les dernières modifications apportées aux données brutes. Lorsque des modifications de schéma sont détectées, la plateforme effectue les ajustements nécessaires dans la couche de données pour pointer correctement vers les éléments de données brutes.

Avec l'ajout de colonnes de données virtuelles, les utilisateurs métier définissent des règles virtuelles pour standardiser et fusionner les données. Les règles sont virtuelles puisqu'elles ne sont pas conservées dans le code. Elles restent dans un format lisible que les métiers peuvent gérer. C'est seulement au moment de la requête qu'Alteryx crée automatiquement le code nécessaire qui s'exécute pour créer les tables et les vues.

Il existe trois types de règles que les utilisateurs métier gèrent pour la transformation des données :

Règles de taxonomie : ces règles mettent en correspondance les colonnes et les valeurs des données du partenaire avec celles de l'agrégateur. Par exemple, un partenaire peut choisir de représenter ses transactions avec deux colonnes : un montant à régler et un type de règlement, où le type peut être une option parmi trois possibilités.

Règles de réorganisation : ces règles indiquent comment rassembler les éléments de données du côté du partenaire pour les distribuer du côté de l'agrégateur. Par exemple, un commerce de détail fournit toutes les données de transaction dans un seul fichier, mais l'agrégateur doit les répartir dans trois tables : une pour les transactions, une autre pour les données du commerce et une dernière pour la clientèle.

Règles sémantiques : ces règles définissent la signification des éléments de données et expliquent comment les entreprises les utilisent. Par exemple, qu'est-ce qui constitue une transaction réussie ? Comment le montant final réglé doit-il être calculé après avoir pris en compte les remboursements ? Chaque fournisseur de données a sa propre sémantique, qui est pertinente dans le contexte de ses activités, mais que l'agrégateur de données doit concilier avec les définitions de tous les autres fournisseurs.

Vous pouvez définir ces règles de manière déclarative à l'aide d'un outil visuel disposant d'un ensemble complet de fonctions de transformation qui facilitent la standardisation. Les utilisateurs peuvent, par exemple, mapper des colonnes et convertir des valeurs en jeu standard, ou compiler des données de plusieurs fichiers, notamment XML, CSV, JSON, EDI, etc.

Les problèmes courants tels des colonnes dans un ordre différent, des colonnes renommées, ou encore des changements aux valeurs ou aux types de colonnes sont traités automatiquement. Les utilisateurs peuvent également utiliser une console SQL pour décrire une logique plus complexe. En outre, les utilisateurs peuvent créer des validations de données et des rapports pour vérifier que toutes les standardisations se sont bien déroulées. Dès qu'un nouveau fichier ou qu'un nouvel enregistrement est ajouté ou modifié, un analyseur de données le détecte, applique les règles de normalisation appropriées (en générant le code SQL approprié de manière dynamique, puis en l'exécutant) et exporte les données dans un format standard.

L'avenir de la normalisation des données

La normalisation des données métier provenant de partenaires multiples est une tâche cruciale et courante dont l'importance et la fréquence ne pourront que croître. En effet, les évolutions économiques offrent l'opportunité de collaborer avec davantage d'entités, et ces fournisseurs de données continuent de former leurs jeux de données en fonction de leur propre logique métier. Compte tenu de l'impact de la normalisation des données sur l'agilité et les performances des équipes, les entreprises qui regroupent des données de sources multiples doivent examiner attentivement l'infrastructure et les workflows qu'elles mettent en place, ainsi que leur capacité à intégrer de nouveaux partenaires.

Pour bien commencer avec la normalisation des données

Les entreprises sont souvent confrontées à un défi similaire : elles doivent trouver comment absorber des jeux de données de différents formats propres à la logique métier de leur fournisseur, et comment standardiser ces jeux de données pour qu'ils puissent être comparés, agrégés et analysés de manière cohérente.

La plateforme Alteryx Analytics Automation permet de préparer des données de diverses sources disparates sans avoir à recourir à l'ingénierie pour créer des processus ETL et des pipelines de données. Les clients peuvent tirer pleinement profit de leurs données en donnant aux utilisateurs métier les moyens de travailler avec des jeux de données difficiles à comprendre, à concilier et à fusionner. Ils sont ainsi en mesure de capturer et de valider instantanément la logique métier pour divers cas d'usage.

Terme suivant
Feature engineering