Qu'est-ce que des données imparfaites ?

La prévision des ventes vous semble bizarre. Vous vous penchez sur les détails et voici ce que vous trouvez : comptes en double, adresses e-mail obsolètes, dates incohérentes. C'est ce qu'on appelle des données imparfaites, ou littéralement des « données sales » (de l'anglais dirty data). Ces enregistrements inexacts, incomplets, incohérents, dupliqués, obsolètes ou mal formatés entraînent une mauvaise qualité préjudiciable aux entreprises.

Définition plus globale

Les données imparfaites apparaissent lorsque les entrées, les intégrations ou les processus causent des erreurs ou des ambiguïtés. Voici les cas les plus courants :

  • Inexactitude : fautes de frappe, mauvaises classifications, erreurs d'unité
  • Incomplétude : valeurs manquantes ou champs peu remplis
  • Manque de cohérence : formats, codes ou définitions contradictoires d'un système à l'autre
  • Duplication : plusieurs enregistrements pour la même entité
  • Invalidité : valeurs qui ne respectent pas les règles ou les plages
  • Obsolescence : données qui ne sont plus correctes (par exemple, changements d'adresse)

Pour remédier à ces problèmes, les équipes utilisent le profilage, les règles de validation, la normalisation, la déduplication, l'enrichissement et la surveillance continue. Idéalement, toutes ces actions sont intégrées dans des pipelines encadrés plutôt qu'effectuées lors d'un nettoyage ponctuel.

Le rôle des données imparfaites dans le business et la data

Nous faisons ici référence à la manière dont les entreprises identifient, réduisent et gèrent l'impact des données sales sur leurs activités. Pourquoi c'est important :

  • L'impact financier est réel : selon une étude de Gartner, la mauvaise qualité des données coûte aux entreprises au moins 12,9 millions de dollars par an en moyenne, en raison du travail à refaire, de l'échec des initiatives et du risque de non-conformité.
  • Le temps est le coût caché : les praticiens indiquent que la préparation et le nettoyage des données font partie des tâches qui leur prennent le plus de temps.
  • Effets en aval : de mauvaises entrées aboutissent à de mauvais tableaux de bord, à des modèles défectueux et à de mauvaises décisions, ce qui nuit aux programmes tels que la Business Intelligence et l'analyse prédictive.

Où trouve-t-on les données imparfaites ?

Les données « sales » s'insinuent tout au long du cycle de vie :

  1. Acquisition : la saisie manuelle, la reconnaissance optimale des caractères, les capteurs et les intégrations produisent des anomalies
  2.  Transit : dérive des schémas, coercition de type, différences de paramètres régionaux/ d'encodage causant des incohérences
  3. Stockage : clés de déduplication, contraintes et contrôles de lignage manquants ou mal configurés
  4. Utilisation : les correctifs ad hoc et les exportations de feuilles de calcul multiplient les versions et génèrent des pipelines parallèles non contrôlés (« shadow pipelines »)

Le cycle de vie indique d' proviennent les problèmes. L'étape suivante consiste à les gérer. Les programmes efficaces combinent la prévention à la périphérie, la détection pendant les mouvements, la remédiation au repos et la surveillance continue en cours pendant l'utilisation. Ainsi, les problèmes peuvent être stoppés tôt, identifiés rapidement, et résolus convenablement et définitivement.

Contrôles à installer :

  • Prévention : validation des entrées, données de référence, gestion des données de base et définitions robustes
  • Détection : profilage des colonnes, vérification des règles, détection des valeurs inhabituelles et tests visant à s'assurer de l'absence de valeurs null et de la présence de valeurs uniques
  • Remédiation : normalisation, imputation, déduplication et rapprochement
  • Surveillance : SLA/SLO sur l'actualité, l'exhaustivité et la validité, avec des alertes

Exemples et cas d'usage

  • Consolidation et déduplication des enregistrements : unifier les entités de sources multiples, appliquer une correspondance approximative et définir des règles de survivance
  • Standardisation et normalisation : harmoniser les dates, les heures, les unités, les encodages et les valeurs catégorielles (par exemple, listes de codes, majuscules/minuscules, espaces vides)
  • Validation de l'ingestion : appliquer les champs obligatoires, les contrôles de type/format, les plages et l'intégrité référentielle au point d'entrée
  • Surveillance des schémas/contrats : détection des dérives, des ruptures, des coercitions de type et des incompatibilités de nullité dans les pipelines
  • Gestion des données manquantes et inhabituelles : imputer selon des règles documentées, signaler les données inhabituelles et mettre en quarantaine les enregistrements suspects
  • Alignement des données de référence : mapper avec des vocabulaires contrôlés et tenir des journaux des changements pour garantir la cohérence des codes et des étiquettes.
  • Gestion des identités et des liens : créer des clés stables, relier les enregistrements entre les systèmes et éviter les lignes orphelines ou conflictuelles
  • Rapprochement entre les systèmes : comparer les agrégats et les instantanés au niveau des lignes pour détecter les doublons, les manques ou les valeurs mal comptabilisées
  • SLA pour l'actualité et la complétude : suivre les calendriers, la couverture et l'état des pipelines avec des alertes en cas de dépassement de seuil
  • Lignage et auditabilité : capturer les étapes de transformation et les versions pour faciliter l'analyse des causes premières et un retour en arrière sûr
  • Garde-fous pour l'accès et l'exportation : encadrer les extractions et le partage afin d'éviter la création de pipelines parallèles (« shadow pipelines ») et la perte de contexte
  • Préparation à l'analytique et au ML : faire respecter les contrats pour les jeux de données/caractéristiques afin que les distributions, les plages de valeurs et la sémantique correspondent aux attentes

Exemples concrets

  • Commerce de détail : des hiérarchies de produits incohérentes faussent le reporting des marges ; des taxonomies normalisées rétablissent la comparabilité
  • Santé : une non-concordance dans les identifiants des patients risque d'entraîner des problèmes de sécurité ; la déduplication et la validation permettent de remédier à ce problème
  • Banque : les faux positifs du processus Know Your Customer (KYC) augmentent avec les adresses non valides ; l'enrichissement et les règles réduisent les contrôles
  • Fabrication : la dérive des capteurs signale des temps d'arrêt à tort ; les plages calibrées et les contrôles d'anomalie assurent une surveillance fiable

FAQ

Q : Les données imparfaites, ou sales, sont-elles la même chose que des données non structurées ?  Non. Le terme « non structurées » fait référence à leur format, alors que quand on parle de données imparfaites, cela fait référence à leur qualité. Vous pouvez avoir des données non structurées « propres » et des données structurées « sales ».

Q : les doublons sont-ils toujours « sales » ? Les doublons d'une même entité le sont généralement. Les flux d'événements peuvent légitimement contenir des motifs répétés.

Q : Quelle est la fréquence de nettoyage idéale ? Ce doit être un processus continu. Un grand « nettoyage de printemps » offre des bénéfices éphémères et entraîne plus de travail à refaire. La prévention, la détection, la remédiation et la surveillance permanentes permettent de garder les problèmes au plus près de la source (là où ils sont le moins coûteux à résoudre) et de protéger l'analytique en aval. Les données, les schémas et les fournisseurs changent tous les jours. La détection des problèmes dès la capture ou en cours de traitement évite la contamination des magasins, les jointures défaillantes et la dérive des modèles.

Les contrôles continus permettent également de mesurer la qualité (SLA pour l'actualité, l'exhaustivité et la validité des données), de sorte que les problèmes déclenchent des alertes plutôt que des surprises, et que les corrections deviennent des étapes répétables, et non des nettoyages d'urgence.

Q : Qui en est responsable, l'IT ou les métiers ? Les deux. L'IT se charge des contrôles, les responsables métier définissent les règles et les seuils de qualité acceptables en termes de gouvernance des données.

Q : L'IA peut-elle corriger automatiquement les données imparfaites ? L'IA peut contribuer à la classification, à la normalisation et à la détection des anomalies, mais vous avez toujours besoin de règles documentées, d'un lignage et d'une supervision humaine lorsque le risque est élevé.

Ressources complémentaires sur les données imparfaites

Sources et références

Gartner | « Data Quality: Why It Matters and How to Achieve It »

Anaconda | Rapport 2023 sur l'état de la data science (en anglais)

Synonymes

  • Données de mauvaise qualité
  • Données de qualité insuffisante
  • Données bruitées
  • Données impures
  • Problèmes de qualité des données

Termes liés

Dernière révision :

Septembre 2025

 

Normes éditoriales et révision d'Alteryx

Cette entrée de glossaire a été créée et révisée par l'équipe chargée des contenus Alteryx pour garantir la clarté, l'exactitude et l'adéquation des textes avec notre expertise en matière d'automatisation de l'analytique des données.