Comptable utilisant un tableur en ligne

Nettoyage des données imparfaites et mal organisées

Technologie   |   Paul Warburg   |   22 sept. 2020 TEMPS DE LECTURE : 6 MINUTES
TEMPS DE LECTURE : 6 MINUTES

Ce n'est pas le nettoyage de données désorganisées qui rend le métier d'analyste ou de data scientist intéressant. Et pourtant, c'est le processus de nettoyage des données qui finit souvent par utiliser la majorité du temps total consacré à l'analyse, soit en moyenne 80 %, alors que 20 % seulement sont consacrés à la visualisation et à l'analyse des données, à la création de modèles de machine learning ou à d'autres activités analytiques avancées. 

Il est facile de se dire que ce nettoyage initial n'est rien d'autre qu'un mal nécessaire avant de pouvoir se concentrer sur le véritable travail. Mais le nettoyage de données désorganisées mérite davantage d'attention. Il s'agit d'un élément essentiel du processus de préparation des données qui, s'il est bien mené, permet de générer des insights grâce aux données disponibles, afin de poser des questions plus pertinentes. C'est le fondement même de l'analyse à proprement parler. Nous avons tous entendu l'expression « garbage in, garbage out », mais il est important de garder à l'esprit son sens véritable : si vous ne nettoyez pas correctement des données désorganisées, peu importent les techniques analytiques sophistiquées que vous appliquerez ensuite, l'analyse finale sera incorrecte.

Que sont les données désorganisées ?

Il est rare qu'un analyste commence à travailler avec un nouveau jeu de données sans l'avoir nettoyé au préalable. Cela ne signifie pas toujours que ce jeu de données est désorganisé, mais qu'il ne respecte pas les normes requises pour l'analyse. Par exemple, un jeu de données désordonné peut contenir une certaine normalisation à corriger, comme California orthographié Calif. alors qu'il devrait s'agir de CA. Ou encore, des numéros de téléphone qui contiennent des traits d'union alors qu'il ne devrait pas y avoir de ponctuation. 

Au-delà de cette normalisation, il existe de nombreux autres types d'erreurs qu'il peut être nécessaire de nettoyer afin d'obtenir des données propres. Par exemple : 

  • Données manquantes
  • Données non structurées
  • Plusieurs variables dans une colonne
  • Variables stockées au mauvais endroit
  • Observations mal réparties ou laissées ensemble en dépit des règles de normalisation
  • Inversement de colonnes et de lignes
  • Espaces supplémentaires 

Chacune de ces erreurs doit être nettoyée et préparée pour que les données puissent permettre de générer des insights. 

Les jeux de données peuvent également provenir de plusieurs sources. Bien que chaque source individuelle puisse être valable, le mélange de ces données peut nécessiter un traitement pour garantir la cohérence. Par exemple, un ensemble de données peut avoir une unité de mesure différente d'un autre, ce qui nécessite de les normaliser.

Techniques de nettoyage des données

Pour comprendre les techniques de nettoyage des données, il faut d'abord comprendre les outils de nettoyage disponibles. Historiquement, les analystes se sont appuyés sur des tableurs comme Excel, ou sur des langages de programmation comme SQL, R ou Python, en fonction de la complexité des données à traiter et/ou de leur propre expertise technique. Aujourd'hui, les analystes ont également la possibilité d'utiliser une plateforme moderne de préparation des données, mais nous y reviendrons. 

Quelle que soit la technique ou l'outil de nettoyage des données qu'il utilise, l'analyste commencera par le parsing, c'est-à-dire par la segmentation des éléments importants d'un fichier de données dans un format structuré. Cela permet aux analystes de donner un sens aux données, au lieu d'avoir à déchiffrer un fouillis de valeurs, et de faire ressortir un premier ensemble de patterns.

Après le parsing, les analystes passeront à des tâches plus spécifiques de nettoyage des données. Comme nous l'avons vu plus haut, il peut s'agir de traiter un certain nombre de problèmes, et il n'existe pas d'ordre précis. Un analyste peut commencer par supprimer les espaces supplémentaires ou les données en double, ou par structurer immédiatement les données en nouvelles lignes et colonnes. 

Il est toutefois important de noter que le nettoyage des données ne doit pas être considéré comme un travail ponctuel, mais comme un processus itératif. Lorsque les analystes préparent eux-mêmes les données, ils trouvent souvent de nouvelles idées pour transformer les données désorganisées. Et même une fois qu'ils sont passés à l'analyse, ils peuvent revenir en arrière pour transformer les données différemment après avoir découvert une irrégularité ou des informations intéressantes. 

Quels sont les défis posés par les données désorganisées ?

Historiquement, lorsque les organisations se plaignent de devoir nettoyer des données désorganisées, c'est lié à l'un des trois problèmes suivants : 

  • C'est une tâche chronophage.
    Comme nous l'avons déjà mentionné, les analystes peuvent consacrer jusqu'à 80 % de l'analyse totale au traitement des données, propres ou désorganisées. Bien qu'il s'agisse d'une partie importante du processus analytique, le nettoyage n'est pas la fonction pour laquelle les analystes ont été recrutés, et ce n'est pas non plus là que réside leur véritable valeur. Et plus on passe de temps à nettoyer les données, plus cela coûte cher à l'organisation.
  • C'est une tâche technique.
    Dans le cas de projets data plus avancés, les organisations doivent embaucher des scientifiques ou des ingénieurs de données coûteux, dotés de compétences de programmation avancées, pour les voir passer la majeure partie de leur temps à nettoyer des données désorganisées. Les langages de programmation peuvent efficacement traiter des données complexes et volumineuses, mais ils restreignent la préparation des données à un petit groupe de personnes, ce qui crée un grand goulet d'étranglement.
  • C'est tâche une source d'erreurs.
    Tout est sujet à erreur s'il n'est pas possible qu'une autre personne la vérifie. C'est souvent le cas avec Excel et les langages de programmation. Comme ces outils ne sont pas de nature visuelle, il est souvent difficile (ou presque impossible) pour d'autres personnes de réviser les techniques de nettoyage des données appliquées avec ces outils ou de proposer des suggestions pour les améliorer.

Gérer des données hétéroclites grâce à une plateforme de préparation

Les entreprises cherchent à déployer l'analytique à toujours plus grande échelle, mais doivent relever toujours plus de défis avec les données mal organisées. C'est pourquoi beaucoup ont adopté une plateforme de préparation des données comme Alteryx Designer, qui accélère le processus de nettoyage et de préparation pour les analystes de tous bords.

Voici comment Designer résout les problèmes liés aux données désorganisées :    

  • Contraintes de temps.
    Dans Alteryx Designer, la préparation visuelle des données s'appuie sur l'IA et le machine learning et accélère l'ensemble du processus de jusqu'à 90 %. Les analystes n'auront plus à passer des heures à fouiller des jeux de données Excel ou à écrire du code pour nettoyer les données. Avec Designer, ils peuvent obtenir les mêmes résultats en seulement quelques clics et en glisser-déposer.
  • Contraintes techniques.
    Il n'est pas nécessaire de connaître les langages de programmation pour utiliser les techniques de nettoyage de données de Designer, mais vous profiterez de la même puissance qu'un programmeur. La modification des données à grande échelle, la compréhension des statistiques d'échantillons de données et la transformation complexe ne sont que quelques exemples de fonctions que tout type d'analyste peut exécuter grâce à Alteryx.
  • Données inexactes.
    Les jeux de données doivent être préparés de manière efficace. Designer fait automatiquement apparaître les erreurs, les valeurs aberrantes et les données manquantes à corriger, pour que les analystes ne manquent rien. De plus, les suggestions générées par machine learning permettent aux analystes de sélectionner la meilleure transformation possible pour leurs données désorganisées. 

Designer a été conçu pour rendre plus efficace et plus facile à gérer le traitement des données, afin de les rendre plus propres Désormais, lorsque les analystes font face à un jeu de données désorganisées, en sachant que les jeux le sont tous d'une manière ou d'une autre, ils peuvent facilement le transformer en données utilisables pour l'analyse. 

Pour en savoir plus sur les techniques de nettoyage des données avec Designer, inscrivez-vous dès aujourd'hui à un essai gratuit.

Balises