All Blog Posts

6 étapes pour une stratégie de données à toute épreuve

January 5, 2021

La préparation des données peut être l’une des tâches les plus chronophages et répétitives de votre semaine de travail. Si vous ne nettoyez pas, ne validez pas et ne consolidez pas vos données brutes convenablement, les données de mauvaise qualité seront omniprésentes et les informations exploitables, ou insights, que vous trouverez ne seront pas fiables.

Alors comment vous assurer que votre préparation des données permet d’écarter les données de mauvaise qualité tout en protégeant celles dont dépend votre entreprise ?

Il faut être vigilant et avoir la force d’un vrai super-héros.

Enfilez votre cape, prenez votre bouclier ou votre Batarang et assurez-vous que vos données sont à l’épreuve des balles. En effet, elles doivent être invulnérables aux erreurs de format, aux inexactitudes et aux valeurs inhabituelles) : suivez ces six étapes pour sauver la situation avec une stratégie de préparation des données invincible.

 

1. Un œil plus acéré que celui de Hawkeye

Avant de vous mettre à travailler à corps perdu dans un nouveau jeu de données, vous devriez vous aventurer dans la matière brute et l’explorer un peu. Une vue génétiquement modifiée (comme celle de Hawkeye) peut aider… mais on peut s’en passer. Commencez par créer une image mentale de ce que vous recherchez, mais gardez aussi l’esprit ouvert et laissez les données parler.

Conseils : exploration des données

  • Vérifiez les noms des colonnes et les descriptions des champs pour voir s’il n’y a pas d’anomalies ou d’informations absentes ou incomplètes.
  • Contrôlez les variables : combien de valeurs uniques contiennent-elles ? Avec quelles plages et quels modes ?
  • Repérez les points de données inhabituels susceptibles de fausser les résultats. Vous pouvez utiliser des méthodes visuelles (par exemple, des diagrammes en boîte, des histogrammes ou des nuages de points) ou des approches numériques telles que les scores z.
  • Inspectez les valeurs inhabituelles ou isolées. Devez-vous les examiner de plus près, les ajuster, les omettre ou les ignorer ?
  • Examinez les tendances et les relations pour déterminer leur importance statistique.

2. Des données plus raffinées que le réacteur Arc d’Iron Man

Les données pleines d’erreurs et d’incohérences ont un coût élevé : des études montrent que les données de mauvaise qualité peuvent représenter des millions en perte de chiffre d’affaires annuel pour une entreprise.  Comme ces erreurs peuvent coûter aussi cher qu’un noyau de palladium, il vous faudra, pour éviter de grosses pertes, nettoyer vos données jusqu’à ce qu’elles brillent d’un bel éclat autoluminescent.

Conseils : nettoyage des données

  • Supprimez tous les enregistrements en double qui encombrent votre serveur et faussent votre
    analyse.
  • Supprimez les lignes ou les colonnes non pertinentes qui n’auront pas d’incidence sur le problème que
    vous essayez de résoudre.
  • Examinez et supprimez éventuellement les informations manquantes ou incomplètes.
  • Retirez toutes les valeurs inhabituelles indésirables que vous avez découvertes lors de l’exploration des données.
  • Corrigez les erreurs structurelles : typographie, majuscules, abréviations,
    mise en forme, caractères en trop.
  • Vérifiez que votre travail est fiable, complet et cohérent, en documentant<br>
    tous les outils et techniques que vous avez utilisés.

3. Une alliance plus puissante que celle des Avengers

Plus vous ajoutez de sources de très bonne qualité à votre analyse, plus vous obtiendrez d’insights riches et complets. En général, tout projet que vous entreprenez nécessite au moins six sources de données, ce qui nécessite des outils de fusion dedonnées afin de les fusionner parfaitement. En gros, il faut constituer la meilleure équipe de données de très grande qualité.

Conseils : fusion de données

  • Acquisition et préparation. Si vous utilisez des outils de données modernes plutôt que d’essayer de rendre les fichiers compatibles avec une feuille de calcul, vous pouvez inclure
    n’importe quel type ou structure de fichier pour la problématique métier que vous essayez de résoudre, et transformer rapidement tous les jeux de données en une structure commune. Par exemple : fichiers et documents, plateformes cloud, PDF, fichiers texte, robots RPA et outils tels que ERP, CRM, ITSM, etc.
  • Fusion. Dans les feuilles de calcul ; voilà où vous exercez vos muscles VLOOKUP. (Mais vous avez des courbatures, non ?) Avec l’analytique en libre-service, il suffit de quelques glisser-déposer.
  • Validation. Il est important de vérifier la cohérence de vos résultats et d’explorer tous les enregistrements non concordants pour voir si d’autres tâches de nettoyage ou de préparation sont nécessaires.

4. Le sens des données

Le profilage des données, cousin de l’exploration des données, nécessite davantage de précaution. Il s’agit d’examiner un jeu de données spécifiquement pour sa pertinence par rapport à un projet ou une application particulière. Vous devrez faire appel à votre instinct et à votre savoir-faire pour déterminer si un jeu de données doit être utilisé ou non : une décision importante qui pourrait avoir de graves conséquences financières pour votre entreprise.

Conseils : profilage des données

  • Profilage de la structure. Quelle est la taille du jeu de données et quels types de données contient-il ? La mise en forme est-elle cohérente, correcte et compatible avec sa destination finale ?
  • Profilage du contenu. Quelles sont les informations contenues dans les données ? En manque-t-il ? Y a-t-il des erreurs ? C’est à ce stade que vous établissez des statistiques récapitulatives sur les champs numériques, que vous vérifiez la présence de valeurs null, vides et uniques, et que vous recherchez des erreurs systémiques dans l’orthographe, les abréviations ou les identifications.
  • Profilage des relations. Y a-t-il des endroits où les données se chevauchent ou sont mal alignées ? Quels sont les liens entre les unités de données ? Il peut s’agir, par exemple, de formules qui relient des cellules ou de tables qui collectent régulièrement des informations à partir de sources externes. Identifiez et décrivez toutes les relations et veillez à les conserver si vous déplacez les données.

5. Créez votre base secrète

Avec l’énorme volume et la complexité des sources de données à votre disposition, vous devrez inévitablement les extraire, les intégrer et les stocker dans un emplacement centralisé qui vous permet de les récupérer pour les analyser quand vous en avez besoin. Un peu comme une base secrète (votre Batcave ?) en fait, où vous mettriez les données qui vous sauvent la mise.

Conseil : ETL (Extract, Transform, Load)

  • Extraction. Extrayez toutes les données, structurées ou non, issues d’une ou de plusieurs sources et validez leur qualité. (Soyez extrêmement rigoureux si vous réalisez l’extraction depuis des systèmes existants ou des sources externes.)
  • Transformation. Faites un grand ménage et assurez-vous que vos remaniements sont en phase avec les exigences techniques de votre destination cible.
  • Chargement. Écrivez les données transformées à leur emplacement de stockage, généralement, un entrepôt de données. Ensuite, échantillonnez, puis cherchez les éventuels problèmes de qualité des données.

6. Une technique plus efficace que le lasso de la Vérité de Wonder Woman

Le terme « data wrangling » est souvent utilisé à la légère pour désigner la « préparation des données ». Il s’agit en fait de la préparation qui a lieu pendant le processus d’analyse et de création des modèles prédictifs. Même si vous avez bien préparé vos données en amont, une fois à l’étape de l’analyse, vous devrez probablement en passer par le Data Wrangling (ou « munging », à la force du lasso) pour vous assurer que votre modèle pourra les ingérer sans les recracher.

Conseils : Data Wrangling

  • Exploration. Si votre modèle ne fonctionne pas comme prévu, il est temps de vous replonger dans les données afin de savoir pourquoi.
  • Transformation. Vous devez structurer vos données en gardant votre modèle à l’esprit depuis le début. Si vous devez faire pivoter votre jeu de données pour obtenir les résultats espérés, vous devrez passer un peu de temps à le remanier. (Alors qu’une solution analytique automatisée y parvient en une seule étape.)
  • Nettoyage. Corrigez les erreurs et supprimez les doublons.
  • Enrichissement. Ajoutez d’autres sources, telles que des données tierces faisant autorité.
  • Stockage. Le wrangling est un travail difficile. Préservez vos processus afin qu’ils puissent être reproduits par la suite.

Et voilà ! Suivez ces six étapes, et vos données iront plus vite qu’un avion, arrêteront les balles et, pour ainsi dire, revêtiront une cape rouge géante.

Ah, si vous en avez assez des VLOOKUP et des processus manuels, pensez à essayer l’automatisation. Nous parlons de super-pouvoirs analytiques, de la possibilité d’accéder aux données quel que soit leur format et d’automatiser vos processus de préparation actuels grâce à une plateforme analytique automatisée en libre-service.

D’après notre expérience, voici ce qui caractérise l’automatisation de la préparation des données :

  • Sauvez rapidement la situation : l’adoption d’une plateforme automatisée produit presque toujours un rendement quantifiable en quelques jours ou semaines.
  • Une lutte active et incessante contre l’inefficacité : l’automatisation change tout dans votre routine. Vous passez des tâches manuelles et répétitives à un travail innovant. Et vous n’aurez jamais à résoudre deux fois le même problème de données.
  • Trouvez un allié… ou quatre : lorsque vous n’avez plus besoin de « gardiens » pour les données, vous pouvez impliquer toute l’entreprise. Les employés, à tous les niveaux de l’organigramme, commencent à trouver de nouvelles façons d’étendre leur propre champ d’action.

Ce changement est si profond qu’il en vient même à créer un univers différent, auquel nous avons donné un nom : Automatisation des processus analytiques (APA).
Apprenez-en plus sur l’APA et sur ses super-pouvoirs analytiques.

Autres ressources

À LIRE

Découvrez à quel point il est facile de passer à une approche analytique moderne dans notre guide incontournable de l’analytique des données.

À EXPÉRIMENTER

Maîtrisez rapidement tous les aspects de la fusion de données grâce au Kit de démarrage pour la fusion de données d’Alteryx.