Lexique de la Data Science et de l'analytique des données

Tout
  • Un
  • B
  • C
  • D
  • E
  • F
  • G
  • H
  • I
  • J
  • K
  • L
  • M
  • N
  • O
  • P
  • Q
  • R
  • S
  • T
  • U
  • V
  • W
  • X
  • Y
  • Z

L'analytique avancée, ou advanced analytics, utilise des techniques sophistiquées pour découvrir des insights, identifier des tendances, prédire les résultats et générer des recommandations.

...  

Plus le niveau de maturité analytique de votre organisation est élevé, plus elle est capable d'utiliser les données pour booster ses résultats métier.

...  

Le machine learning automatisé, ou AutoML, rend le machine learning accessible aux non-experts en leur permettant de créer, de valider, d'itérer et d'explorer des modèles ML dans un contexte d'automatisation.

...  

Le traitement par lots fait référence à la programmation et au traitement simultanés de grands volumes de données, généralement à des périodes où les ressources informatiques sont peu sollicitées. Les traitements par lots sont généralement de nature répétitive et sont souvent programmés (automatisés) pour se produire à des intervalles déterminés, comme ...  

La Business Analytics (BA), parfois appelée « analytique métier », consiste à analyser des données à l'aide de méthodes statistiques et quantitatives afin de prendre des décisions aptes à améliorer les résultats de l'entreprise<br>

...  

La Business Intelligence (BI), c'est là où mènent collectivement les données, les logiciels, l'infrastructure, les processus métier et l'intuition humaine. Elle permet d'obtenir des informations exploitables, ou insights.

...  

L'analytique dans le cloud implique à la fois l'utilisation de données stockées dans le cloud pour les processus analytiques, et l'utilisation de la puissance de calcul du cloud pour accélérer l'analytique.

...  

Un entrepôt de données dans le cloud est une base de données gérée en tant que service et fournie par un tiers, comme Google Cloud Platform (GCP), Amazon Web Services (AWS) ou Microsoft Azure. Les architectures de données dans le cloud se distinguent des architectures de données sur site, où les organisations gèrent leur propre physique ...  

L'agrégation des données est le processus de compilation (souvent à partir de sources de données multiples) permettant de proposer des informations synthétiques pouvant être utilisées pour l'analyse statistique. Un exemple d'agrégation simple de données consiste à trouver la somme des ventes d'une catégorie de produits particulière pour chaque région que vous ...  

La data analytics, ou l'analytique de la donnée, consiste à explorer, transformer et analyser les données afin d'identifier les tendances et les schémas qui révèlent des informations exploitables pertinentes et améliorent l'efficacité, ce qui contribue à optimiser la prise de décision.<br>

...  

Les applications de données sont des applications construites au-dessus des bases de données, destinées à résoudre un problème spécifique, et utilisent une interface visuelle permettent d'effectuer plusieurs requêtes en même temps pour explorer et interagir avec ces données. Les applications de données ne nécessitent pas de connaissances en codage pour obtenir ou comprendre ...  

La fusion de données consiste à rassembler des données issues d'une multitude de sources dans un seul jeu de données pour effectuer des analyses plus approfondies et plus complexes.

...  

Un catalogue de données est une collection complète des données d'une organisation, compilé pour permettre aux utilisateurs de trouver plus facilement les données dont ils ont besoin. Tout comme un catalogue de bibliothèque aide les usagers à localiser rapidement des livres, les catalogues de données permettent de rechercher rapidement ...  

Le nettoyage des données, ou data cleansing, consiste à identifier et à corriger les erreurs dans un jeu de données brutes, ainsi qu'à supprimer les doublons et les données non pertinentes.

...  

L'enrichissement des données est le processus qui consiste à combiner des données provenant de sources internes avec des données disparates provenant d'autres systèmes internes ou des données tierces provenant de sources externes. Le processus d'enrichissement rend les données plus utiles et plus pertinentes. Un processus d'enrichissement des données bien rodé est un élément fondamental ...  

L'exploration des données est l'une des premières étapes du processus d'analyse. Elle permet de commencer à explorer et à déterminer les modèles et les tendances qui se dégagent de l'ensemble des données. Un analyste commence généralement l'exploration des données en utilisant des techniques de visualisation des données et d'autres outils pour décrire les caractéristiques ...  

La gouvernance des données est l'ensemble des politiques, des processus et des normes qui définissent comment les données peuvent être utilisées au sein d'une organisation et qui peut les gérer. La gouvernance détermine qui peut utiliser quelles données et de quelle manière. Cela permet d'avoir l'assurance que les données restent sécurisées et qu'elles respectent les q ...  

L'ingestion de données est le processus de collecte de données à partir de leur source, et leur transfert vers un environnement cible où elles peuvent être consultées, utilisées ou analysées.

...  

L'intégrité des données fait référence à l'exactitude et à la cohérence des données tout au long de leur cycle de vie, ainsi qu'au respect des contraintes d'autorisation nécessaires et d'autres mesures de sécurité. En bref, il s'agit de la fiabilité de vos données.

...  

Un lac de données avancé est une architecture de gestion qui combine les avantages des lacs et des entrepôts de données.

 

...  

Sachez d'où proviennent les données, où elles vont dans le système et assurez-vous qu'elles restent conforment et exactes.

...  

Le maillage de données est une nouvelle approche de la conception des architectures de données. Il adopte une approche décentralisée du stockage et de la gestion des données, chaque domaine d'activité restant propriétaire de ses ensembles de données plutôt que de regrouper toutes les données d'une organisation dans un lac centralisé. Les données sont ac ...  

Le nettoyage des données est un processus effectué manuellement avant l'analyse. C'est un processus chronophage qui limite souvent la maximisation de la valeur et du potentiel des données. Dans de nombreuses entreprises, 80 % du temps consacré à l'analytique est dédié au nettoyage, et l'IT nettoie manuellement ...  

L'observabilité des données fait référence à la capacité d'une organisation à surveiller, suivre et faire des recommandations sur les événements ayant lieu dans ses systèmes de données, afin de maintenir un système opérationnel et de réduire les temps d'arrêt. Son objectif est de garantir que les pipelines de données sont productifs et peuvent continuer à fonctionner ...  

L'intégration des données est le processus de préparation et de téléchargement des données des clients vers un environnement en ligne. Il permet d'intégrer les enregistrements des clients collectés par des outils hors connexion dans des systèmes en ligne, comme des systèmes de gestion de la relation client (CRM). L'intégration des données nécessite un nettoyage important afin de corriger les erreurs et de ...  

Un pipeline de données est une séquence d'étapes permettant de collecter, traiter et déplacer les données entre les sources à des fins de stockage, d'analyse, d'opérations de machine learning ou d'autres utilisations. Par exemple, les pipelines de données sont souvent utilisés pour envoyer des données depuis des applications vers des dispositifs de stockage tels que des entrepôts de données ou des lacs de données. Les pipelines de données sont ...  

La préparation des données, parfois appelée « pré-traitement », consiste à nettoyer et à consolider les données brutes avant de les utiliser pour des opérations d'analyse ou de machine learning.

...  

Le profilage des données permet de découvrir, de comprendre et d'organiser les données en identifiant leurs caractéristiques et en évaluant leur qualité.

...  

La Data Science est une forme de statistique appliquée qui intègre des éléments de sciences informatiques et de mathématiques pour tirer des enseignements utiles, aussi appelés insights, aussi bien à partir de données quantitatives que de données qualitatives.

...  

Data Science et machine learning sont des mots à la mode dans le monde de la technologie. Tous deux améliorent les opérations d'IA dans tous les métiers et secteurs d'activité. Mais lequel est le meilleur ?

...  

Une source de données est l'emplacement numérique ou physique de provenance ou de stockage des données, ce qui influe sur la manière dont elles sont stockées en fonction de leur emplacement (par ex. table de données ou objet de données) et ses propriétés de connectivité.

...  

La normalisation des données fait abstraction de toute la sémantique complexe des méthodes de capture, de standardisation et d'assemblage des données pour fournir aux métiers une analytique plus rapide et plus précise.

...  

La transformation des données est le processus qui consiste à convertir les données dans un format différent plus utile pour une organisation. Il est utilisé pour normaliser les données entre les ensembles de données ou pour rendre les données plus utiles pour l'analyse et le machine learning. Les transformations de données les plus courantes consistent à convertir des données brutes en ...  

La validation des données est le processus qui consiste à vérifier que les données sont exactes et propres. La validation des données est essentielle à chaque étape de la vie d'un projet de données, du développement de l'application au transfert de fichiers en passant par le traitement des données, afin d'en garantir l'exactitude. Sans validation des données de bout en bout ...  

La visualisation des données consiste à représenter visuellement les données à l'aide de graphiques, de diagrammes, de tracés ou d'infographies.

...  

Le data wrangling consiste à transformer, nettoyer et enrichir les données afin de les rendre applicables, exploitables et utiles pour éclairer la prise de décision.

...  

L'intelligence décisionnelle est le processus d'application de l'analytique, de l'IA et de l'automatisation aux décisions qui Impact 

La prévision de la demande consiste à estimer la demande future de produits et de services afin de faciliter la prise de décision. Les prévisions s'appuient sur des données granulaires, des données de ventes historiques, des questionnaires, etc.

...  

L'analyse descriptive répond à la question « Que s'est-il passé ? ». en tirant des conclusions à partir de vastes ensembles de données brutes. Les résultats sont ensuite visualisés sous forme de descriptions générées, de graphiques linéaires, de tableaux, de diagrammes circulaires et de graphiques à barres faciles à comprendre.

...  
ETL

L'ETL est le processus utilisé pour copier, combiner et convertir des données de sources et de formats différents, puis les envoyer à un nouvel emplacement tel qu'un entrepôt de données ou un lac de données.

...  

Un développeur ETL est un spécialiste IT qui conçoit, développe, automatise et gère des applications complexes pour extraire, transformer et charger des données. Le développeur ETL joue un rôle important dans la détermination des besoins en stockage de données de son organisation.

...  

Grâce à la feature engineering, les entreprises peuvent donner du sens à leurs données et les transformer en quelque chose de bénéfique.

...  

Le machine learning est le processus itératif qu'un ordinateur utilise pour identifier des tendances (patterns) dans un ensemble de données en fonction de contraintes spécifiques.

...  

Les modèles de machine learning fournissent de précieux insights, autrement dit des informations exploitables, à condition toutefois qu'ils aient accès aux données de l'entreprise et qu'ils puissent les analyser en permanence. MLOps est le processus critique qui rend cela possible.

...  

L'analyse prédictive est un type d'analyse de données qui utilise les statistiques, la data science, le machine learning et d'autres techniques pour prédire des événements futurs.

...  

L'analyse prescriptive, ou analytique prescriptive, répond à la question « que faut-il/peut-on faire ? » en utilisant le machine learning, l'analyse de graphes, la simulation, l'heuristique et d'autres méthodes.

...  

Une expression régulière est une séquence de caractères utilisée pour spécifier un modèle de recherche. Elle permet aux utilisateurs d'effectuer facilement des recherches correspondant à des critères très spécifiques, afin de gagner du temps si vous travaillez régulièrement avec du texte ou analysez d'importants volumes de données. Un exemple de re ...  

L'analytique des ventes consiste à tirer des enseignements des données et à les utiliser pour définir des objectifs, des mesures et une stratégie à grande échelle.

...  

Le mappage source-cible est un ensemble d'instructions de transformation des données qui déterminent comment convertir la structure et le contenu des données dans le système source à la structure et au contenu nécessaires dans le système cible.

...  

L'analyse spatiale modélise les problématiques selon une approche géographique, ce qui permet d'analyser les emplacements, les relations, les attributs et les proximités dans les données géospatiales pour trouver des réponses et développer des insights.

...  

Pour l'apprentissage supervisé et non supervisé, ces deux méthodes présentent une différence majeure, puisque la première utilise des jeux de données étiquetés et la seconde des jeux de données non étiquetés.

...  

SLes systèmess d'intelligence aident les organisations à tirer parti de leur stack technologique  

Une fonction définie par l'utilisateur (UDF) est une fonction de programmation personnalisée qui permet aux utilisateurs de réutiliser des processus sans avoir à réécrire le code. Par exemple, un calcul complexe peut être programmé à l'aide de SQL et stocké en tant qu'UDF. Lorsque ce calcul doit être réutilisé dans un autre ensemble de données, ...