Terme

Feature engineering

Pour de nombreuses entreprises, les données constituent un tsunami d'informations. Il s'agit d'un ensemble désordonné duquel il est impossible de tirer un quelconque avantage. Grâce à l'ingénierie des caractéristiques, autrement dit la feature engineering, les entreprises peuvent donner du sens à leurs données et les transformer en avantage.

Le terme « feature engineering », ou ingénierie des caractéristiques, fait référence au processus qui consiste à appliquer des connaissances du domaine aux données en générant des caractéristiques qui transforment les données pour les rendre plus faciles à comprendre et interpréter. Cela se produit généralement après le processus de collecte et de nettoyage des données, et avant l'entraînement des modèles de machine learning.

La feature engineering fait souvent partie du workflow ML de résolution des problématiques :

Collecter des données
Les nettoyer
Effectuer l'ingénierie des caractéristiques
Définir le modèle
Entraîner le modèle
Exécuter des tests
Prédire les résultats (sortie)

La plupart des informations utilisées par l'intelligence artificielle (IA) sont contenues dans des tables. Chaque ligne est une observation, chaque colonne une caractéristique. Malheureusement, les données sont souvent compliquées, hors sujet, absentes ou en double.

L'ingénierie des caractéristiques fournit un processus pour transformer des données dans un format qui représente mieux le problème sous-jacent. Le but est de rendre les données plus faciles à assimiler en les plaçant dans des catégories afin de mieux refléter un ensemble limité de résultats ou en remplaçant systématiquement les valeurs manquantes par des estimations appropriées.

Ce processus de transformation des données avec l'ingénierie des caractéristiques est autant un art qu'une science. Prenons l'exemple d'une entreprise qui souhaite prédire des cas de fraude. Les transactions brutes horodatées peuvent être entrées dans le logiciel d'IA, mais le résultat peut ne pas être significatif ou exploitable. Cependant, un peu d'expertise dans le domaine aide les data scientists. Le data scientist, qui utilise ses connaissances de la vente au détail, crée une nouvelle caractéristique qui fait la différence entre la semaine de travail et le week-end, car il y a toujours des pics d'activité de vente au détail le week-end. Une fois ce contexte établi manuellement, les modèles sont mieux à même de détecter les anomalies, avec moins de faux positifs. Voilà où réside « l'art » de l'ingénierie des caractéristiques.

Bien exécutée, la feature engineering amplifie la puissance prédictive des algorithmes de machine learning (ML). Pour ce faire, elle fabrique des caractéristiques à partir des données brutes qui alimentent et facilitent le processus ML. C'est ce qui peut différencier un bon modèle de données d'un mauvais.

Plus précisément, la feature engineering comporte les étapes suivantes :

Réfléchir à de nouvelles caractéristiques possibles pour le modèle
Créer les caractéristiques
Tester l'efficacité de ces caractéristiques avec le modèle
Ajuster les caractéristiques, répéter ou revenir en arrière si besoin
Faire en sorte que les caractéristiques fonctionnent bien avec le modèle

L'ingénierie des caractéristiques ne doit pas être considérée comme une étape ponctuelle. Elle peut être utilisée tout au long du processus de Data Science, que ce soit pour nettoyer les données ou améliorer les résultats existants. Il s'agit d'un processus itératif qui s'intercale entre la sélection des données, l'évaluation du modèle et la réévaluation. Elle se poursuit jusqu'à ce que les données soient dans un format que peuvent assimiler les modèles de ML et qui permet à ces modèles de produire des résultats exploitables.

Exemples de feature engineering pour le machine learning

Les algorithmes de ML apprennent des solutions à des problèmes spécifiques en utilisant les données de l'échantillon qui leur est présenté. L'ingénierie des caractéristiques aide une entreprise à obtenir la meilleure représentation de ses données d'entraînement pour donner au modèle la possibilité d'apprendre la solution pour tout problème spécifique.

Dans la feature engineering, la représentation et les relations sont importantes, et il existe quatre stratégies d'ingénierie courantes :

- Rééchantillonnage de données déséquilibrées
- Création de nouvelles caractéristiques
- Gestion des valeurs manquantes
- Détection des valeurs aberrantes

Rééchantillonnage des données déséquilibrées

À l'état brut, les données sont généralement déséquilibrées. La plupart du temps, cela peut être facilement résolu à l'aide de techniques de validation. Mais parfois, le déséquilibre peut être important, ce qui affecte les résultats. L'ingénierie des caractéristiques peut résoudre ce problème en générant artificiellement des échantillons pour les groupes minoritaires. Ces échantillons peuvent être utilisés pour pallier la variabilité ou l'incertitude existant dans les données.

Création de nouvelles caractéristiques

La création de nouvelles caractéristiques peut consister simplement à réitérer des données dans un autre format pour les adapter au contexte de la question. Par exemple, une entreprise peut transformer en temps de trajet total des heures de départ et d'arrivée des trains. Combiner des horaires dans une nouvelle caractéristique unique permet à l'algorithme de s'adapter aux besoins et de produire des résultats plus exploitables.

Les utilisateurs peuvent également combiner deux caractéristiques modérément utiles ou deux caractéristiques qui n'ont pas d'utilité individuellement pour créer une caractéristique qui aide la machine à mieux apprendre. Par exemple, dans le secteur de la santé, il existe différents facteurs de risque, mais qui à eux seuls n'indiquent pas la probabilité d'un problème médical. Par exemple, l'âge, l'hypertension et le tabagisme pris séparément ne peuvent pas déclencher un AVC, mais ces trois facteurs combinés représentent un risque.

La sélection des caractéristiques consiste simplement à choisir les caractéristiques indépendantes qui correspondent le mieux à la caractéristique dépendante. Tous ces éléments se combinent pour créer le meilleur modèle prédictif possible. Les cartes thermiques, la sélection univariée et la méthode ExtraTreesClassifier sont toutes des méthodes éprouvées pour identifier les caractéristiques qui s'associent bien.

L'ingénierie des caractéristiques permet également de choisir les compartiments à créer afin que la machine puisse mapper convenablement les données pertinentes dans le bon compartiment. Cela inclut la suppression et l'élimination des caractéristiques et des éléments indésirables, ce qui contribue à un meilleur fonctionnement du modèle.

Gestion des valeurs manquantes

Les valeurs manquantes sont fréquentes, mais il existe de nombreuses méthodes pour résoudre ce problème efficacement pendant le processus de nettoyage des données.

Il existe également plusieurs techniques d'ingénierie avancée pouvant utiliser les données existantes pour recréer précisément les valeurs manquantes et compléter le jeu de données en veillant à ce que les données soient dans un format plus exploitable pour les modèles.

L'une des méthodes consiste à supprimer des données. Grâce à elle, les ingénieurs peuvent supprimer les échantillons contenant des valeurs manquantes. Cela fonctionne mieux lorsque seuls quelques échantillons sont incomplets. Plus un jeu de données contient de valeurs manquantes, plus cette méthode devient problématique.

Une autre technique consiste à remplacer les données manquantes par une variable de la moyenne ou de la médiane. Bien que cette approche résolve le problème des données manquantes, elle peut fausser les résultats. Si les données ont une distribution gaussienne, les résultats manquants peuvent être imputés (un modèle dans un modèle) de sorte qu'ils correspondent à la distribution normale.

Il s'agit des deux principales méthodes. Bien qu'il existe d'autres méthodes permettant de gérer les valeurs manquantes, l'approche générale consiste à supprimer des données ou à fournir des valeurs estimées.

Détection des valeurs inhabituelles

La détection des valeurs inhabituelles est un autre processus qui franchit la barrière entre le nettoyage et l'ingénierie. Lors de l'étape de nettoyage des données, l'IA peut simplement supprimer les valeurs inhabituelles, suggérant qu'il s'agit d'erreurs, ou d'un échantillon non pertinent pour les données. Cependant, c'est un outil peu efficace qui peut passer à côté d'informations essentielles.

Dans la Data Science, les principaux facteurs qui influencent les performances d'un modèle sont le maniement et le traitement des données. Un modèle sans une gestion appropriée des données aboutit à une précision d'environ 70 %. Avec l'ingénierie des caractéristiques, les performances de ce modèle peuvent considérablement s'améliorer.

Cependant, une bonne compréhension des données reste nécessaire pour l'ingénierie des caractéristiques, car elle permet aux data scientists de définir des seuils où les données restent logiques. Par exemple, une entreprise peut avoir un client âgé de 100 ans, mais certainement pas de 1 000 ans. Une machine peut ignorer les deux points de données, alors qu'un data scientist sait que le zéro supplémentaire est probablement une erreur.

Cette partie du processus d'ingénierie des caractéristiques peut être longue et frustrante, et s'appuyer sur les compétences et l'expertise d'un data scientist. C'est pourquoi certains considèrent l'ingénierie des caractéristiques en ML comme une forme d'art.

Avantages de la feature engineering

Comme le dit l'adage, la qualité des modèles d'IA et de ML dépend de celle des données qu'ils reçoivent. L'intégration de l'ingénierie des caractéristiques dans le processus de modélisation peut garantir que la qualité et la pertinence que les modèles reçoivent les aident à résoudre des problèmes concrets. Voici deux aspects importants à retenir :

Bien définir la problématique : utiliser les bonnes mesures objectives pour estimer la précision du résultat.
Interdépendances dans le modèle : structures sous-jacentes inhérentes aux données de l'entreprise. Une bonne structure fournit toujours de bien meilleurs résultats.

Une fois ces éléments pris en compte lors de la sélection ou de la conception des caractéristiques, les avantages de l'ingénierie des caractéristiques sont :

Plus de flexibilité et moins de complexité dans les modèles
Traitement plus rapide
Modèles clairs et faciles à comprendre
Modèles plus simples et plus faciles à gérer
Meilleure compréhension du problème sous-jacent
Meilleure représentation de toutes les données disponibles, utiles pour caractériser le problème sous-jacent

Défis de la feature engineering

Les données sont souvent non structurées et mal organisées, avec des valeurs inhabituelles, en double et manquantes. Étant donné que les données proviennent de sources multiples, les valeurs redondantes et dupliquées sont inévitables. Les données étant le point de départ du ML, l'ingénierie des caractéristiques doit relever les défis suivants :

D'énormes quantités de données provenant de sources multiples qui doivent être nettoyées, agrégées et analysées
Les données doivent être organisées dans une structure reconnaissable que les modèles et outils peuvent exploiter
Le contexte métier et les processus doivent être compris pour discerner les schémas et faciliter l'analyse
Les insights fournis doivent être pertinents et exploitables pour l'entreprise
Les données doivent être présentées d'une manière facile à comprendre, par exemple dans des tableaux de bord ou des graphiques
Les délais peuvent être un problème quand les résultats prennent tellement de temps qu'ils ne sont plus applicables
Les processus demandent beaucoup de travail et doivent souvent être exécutés par un Data Scientist

L'avenir de la feature engineering

Les technologies modernes améliorent les performances de l'ingénierie des caractéristiques. En tant que sous-ensemble du ML, le deep learning est en passe de redéfinir le processus. Les auto-encodeurs et les machines de Boltzmann restreintes sont prometteurs, car ils apprennent automatiquement la représentation abstraite des caractéristiques.

Plus les ordinateurs « pensent » comme des êtres humains, plus leur ingénierie des caractéristiques devient utile. Le fait de confier à des machines des tâches très manuelles faites par les Data Scientist permet de réduire les contraintes de temps et de coût. Cela signifie que les types de données, telles que les images, les vidéos, les objets et la parole, qui ne sont pas facilement compris par l'IA traditionnelle qui s'appuie sur des tables, pourront prochainement être interprétés correctement par les machines.

Les nouveaux modèles de ML offrent de plus en plus des processus ayant des capacités de raisonnement humain, une meilleure analyse des caractéristiques et une plus grande précision des modèles.

Mais pour l'instant, la balle est toujours dans le camp des Data Scientists. Les meilleures interprétations des données nécessitent non seulement une bonne connaissance de la Data Science, mais aussi une connaissance du secteur ou du domaine, ce qui fait de ce sous-ensemble d'IA un domaine spécialisé. L'interprétation des données est essentielle pour les entreprises qui veulent des prévisions précises, et c'est le meilleur moyen d'obtenir des résultats valides.

Votre entreprise a-t-elle besoin de meilleures prévisions ?

Le module de machine learning d'Alteryx comprend la méthode Deep Feature Synthesis. Elle permet de créer des modèles plus précis en comprenant les relations dans vos données et en détectant des caractéristiques de grande qualité.

Ces algorithmes aident les entreprises qui ont besoin de modèles et de prévisions justes, car ils permettent d'améliorer les explications, la prise de décision et les projets.

Terme suivant

AutoML

Témoignage client

Plus de 75 heures par jour économisées grâce à l'automatisation des prévisions

La société de services financiers Brookson a offert à ses clients de meilleures expériences digitales en renforçant et en développant son équipe interne.

Préparation et analytique des données
Data Science et machine learning
Automatisation des processus

Lire maintenant

Témoignage client

AAA National optimise son service grâce à Alteryx

Découvrez comment AAA a pu créer des cartes de temps de trajet dans des rapports qui aident les clubs membres à mieux comprendre leur base d'adhérents.

Préparation et analytique des données
Data Science et machine learning
Responsable Analytique

Lire maintenant

POURQUOI TRAVAILLER AVEC NOUS ?

Programme Partenaire

Notre Trust Center

IA GÉNÉRATIVE

Alteryx AiDIN

VUE D'ENSEMBLE

FONCTIONNALITÉS DE LA PLATEFORME

Alteryx Analytics Cloud

Produits sur site

DÉPARTEMENT

SECTEUR

POSTE

VISITE GUIDÉE DE LA PLATEFORME

Découvrez Alteryx AI Platform for Enterprise Analytics

RESSOURCES

APPRENDRE

ÉVÉNEMENTS

Réaliser l'évaluation

Data Scorecard

L'ENTREPRISE

LA VIE CHEZ ALTERYX

ACTUALITÉS

ESSAI GRATUIT

Transformez vos capacités analytiques

Feature engineering

Exemples de feature engineering pour le machine learning

Avantages de la feature engineering

Défis de la feature engineering

L'avenir de la feature engineering

Votre entreprise a-t-elle besoin de meilleures prévisions ?

Terme suivant

Transformez vos capacités analytiques

À propos d'Alteryx

Ressources

Assistance

Communauté

Tendances du moment

Populaire

Entreprise

Feature engineering

Exemples de feature engineering pour le machine learning

Avantages de la feature engineering

Défis de la feature engineering

L'avenir de la feature engineering

Votre entreprise a-t-elle besoin de meilleures prévisions ?

Terme suivant

Ressources connexes

Témoignage client

Plus de 75 heures par jour économisées grâce à l'automatisation des prévisions

Témoignage client

AAA National optimise son service grâce à Alteryx

Inspire 2024 n'est plus qu'à quelques semaines !

Du 13 au 16 mai | L'événement analytique de l'année