Apprentissage supervisé ou non supervisé, quelle est la meilleure solution ?

Les modèles d'apprentissage supervisé et non supervisé offrent deux approches distinctes pour aider les entreprises à mieux interagir avec leur clientèle.

La technologie intelligente est partout, imprégnant presque tous les aspects de la vie quotidienne. Les consommateurs se sont habitués à obtenir toujours plus d'informations et d'automatisation, plus rapidement et d'un simple clic. Pour suivre le rythme, les entreprises doivent continuer à s'adapter et à mettre en œuvre les technologies les plus récentes, sous peine de prendre du retard.

Les progrès de l'intelligence artificielle (IA) dans le milieu des affaires n'ont fait que renforcer cette nécessité. Les systèmes de sécurité peuvent transformer les scans d'empreintes digitales et de visages en données biométriques permettant de déverrouiller des portes et des smartphones. Les systèmes bancaires sont capables de détecter les comportements d'achat inhabituels et d'envoyer automatiquement un message invitant le client à vérifier les transactions. Les assistants vocaux des smartphones utilisent le traitement du langage naturel pour analyser l'audio et répondre à une grande diversité de demandes. Toutes ces technologies remarquables évoluent sans cesse grâce à l'utilisation d'algorithmes de machine learning (ML).

Le machine learning est un sous-ensemble de l'IA. Il s'agit plus précisément d'une application de l'intelligence artificielle qui permet aux systèmes d'apprendre et de s'améliorer grâce aux données. Tout comme les humains apprennent de leurs expériences, le ML améliore progressivement ses prévisions et sa précision au fil des itérations. Pour les modèles de ML, les données d'entraînement proviennent d'appareils IoT ou sont collectées depuis des transactions ou sur les réseaux sociaux. Les algorithmes de Data Science aident à trier, classer et regrouper les informations en fonction de divers paramètres pour ces machines. Une fois les données traitées et combinées, le ML peut créer des modèles qui prédisent avec précision certains schémas de comportement humain et déclenchent des réponses adaptées.

Par exemple, lorsqu'un client cherche son prochain téléphone mobile et qu'il a affiné ses choix sur un site, celui-ci lui propose des comparatifs avec d'autres téléphones ou des accessoires. Ce modèle de réponse est généré à partir de données issues d'achats similaires précédents, pour permettre à la machine de créer un modèle qui aidera les nouveaux clients à faire des choix équivalents et éclairés.

Le ML s'appuie sur trois types d'algorithmes : apprentissage supervisé, non supervisé et par renforcement. Dans le cas de l'apprentissage par renforcement, les machines sont entraînées pour créer une séquence de décisions. Pour l'apprentissage supervisé et non supervisé, ces deux méthodes présentent une différence majeure, puisque la première utilise des jeux de données étiquetés et la seconde des jeux de données non étiquetés. Lorsque les données sont « étiquetées », cela signifie qu'elles sont déjà associées à la bonne réponse.

Apprentissage supervisé

L'approche de l'apprentissage supervisé en ML consiste à utiliser des jeux de données étiquetés qui entraînent des algorithmes à classer les données ou prédire des résultats avec précision. Le modèle exploite les données étiquetées pour mesurer la pertinence des différentes caractéristiques afin d'affiner progressivement l'ajustement du modèle en fonction du résultat connu. Il existe deux grandes catégories d'apprentissage supervisé :

  • Classification : un problème de classification utilise des algorithmes pour classer les données dans des segments spécifiques. Dans la vie quotidienne, il s'agit par exemple des algorithmes qui servent à rejeter les spams arrivant dans une boîte de réception principale ou qui permettent à un utilisateur de bloquer ou de restreindre une personne sur les réseaux sociaux. Voici quelques algorithmes de classification courants : la régression logistique, la méthode des k plus proches voisins, les forêts aléatoires, la classification naïve bayésienne, l'algorithme du gradient stochastique et l'arbre de décision.
  • Régression : il s'agit d'une méthode statistique et de ML qui s'appuie sur des algorithmes pour mesurer la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Avec les modèles de régression, l'utilisateur peut établir des prédictions de cause à effet basées sur différents points de données. Dans une entreprise, il pourrait par exemple s'agir de prévoir la trajectoire de croissance des recettes publicitaires. La régression ridge, le lasso, la régression de réseau neural et la régression logistique sont des algorithmes de régression courants.

Apprentissage non supervisé

Dans le cas de l'apprentissage non supervisé, des algorithmes de ML sont utilisés pour examiner et regrouper des jeux de données non étiquetés. Ces algorithmes peuvent révéler des schémas inconnus dans les données sans aucune supervision humaine. Il existe trois principales catégories d'algorithmes :

  • Clustering : les données non étiquetées sont regroupées à l'aide de techniques de regroupement en fonction de leurs similitudes ou de leurs différences. Par exemple, si une équipe travaille sur la segmentation du marché, l'algorithme de clustering k-moyennes attribuera des points de données similaires aux groupes qui représentent un ensemble de paramètres. Le regroupement peut se faire en fonction de l'emplacement, des niveaux de revenus, de l'âge des acheteurs ou de n'importe quelle autre variable.
  • Association : la méthode d'association de l'apprentissage non supervisé est intéressante pour trouver des relations entre les variables d'un jeu de données. C'est la technique utilisée pour créer le message de type « les autres clients ont également consulté ». Elle est particulièrement adaptée aux moteurs de recommandation. Si 15 clients ayant acheté un nouveau téléphone ont également commandé un casque, les algorithmes recommandent un casque à tous les clients qui mettent un téléphone dans leur panier.
  • Réduction de la dimensionnalité : il arrive qu'un jeu de données comporte un nombre de caractéristiques exceptionnellement élevé. La réduction de la dimensionnalité permet de réduire ce nombre sans compromettre l'intégrité des données. Il s'agit d'une technique couramment utilisée avant le traitement des données. Cela sert par exemple à supprimer le bruit d'une image pour améliorer sa qualité.

Différences entre l'apprentissage supervisé et non supervisé

Une fois que l'on connaît les principes de l'apprentissage supervisé et de l'apprentissage non supervisé, il est facile de comprendre ce qui les distingue.

La distinction entre les jeux de données étiquetés et non étiquetés est la principale différence entre les deux approches. L'apprentissage supervisé utilise des jeux de données étiquetés pour entraîner les algorithmes de classification ou de prédiction. Ils sont alimentés avec les données d'entraînement étiquetées, et le modèle ajuste de manière itérative la manière dont il évalue les différentes caractéristiques des données jusqu'à ce que le modèle soit adapté au résultat souhaité. Les modèles d'apprentissage supervisé sont beaucoup plus précis. Cependant, ils nécessitent une intervention humaine dans la procédure de traitement des données pour garantir que les informations sont correctement étiquetées.

Un modèle d'apprentissage supervisé peut, par exemple, prédire les horaires de vol en fonction des heures de pointe d'un aéroport, de la densité du trafic aérien et des conditions météorologiques (en plus d'autres paramètres possibles). Il faut toutefois une intervention humaine pour étiqueter les jeux de données afin d'entraîner le modèle sur la façon dont ces facteurs peuvent affecter les horaires de vol. La connaissance du résultat est indispensable pour que le modèle supervisé puisse conclure que la neige est un facteur entraînant des retards.

En revanche, les modèles d'apprentissage non supervisé fonctionnent sans intervention humaine. Ils identifient et créent une structure de tri en utilisant des données non étiquetées. La seule aide humaine nécessaire concerne la validation des variables de sortie. Par exemple, lorsque quelqu'un achète un nouvel ordinateur portable en ligne, un modèle d'apprentissage non supervisé détermine qu'il appartient à un groupe d'acheteurs ayant commandé ensemble différents produits associés. Cependant, c'est le rôle de l'analyste de données de confirmer que le moteur de recommandation doit proposer des sacoches d'ordinateur portable, des protections d'écran et un chargeur de voiture.

Résultats et insights

Les objectifs de l'apprentissage supervisé et non supervisé sont différents. Tandis que la première approche vise à prédire les résultats découlant des données nouvellement ajoutées, la seconde consiste à obtenir de nouveaux insights grâce à de grandes quantités de nouvelles données. Dans le cas de l'apprentissage supervisé, l'utilisateur sait quels résultats il peut attendre, tandis qu'avec l'apprentissage non supervisé, il espère découvrir quelque chose de nouveau et d'inconnu.

Diverses applications

Les modèles créés avec l'apprentissage supervisé sont parfaitement adaptés à la détection du courrier indésirable ou au traitement de l'analyse des sentiments. Ces modèles sont également utilisés pour les prévisions météorologiques ou de changement de prix. L'apprentissage non supervisé est particulièrement approprié pour la recherche d'anomalies et d'aberrations de toute sorte. L'apprentissage supervisé fonctionne bien pour les moteurs de recommandation et pour comprendre les profils des clients.

Niveau de complexité différent

Les outils utilisés pour la création de modèles de ML avec l'apprentissage supervisé sont relativement simples, puisque des programmes comme R ou Python sont généralement suffisants. L'apprentissage non supervisé nécessite en revanche une certaine puissance de calcul pour traiter les énormes volumes de données non étiquetées.

Inconvénients de l'apprentissage supervisé et non supervisé

Comme n'importe quelle technologie, les modèles d'apprentissage supervisé et non supervisé ont chacun leurs inconvénients.

L'apprentissage supervisé peut nécessiter beaucoup d'entraînement et une expertise humaine pour la validation des étiquettes, aussi bien pour les entrées que pour les sorties. Travailler sur la classification du Big Data est très complexe avec l'apprentissage supervisé, mais une fois les données étiquetées, les résultats sont fiables.

L'apprentissage non supervisé produit parfois des résultats complètement erronés, sauf si quelqu'un intervient pour valider les résultats. Contrairement à l'apprentissage supervisé, l'apprentissage non supervisé peut utiliser n'importe quel volume de données en temps réel, mais dans la mesure où la machine s'entraîne elle-même, la classification est moins transparente. Cela augmente les risques de résultats médiocres.

Choisir entre l'apprentissage supervisé et non supervisé

Alors, comment une entreprise peut-elle déterminer ce qui lui convient le mieux ? Tout dépend du contexte précis qui justifie ses besoins et de la manière dont les data scientists avec lesquels elle travaille évaluent et organisent la plus grosse partie de ses données. S'il faut mettre en œuvre des structures de traitement des données, elle doit d'abord se poser les questions suivantes :

  • Les données sont-elles étiquetées ?L'entreprise a-t-elle le temps et les connaissances internes nécessaires pour la validation et l'étiquetage ? Le résultat est-il connu ?
  • Quels sont les objectifs à atteindre ?S'agit-il de résoudre un problème récurrent ou d'utiliser l'algorithme pour mettre au jour et résoudre un problème inconnu ?
  • Quelles sont les options en ce qui concerne les algorithmes ?L'entreprise dispose-t-elle d'algorithmes de même dimensionnalité, pour lesquels elle connaît les attributs de chaque caractéristique et le nombre de caractéristiques ? Est-elle en mesure de déterminer si ces caractéristiques pourront prendre en charge la structure et le volume de données concernés ?

La décision d'opter ou non pour des approches de ML supervisé ou non supervisé dépend du contexte, des hypothèses de base qui pourront être validées avec les données disponibles et de l'utilisation finale. La méthode choisie peut changer au fil du temps en fonction des besoins de l'entreprise.

Il est par exemple possible de commencer l'entraînement avec des données non étiquetées, avec l'approche non supervisée, puis de passer à l'apprentissage supervisé une fois les étiquettes correctement identifiées. Cela peut se faire à différentes étapes de l'étiquetage. D'autre part, il peut également arriver que l'approche supervisée des données d'apprentissage ne fournisse pas les insights requis et que l'apprentissage non supervisé révèle des schémas inconnus et donne un aperçu plus complet des mécanismes de l'entreprise.

Pour bien démarrer avec le machine learning

Beaucoup d'entreprises ne tirent pas pleinement parti du ML. L'Alteryx Machine Learning Platform est un puissant outil no-code low-code qui automatise le traitement des données pour vous permettre de déployer des modèles supervisés et non supervisés. Créez facilement et rapidement des modèles de ML élaborés pour résoudre des problèmes métier complexes. Lancez-vous dès aujourd'hui pour transformer votre Big Data en insights et prédictions exploitables.

Terme suivant
Feature engineering