E-book

MLOps : livraison continue pour le machine learning avec Alteryx sur AWS

MLOps : livraison continue pour le machine learning avec Alteryx sur AWS

Chronophages, perturbateurs ou sources d’erreurs : chacune de ces expressions peut être employée pour qualifier les processus de livraison des projets d’IA.

Ces processus représentent un tel défi que seuls 38 % des projets d’IA sont menés à bien.

Et lorsque c’est le cas, ils sont le plus souvent manuels. Non seulement il faut plus de temps pour rendre ces projets opérationnels, mais ces derniers ne sont pas évolutifs ni faciles à mettre à jour.

La plupart des problèmes liés aux projets d’IA sont dus à des processus manuels, à un manque de cohésion entre les données et les équipes, et à la technologie utilisée.

Grâce à l’automatisation et à la livraison continue pour le machine learning (CD4ML), vous pouvez contourner les étapes chronophages et mettre en production des modèles de machines fiables, tout en gagnant du temps et en bénéficiant de nombreux avantages.

Livraison continue pour le machine learning (CD4ML)

Le CD4ML intègre l’automatisation, les données, le code et les modèles au développement des applications de machine learning, à une échelle réduite mais facilement reproductible, afin de mettre ces applications en production dans plusieurs services. L’objectif final est de créer des modèles capables de se développer et de s’adapter aux petits changements provenant de nouvelles données et de l’entraînement.

Produire des modèles de machine learning est donc plus facile, mais aussi plus sûr. Le processus CD4ML réduit les erreurs qui accompagnent généralement les versions uniques et volumineuses résultant des processus de projets d’IA standards.

Bien sûr, tout cela semble facile en théorie. Mais la bonne nouvelle, c’est qu’il n’est pas plus difficile de déployer un modèle CD4ML en pratique.

Cela étant dit, voici comment créer des modèles de machine learning à l’aide d’une solution MLOps via Alteryx et AWS.

Déployer une solution CD4ML complète avec Alteryx et AWS

Avant de déployer une solution CD4ML complète, vous devez d’abord effectuer certaines opérations, notamment :

  • Automatiser les processus chronophages d’analyse et d’accès aux données
  • Supprimer les silos de données inutiles
  • Créer des processus cohérents pour votre entreprise
  • Mettre en œuvre des solutions évolutives pouvant être prises en main par tout un chacun

La plateforme d’automatisation des processus analytiques Alteryx APA comporte quatre composants conçus pour vous aider à relever les défis que nous venons de voir. Ces composants sont les suivants :

  • Alteryx Connect : outil collaboratif de catalogage de données
  • Alteryx Designer : logiciel installable et cloud permettant l’assemblage d’applications et de workflows analytiques sans code
  • Alteryx Server : hub analytique permettant aux utilisateurs de faire évoluer leurs capacités analytiques dans le cloud ou sur site sur leur matériel d’entreprise
  • Alteryx Promote : solution en conteneur et déployable permettant de déployer facilement des modèles de machine learning en tant qu’API REST à disponibilité élevée

Voici le rôle de chacun de ces composants dans le processus CD4ML.

Gouvernance et sélection des données avec Alteryx Connect

Alteryx Connect peut être utilisé pour cataloguer des données provenant de sources disparates, y compris les jeux de données proposés par Alteryx en tant que modules complémentaires.

 

Comment cataloguer les sources de données avec Alteryx Connect

Connect vous permet également, à vous et à votre équipe, de découvrir et de comprendre facilement les ressources de données pertinentes.

Une fois qu’une source de données est intégrée à Connect, votre entreprise peut collaborer à l’aide d’outils de validation sociaux, tels que le vote, les commentaires et le partage afin de souligner l’utilité et la fraîcheur des données disponibles.

Une fois Connect installé, par exemple dans un environnement Windows Server exécutant Amazon EC2, vous pouvez utiliser un ou plusieurs des 25 chargeurs de métadonnées de base de données existants pour ajouter des sources de données. Ceux-ci incluent notamment des chargeurs pour Amazon Redshift et Amazon S3, ainsi que des chargeurs pour Postgres et MySQL capables de charger des métadonnées à partir d’Amazon Aurora.

Si une source de données ne dispose pas de chargeur de métadonnées, Alteryx propose des SDK intuitifs qui aident les développeurs à écrire de nouveaux chargeurs dans plusieurs langages et via des API REST. Connect offre une expérience multiplateforme permettant aux utilisateurs de Designer et Server pour bureau d’explorer et d’utiliser les ressources de données en fonction des métadonnées partagées.

 

Traçabilité des ressources de données dans Alteryx Connect

Vous pouvez également enrichir les données utilisateur à l’aide de jeux de données provenant de fournisseurs de données du secteur. Les jeux de données Alteryx fournissent de précieux insights sur l’emplacement et l’activité lorsqu’ils sont combinés à des données propriétaires. Concernant la modélisation, on associe généralement ces données aux données propriétaires afin d’intégrer des caractéristiques démographiques et géographiques aux modèles.

Expérimentation du machine learning avec Alteryx Designer

Alteryx Designer permet d’importer des données afin de les utiliser dans la suite d’outils de modélisation prédictive et d’expérimentation de machine learning de votre choix. Chacune de nos suites d’outils s’adresse à un niveau d’expérience différent en matière de machine learning, et soutient même vos équipes dans leur apprentissage. Testez-les par vous-même avec notre version d’essai gratuite d’Alteryx Intelligence Suite.

 

Alteryx Designer

 

Alteryx Designer propose plusieurs options de modélisation et d’expérimentation afin de s’adapter au niveau d’expérience de l’utilisateur.

 

Une fois que votre équipe a mis en œuvre une architecture de données et identifié la ressource de données appropriée, vous pouvez commencer l’analytique. Designer est un environnement de développement à la fois sans code et compatible avec le code. Les analystes peuvent donc créer des workflows analytiques automatisés quelles que soient leurs compétences, y compris des workflows exigeants du machine learning.
Vous pouvez utiliser Designer sur une machine Windows locale et dans le cloud.

 

Les solutions Alteryx sont indépendantes de l’emplacement et de la manière dont les données sont stockées, et fournissent des connecteurs à plus de 80 sources de données différentes. Cela inclut notamment un Kit de démarrage AWS contenant des connecteurs pour Amazon Athena, Amazon Aurora, Amazon S3et Amazon Redshift.

 

Alteryx permet de traiter des données provenant de plusieurs sources sur une base commue. Pour les charges de travail hautes performances, il est donc souvent recommandé de co-localiser les données en prétraitant les workflows. Vous pouvez par exemple déplacer les données sur site vers une source AWS afin de réduire la future latence de traitement. Tout cela peut être réalisé par glisser-déposer à l’aide de blocs de construction sans code pour les connecteurs de données. Il n’est donc pas nécessaire de maîtriser les subtilités CLI/SQL de l’infrastructure sous-jacente, bien que cela soit également possible.

 

Designer comprend plus de 260 blocs de construction pour l’automatisation qui permettent de traiter les données sans code. Ces derniers incluent des blocs de construction pour la préparation, le nettoyage, la fusion, le mappage, la visualisation et la modélisation. Les blocs de construction pour le nettoyage, la fusion et la préparation des données sont souvent utilisés avant l’expérimentation du machine learning, afin de préparer les jeux de données d’entraînement, de test et de validation.

 

 

Créer des workflows analytiques complexes avec Alteryx Designer

Une grande partie du prétraitement des données précédant la modélisation peut également être réalisée à l’aide de la fonctionnalité En base de données d’Alteryx. Celle-ci transfère les tâches de traitement des données à la base de données et retarde l’importation des données jusqu’à ce que le traitement soit terminé et qu’une action en mémoire ait été exécutée sur la machine locale.

Alteryx Designer propose aux utilisateurs plusieurs options de machine learning.

Alteryx Predictive Suite

Alteryx Predictive Suite offre des fonctionnalités sans code pour de nombreuses tâches analytiques descriptives, prédictives et prescriptives. Vous pouvez également personnaliser le code R sous-jacent qui alimente ces blocs de construction afin de répondre aux cas d’usage spécifiques de ces tâches.

Alteryx Intelligence Suite

Alteryx Intelligence Suite permet de créer des pipelines de machine learning sans code et offre des fonctionnalités supplémentaires pour l’analyse de texte.

Intelligence Suite inclut également une fonctionnalité de modélisation assistée, qui est un produit de modélisation automatisé conçu pour aider les analystes métiers à maîtriser le machine learning tout en créant des modèles validés qui résolvent leurs problèmes spécifiques.

La modélisation assistée est basée sur des bibliothèques open source et permet d’exporter les modèles que vous avez créés par glisser-déposer ou à l’aide de l’assistant en tant que scripts Python.

Ces deux options permettent d’utiliser des blocs de construction compatibles avec le code, qui prennent en charge R et Python afin d’écrire du code de machine learning intégré dans un workflow par ailleurs sans code. Les utilisateurs peuvent utiliser ces blocs de construction pour travailler avec leurs bibliothèques et frameworks préférés, tandis que l’intégration Jupyter Notebook permet une expérimentation interactive des données.

Comparez les modèles entraînés dans le tableau de classement de la modélisation assistée.

Mise en production des pipelines ML avec Alteryx Server

Tirez parti d’Alteryx Server pour opérationnaliser les workflows, y compris ceux que vous utilisez pour la gouvernance de données. Server offre une expérience d’installation par composants qui fonctionne de manière native dans AWS.

Alteryx Server peut être installé facilement dans AWS pour mettre en production des workflows de machine learning et de gouvernance des données.

Il assure la mise à l’échelle afin de prendre en charge des données d’entraînement plus importantes, mais aussi le réglage des hyperparamètres et la mise en production. Vous pouvez l’utiliser pour gérer et déployer des ressources analytiques.

En outre, Alteryx Server permet d’ajouter facilement des machines optimisées pour le CPU à un cluster Server, qui peut être spécialement paramétré pour être utilisé par les pipelines d’entraînement du machine learning. En exécutant des tâches d’entraînement de longue durée dans Server, vous bénéficiez de la flexibilité nécessaire pour continuer à concevoir des workflows analytiques dans Designer pendant l’exécution des tâches d’entraînement.

Server permet également de planifier et de séquencer les workflows analytiques. Chacune de ces fonctionnalités peut être utilisée dans le cadre des pipelines CI/CD qui garantissent la qualité des modèles déployés en production. Utilisez les API REST pour déclencher des workflows par programmation et surveiller le statut afin d’intégrer les configurations DevOps et CI/CD établies.

Alteryx Server peut être installé dans un centre de données sur site ou dans le cloud AWS, et prend en charge les configurations à un ou plusieurs nœuds. Il est proposé sous forme d’Amazon Machine Image (AMI) dans AWS Marketplace pour des déploiements faciles en un seul clic. Les instances personnalisées peuvent également être déployées dans un sous-réseau privé à l’aide d’Amazon Virtual Private Cloud. Server offre de nombreuses options de personnalisation, dont l’une permet de stocker les métadonnées Server dans une instance MongoDB gérée par l’utilisateur, pour laquelle AWS propose un Démarrage rapide.

Pour obtenir des conseils détaillés, consultez les meilleures pratiques pour déployer Alteryx Server sur AWS.

Alteryx Server offre une gouvernance et un contrôle de version intégrés pour les ressources analytiques, qui peuvent être utilisés à la place ou en plus d’autres solutions de contrôle des sources.

Service de modèle et déploiement avec Alteryx Promote

Alteryx Promote assure l’unicité de la plateforme, offrant une solution pour la gestion des modèles, le service de modèles en temps réel et la surveillance des modèles.

Alteryx Promote propose une solution MLOps qui permet la gestion des modèles et le service de modèles à faible latence et haute disponibilité.

La plateforme Alteryx APA comporte plusieurs options de déploiement de modèles. Promote est principalement utilisé pour les déploiements en temps réel, courants avec les modèles qui interagissent avec les applications Web. Promote permet le déploiement rapide de modèles de machine learning pré-entraînés via des bibliothèques client Python et R faciles à utiliser, ou sans code à l’aide d’Alteryx Designer.

Les modèles qui ont été déployés dans un environnement de serveur de cluster Promote sont packagés sous forme de conteneurs Docker, répliqués sur les nœuds et rendus accessibles sous forme d’API REST hautement disponibles qui hébergent des méthodes d’inférence en mémoire. Le nombre de réplications de chaque modèle est configurable, tout comme le nombre de nœuds disponibles dans le cluster Promote. Un équilibreur de charge interne répartit les demandes entre les réplications disponibles.

Surveiller les performances de vos modèles en production avec Promote

Comme Server et Connect, Promote peut être installé dans un environnement cloud AWS ou dans un centre de données sur site. La configuration recommandée inclut également un équilibreur de charge externe, tel qu’Elastic Load Balancing, pour répartir les demandes de prédiction entre tous les nœuds Promote. Promote est idéal pour les cas d’inférence dans lesquels le débit est déjà connu ou peut être modifié à la demande. Bien que la mise à l’échelle automatique soit techniquement possible, le produit n’est pas destiné à être utilisé de la sorte.

Nous recommandons d’utiliser Alteryx Server pour les modèles qui nécessitent une inférence par lots sur du matériel existant et connu. Les modèles par lots peuvent être packagés pour la prédiction au sein d’applications analytiques ou de workflows. Ils peuvent également être planifiés pour s’exécuter dans Server sur des nœuds optimisés pour le calcul.

Vous pouvez également tirer parti de la fonctionnalité de gestion des workflows de Server pour vous assurer que les prévisions ne sont effectuées qu’après la génération de fonctionnalités à jour par le biais du prétraitement des données.

En outre, les utilisateurs ont souvent besoin d’une solution hybride alliant Alteryx et AWS pour déployer des modèles complexes à grande échelle. Nous avons constaté que notre outil de modélisation assistée est utilisé sur bureau pour créer des prototypes de modèles à partir d’exemples de données. Nos clients utilisent Designer et Server pour préparer/fusionner les données provenant de sources locales, et pour pousser les données résultantes vers S3.

Le code du modèle issu de la modélisation assistée est ensuite poussé vers SageMaker, où le modèle est entraîné à l’aide de l’ensemble du jeu de données résidant sur Amazon S3, puis déployé en tant qu’API dans l’écosystème SageMaker pour tirer parti de ses fonctionnalités sans serveur de conteneurisation et de mise à l’échelle. Alteryx se concentre sur la création de modèles conviviaux, il s’agit donc souvent de la solution la plus adaptée aux entreprises peu spécialisées en data science, mais qui disposent d’importantes ressources d’ingénierie ou DevOps.

Test des modèles et qualité

Alteryx permet de tester les modèles tout au long du processus de modélisation et de déploiement. Au cours de la phase d’expérimentation, les blocs de construction prédictifs et de modélisation assistée génèrent des rapports sur les mesures de performance et les visualisations. Vous pouvez ainsi comparer la générabilité de chaque modèle.

La modélisation assistée fournit également des rapports d’IA explicables (XAI) sous forme d’évaluations de l’importance des fonctionnalités, calculées selon l’importance de la permutation.

Ajoutez facilement des données de test à un script de déploiement Promote pendant le déploiement d’un modèle. L’étape de test peut être utilisée pour autoriser ou interdire de manière conditionnelle le déploiement de cette version de modèle.

Les nouvelles versions de modèle Promote sont initialement hébergées dans des environnements de développement et de staging logiques, ce qui permet aux utilisateurs d’exécuter un nouveau modèle parallèlement au modèle de production précédemment exécuté. Les testeurs peuvent configurer leurs systèmes pour effectuer des prévisions sur les versions des modèles de production et de staging avant de décider de remplacer le modèle de production, ce qui peut être réalisé à l’aide d’une API.

Promote enregistre également toutes les données de demande et de réponse, ce qui permet aux utilisateurs de développer des workflows personnalisés exploitant ces données afin de tester les biais, l’équité et la dérive des concepts.

Amélioration continue

En plus d’enregistrer toutes les demandes entrantes et leurs réponses, Promote suit les mesures agrégées dans Amazon Elasticsearch Service afin que les administrateurs puissent observer les performances des modèles qu’ils ont déployés. Les mesures relatives aux demandes, aux erreurs et à la latence au cours du mois précédent indiquent si le modèle doit être davantage répliqué. La génération de rapports supplémentaires sur l’utilisation du système aide les administrateurs à déterminer s’il est nécessaire d’ajouter de nouveaux nœuds au cluster Promote.

Enfin, vous pouvez exporter les données de demande historiques pour analyser le concept ou la dérive des données. Ces analyses peuvent être effectuées dans Alteryx Designer, planifiées pour s’exécuter dans Server, et peuvent lancer le pipeline CD si une dérive est détectée.

Conclusion

Pour déployer une solution CD4ML complète, vous devez automatiser les processus et l’accès aux données, supprimer les silos de données et mettre en œuvre des solutions évolutives.

Tout ceci est possible avec Alteryx et AWS.

La plateforme Alteryx APA est une plateforme de bout en bout. Elle fournit les connecteurs de données, les blocs de construction et les fonctionnalités nécessaires pour créer et déployer des solutions de modélisation avec très peu de codage, voire pas de codage du tout.

La plateforme comprend un écosystème ouvert en termes d’API, de connecteurs de données tiers et de solutions open source, qui permet aux développeurs de combiner et d’associer la solution Alteryx avec les composants natifs AWS.

Ainsi, vous êtes libre de déployer le machine learning de la façon qui répond le mieux aux besoins de votre entreprise.

Que faire ensuite

Commencez à déployer des modèles de machine learning avec le kit de démarrage Intelligence Suite.

Regardez une démonstration interactive d’Alteryx Designer

Découvrez comment mettre à l’échelle avec les meilleures pratiques pour déployer Alteryx Server sur AWS et déployez Alteryx Server depuis AWS Marketplace.



 

Ressources recommandées

 
Rapport
Enable Data and Analytics Innovation for an Era of Perpetual Uncertainty
Fueled by intense and rapid political, environmental, social, and technological change: organizations face a new era of perpetual uncertainty.
  • Responsable Analytique
  • Réduction des risques
  • Montée en compétences
Lire maintenant
 
E-Book
How are enterprises using technology to make decisions?
Download the report to learn how how decision intelligence will impact the future of decision-making.
Lire maintenant
 
Témoignage client
Nielsen Reboots Its BI Process with Alteryx and AWS
How Nielsen used AWS and Alteryx to modernize its analytics stack in less than 90 days.
  • Analytics Automation
  • BI/Analytique/Data science
  • Alteryx Analytics Cloud
Lire maintenant