Zeitraubend. Störend. Fehleranfällig. Diese Wörter beschreiben den Prozess für die KI-Projektbereitstellung gut.
Der Prozess ist so herausfordernd, dass nur 38 % aller KI-Projekte jemals umgesetzt werden.
Und selbst wenn man sie realisiert, sind sie oft manuell. Es erfordert nicht nur mehr Zeit, sie betriebsbereit zu machen. Sie sind auch weder skalierbar noch leicht zu aktualisieren.
Die meisten Probleme, mit denen Sie es bei KI-Projekten zu tun haben, werden durch manuelle Prozesse, eine fehlende Verbindung zwischen Ihren Daten und Leuten sowie durch die von Ihnen verwendete Technologie verursacht.
Mit Automatisierung und Continuous Delivery for Machine Learning (CD4ML) können Sie die zeitaufwendigen Schritte umgehen und zuverlässige maschinelle Modelle bis zur Produktion bringen. Gleichzeitig sparen Sie Zeit und nutzen alle Vorteile.
CD4ML bringt Anwendungen für Machine Learning in verschiedenen Bereichen bis zur Produktion. Dies geschieht durch die Entwicklung der Anwendungen mithilfe von Automatisierung, Daten, Code und Modellen in einem kleineren, aber leicht reproduzierbaren Umfang. Das Ziel ist es, Modelle zu entwickeln, die basierend auf kleinen, aus neuen Daten und Training resultierenden Veränderungen wachsen und sich anpassen können.
Aus diesem Grund ist es nicht nur einfacher, Machine Learning-Modelle zu erstellen, sondern auch sicherer. Der CD4ML-Prozess verringert die Wahrscheinlichkeit von Fehlern, wie sie bei den großen, einmaligen Releases auftreten, die in einem standardmäßigen KI-Projektprozess erstellt werden.
Natürlich klingt das alles in der Theorie einfach. Die gute Nachricht ist jedoch, dass die Bereitstellung eines CD4ML-Modells auch in der Praxis unkompliziert ist.
Im Folgenden beschreiben wir, wie Sie Machine Learning-Modelle mit einer MLOps-Lösung über Alteryx und AWS bereitstellen können.
Um eine umfassende CD4ML-Lösung bereitzustellen, sind zunächst ein paar Dinge erforderlich, wie zum Beispiel:
Die Alteryx Analytic Process Automation PlatformTM besteht aus vier Komponenten, die Sie bei den angesprochenen Herausforderungen unterstützen. Diese Komponenten sind:
So helfen die einzelnen Komponenten bei CD4ML:
Alteryx Connect kann verwendet werden, um Daten aus verschiedenen Quellen zu katalogisieren, einschließlich der Datasets, die Alteryx als Add-ons anbietet.
So katalogisieren Sie Datenquellen mit Alteryx Connect
Connect erleichtert Ihnen und Ihrem Team auch das Erkennen und Verstehen relevanter Datenbestände.
Sobald eine Datenquelle in Connect dargestellt ist, können Mitglieder Ihres Unternehmens mithilfe sozialer Validierungstools wie Abstimmung, Kommentierung und Freigabe zusammenarbeiten, um die Nützlichkeit und Aktualität Ihrer verfügbaren Daten anzuzeigen.
Nachdem Sie Connect installiert haben, was in einer in Amazon EC2 betriebenen Windows Server-Umgebung möglich ist, können Sie einen oder mehrere der über 25 vorhandenen Datenbank-Metadaten-Loader verwenden, um Datenquellen hinzuzufügen. Dazu gehören Loader für Amazon Redshift und Amazon S3 sowie Loader für Postgres und MySQL, die Metadaten von Amazon Aurora laden können.
Wenn für eine Datenquelle kein Metadaten-Loader vorhanden ist, bietet Alteryx intuitive SDKs, die Entwicklerinnen und Entwicklern das Schreiben neuer Loader in mehreren Sprachen und über REST-APIs erleichtern. Connect bietet eine plattformübergreifende Benutzererfahrung, sodass jede Person, die Designer Desktop und Server verwendet, Datenbestände auf der Grundlage gemeinsamer Metadaten untersuchen und nutzen kann.
Herkunft von Datenbeständen in Alteryx Connect erfassen
Sie können Benutzerdaten auch mit Datasets von Branchendaten-Anbietern erweitern. Alteryx Datasets können wertvolle Standort- und Geschäftserkenntnisse liefern, wenn sie mit proprietären Daten kombiniert werden. Im Modellierungsbereich werden diese Daten meist mit proprietären Daten kombiniert, um demografische und geografische Features in Modellen anzubieten.
Sie können Alteryx Designer verwenden, um Daten zur Nutzung in einer der verschiedenen Tool-Suites für Predictive Modeling- und Machine Learning-Experimente zu importieren. Jede Tool-Suite deckt die unterschiedlichen Ebenen der Machine Learning-Erfahrung in Ihrem Unternehmen ab und hilft ihnen sogar zu lernen. Probieren Sie es selbst aus mit unserer kostenlosen Testversion der Alteryx Intelligence Suite.
Alteryx Designer bietet verschiedene Optionen zum Modellieren und Experimentieren – je nach Erfahrungsstand der Benutzer:in
Sobald Ihr Team eine Datenarchitektur implementiert und die entsprechende Datenmenge identifiziert hat, können Sie mit den Analysen beginnen. Designer ist sowohl eine Code-freie als auch eine Code-freundliche Entwicklungsumgebung, sodass Analystinnen und Analysten aller Wissensniveaus automatisierte Analyse-Workflows erstellen können – einschließlich Workflows, die Machine Learning erfordern.
Sie können Designer auf einem lokalen Windows-Computer und in der Cloud verwenden.
Alteryx ist unabhängig davon, wo und wie Daten gespeichert werden, und stellt Konnektoren zu über 80 verschiedenen Datenquellen bereit. Dazu gehört ein AWS-Starter-Kit , das Konnektoren für Amazon Athena, Amazon Aurora, Amazon S3 und Amazon Redshift enthält.
Da Alteryx eine gemeinsame Grundlage für die Datenverarbeitung aus mehreren Quellen für Hochleistungs-Workloads bietet, hat es sich methodisch häufig bewährt, die Daten durch Vorverarbeitung von Workflows zu ko-lokalisieren. Um beispielsweise die zukünftige Verarbeitungslatenz zu reduzieren, könnten Sie On-Premises-Daten in eine AWS-Quelle verschieben. All dies kann per Drag & Drop mit Code-freien Datenkonnektor-Modulen erfolgen. Daher müssen keine komplexen CLI/SQL-Kenntnisse der zugrunde liegenden Infrastruktur mehr vorhanden sein, wobei auch dieser Weg möglich ist.
Designer umfasst über 260 Automatisierungsmodule, die die Code-freie Verarbeitung von Daten ermöglichen. Dies beinhaltet Module für die Vorbereitung, Bereinigung, Zusammenführung, Zuordnung, Visualisierung und Modellierung von Daten. Module für Datenbereinigung, -zusammenführung und -vorbereitung werden häufig vor dem Experimentieren mit Machine Learning verwendet, um Trainings-, Test- und Validierungs-Datasets vorzubereiten.
Erstellen komplexer Analyse-Workflows in Alteryx Designer
Ein Großteil der Datenvorverarbeitung, die vor der Modellierung stattfindet, kann auch mithilfe der In-DB-Funktionalität von Alteryx durchgeführt werden. Diese Funktionalität verschiebt Datenverarbeitungsaufgaben in die Datenbank und verzögert den Datenimport, bis diese Verarbeitung abgeschlossen und eine speicherinterne Aktion des lokalen Rechners ausgeführt worden ist.
Alteryx Designer bietet Benutzenden eine Reihe von Optionen für Machine Learning.
Die Alteryx Predictive Suite bietet Code-freie Funktionen für viele deskriptive, prädiktive und präskriptive Analyseaufgaben. Sie können auch den zugrunde liegenden R-Code, der diese Module unterstützt, an ihre spezifischen Anwendungsfälle anpassen.
Die Alteryx Intelligence Suite bietet Code-freie Funktionen zum Aufbau von Pipelines für Machine Learning und zusätzliche Funktionen für Textanalysen.
Die Intelligence Suite bietet auch Assisted Modeling, ein Produkt für die automatisierte Modellierung, das Geschäftsanalystinnen und -analysten beim Erlernen von Machine Learning hilft und validierte Modelle erstellt, die ihre spezifischen Geschäftsprobleme lösen.
Assisted Modeling basiert auf Open-Source-Bibliotheken und bietet Ihnen die Möglichkeit, Ihre per Drag & Drop oder Assistent erstellten Modelle als Python-Skripte zu exportieren.
Mit diesen beiden Optionen können Sie Code-freundliche Module verwenden, die R und Python unterstützen, um Code für Machine Learning zu schreiben, der in einen ansonsten Code-freien Workflow eingebettet ist. Benutzer:innen können diese Module für die Arbeit mit ihren bevorzugten Frameworks und Bibliotheken verwenden, und das integrierte Jupyter Notebook ermöglicht interaktive Datenexperimente.
Vergleichen Sie trainierte Modelle in der Assisted Modeling-Rangliste
Sie können Alteryx Server nutzen, um Workflows zu operationalisieren. Das schließt auch für Data Governance verwendete Workflows ein. Alteryx Server bietet einen komponentenbasierten Installationsvorgang, der nativ in AWS funktioniert.
Alteryx Server kann einfach in AWS installiert werden, um Workflows für Machine Learning und Data Governance produktiv zu machen.
Alteryx Server unterstützt Skalierung für umfangreichere Trainingsdaten, die Abstimmung von Hyperparametern und die Überführung in die Produktion. Sie können es zum Verwalten und Bereitstellen von Analyse-Assets verwenden.
Sie können damit auch ganz einfach CPU-optimierte Rechner an ein Server-Cluster anhängen, das zur Verwendung durch Training-Pipelines für Machine Learning angegeben werden kann. Durch die Ausführung lang laufender Training-Jobs in Alteryx Server erhalten Sie die Flexibilität, während der Ausführung des Training-Jobs weiter Analyse-Workflows in Designer zu entwerfen.
Alterys Server ermöglicht auch die Planung und Sequenzierung von Analyse-Workflows. Jede dieser Funktionen kann als Teil von CI/CD-Pipelines verwendet werden, die die Qualität der für die Produktion bereitgestellten Modelle sicherstellen. Mit REST-APIs können Sie Workflows programmgesteuert auslösen und den Status für die Integration in etablierte DevOps- und CI/CD-Setups überwachen.
Alteryx Server kann in einem On-Premise-Rechenzentrum oder in der AWS Cloud installiert werden und unterstützt Konfigurationen mit einem oder mehreren Knoten. Es wird als Amazon Machine Image (AMI) im AWS Marketplace für einfache 1-Klick-Bereitstellungen angeboten. Benutzerdefinierte Instanzen können auch in einem privaten Subnetz mithilfe von Amazon Virtual Private Cloud bereitgestellt werden. Alteryx Server bietet viele Anpassungsoptionen, darunter die Möglichkeit, Server-Metadaten in einer benutzerverwalteten MongoDB-Instanz zu speichern, für die AWS einen Quick Start bietet.
Eine detaillierte Anleitung finden Sie unter Best Practices für die Bereitstellung von Alteryx Server auf AWS.
Alteryx Server bietet integrierte Governance und Versionskontrolle für Analyse-Assets, die anstelle von oder zusätzlich zu anderen Lösungen für die Quellkontrolle verwendet werden können.
Alteryx Promote verknüpft die Komponenten der Plattform und bietet eine Lösung für Modellmanagement, Model Serving in Echtzeit und Modellüberwachung.
Alteryx Promote bietet eine MLOps-Lösung mit Modellmanagement und hochverfügbarem Model Serving mit geringer Latenz
Die Alteryx Analytic Process Automation Platform bietet mehrere Optionen für die Modellimplementierung. Promote wird hauptsächlich für Echtzeit-Bereitstellungen verwendet, wie sie für Modelle üblich sind, die mit Webanwendungen interagieren. Promote ermöglicht die schnelle Implementierung von vortrainierten Modellen für Machine Learning durch benutzerfreundliche Python- und R-Client-Bibliotheken oder in Code-freier Form mit Alteryx Designer.
Modelle, die in einer Promote-Cluster-Serverumgebung bereitgestellt wurden, werden als Docker-Container verpackt, über Knoten hinweg repliziert und als hochverfügbare REST-APIs zugänglich gemacht, die speicherinterne Inferenzmethoden hosten. Die Anzahl der Replikationen jedes Modells ist konfigurierbar, ebenso wie die Anzahl der Knoten, die im Promote-Cluster verfügbar sind. Ein interner Load Balancer verteilt Anfragen über die verfügbaren Replikationen.
Überwachen Sie die Leistung Ihrer produktiven Modelle mit Promote
Wie Server und Connect kann Promote in einer AWS Cloud-Umgebung oder in einem On-Premise-Rechenzentrum installiert werden. Das empfohlene Setup umfasst auch einen externen Load Balancer wie Elastic Load Balancing, um Prognoseanfragen auf alle Promote-Knoten zu verteilen. Promote ist ideal für Inferenzfälle, bei denen der Durchsatz bereits bekannt ist oder bei Bedarf geändert werden kann. Automatische Skalierung ist zwar technisch möglich, geht aber über den vorgesehenen Verwendungszweck des Produkts hinaus.
Alteryx Server ist die empfohlene Lösung für Modelle, bei denen Batch-Inferenzen zu bekannter vorhandener Hardware erforderlich sind. Batch-Modelle können für Prognosen in Workflow- oder Analyse-Apps verpackt und für die Ausführung in Server auf Compute-optimierten Knoten geplant werden.
Sie können auch die Workflow-Management-Funktionalität von Server nutzen, um sicherzustellen, dass Prognosen erst erstellt werden, nachdem durch die Datenvorverarbeitung aktuelle Features generiert wurden.
Darüber hinaus benötigen Benutzer:innen häufig eine Kombination aus Alteryx- und AWS-Lösungen, um komplexe Modelle skalierbar bereitzustellen. Ein Nutzungsmuster, das wir beobachtet haben, ist die Verwendung unseres Assisted Modeling-Tools auf dem Desktop, um anhand von Beispieldaten einen Modell-Prototyp zu erstellen. Mithilfe von Designer und Server bereiten Clients Daten aus lokalen Quellen vor bzw. führen Daten zusammen und übertragen die resultierenden Daten an S3.
Anschließend kann der Modell-Code vom Assisted Modeling-Tool auf SageMaker übertragen werden, wo das Modell für das gesamte Dataset in Amazon S3 trainiert und als API im SageMaker-Ökosystem bereitgestellt werden kann, um die Vorteile von Containerisierung, Skalierung und serverlosen Funktionen zu nutzen. Da sich Alteryx auf die freundliche Modellerstellung konzentriert, ist dies oft der beste Weg für Unternehmen, die zwar nur geringe Data Science-Kapazitäten haben, aber über umfangreiche DevOps- oder Engineering-Ressourcen verfügen.
Alteryx ermöglicht Modelltests während des gesamten Modellierungs- und Implementierungsprozesses. Während der Experimentierphase geben prädiktive Module und Assisted Modeling Leistungskennzahlen und Visualisierungen aus, sodass die Generalisierbarkeit jedes Modells verglichen werden kann.
Assisted Modeling bietet auch eine Erklärbare-KI (XAI)-Berichterstellung in Form von Bewertungen der Feature-Wichtigkeit, die mithilfe des Permutationswichtigkeit-Ansatzes berechnet werden.
Während der Modellbereitstellung ist es einfach, Testdaten zu einem Promote-Bereitstellungsskript hinzuzufügen. Der Testschritt kann verwendet werden, um die Bereitstellung dieser Modellversion bedingt zuzulassen oder zu verweigern.
Neue Promote-Modellversionen werden zunächst in logischen Entwicklungs- und Staging-Umgebungen gehostet, sodass Benutzer:innen ein neues Modell parallel zum zuvor ausgeführten Produktionsmodell ausführen können. Testende können ihre Systeme so einrichten, dass Prognosen sowohl für die Produktions- als auch für die Staging-Modellversionen erstellt werden, bevor sie sich entscheiden, das Produktionsmodell zu ersetzen. Letzteres ist mithilfe einer API durchführbar.
Promote zeichnet auch alle Anfrage- und Antwortdaten auf, sodass Benutzende individuelle Workflows entwickeln können, die diese Daten nutzen, um auf Verzerrungen, Fairness und Konzeptdrift zu testen.
Neben der Aufzeichnung aller eingehenden Anfragen und ihrer Antworten verfolgt Promote aggregierte Metriken in Amazon Elasticsearch Service, damit Administratorinnen und Administratoren die Leistung der von ihnen bereitgestellten Modelle beobachten können. Metriken für Anfragen, Fehler und Latenz im letzten Monat geben an, ob das Modell weiter repliziert werden muss. Zusätzliche Berichte zur Systemauslastung helfen Admins zu bestimmen, ob zusätzliche Knoten zum Promote-Cluster hinzugefügt werden müssen.
Schließlich können Sie die historischen Anfragedaten für die Konzept- oder Datendriftanalyse exportieren. Diese Analysen können in Alteryx Designer durchgeführt, für die Ausführung in Server geplant und die CD-Pipeline gestartet werden, wenn Abweichungen erkannt werden.
Um eine umfassende CD4ML-Lösung bereitzustellen, müssen Sie Ihren Datenzugriff und Ihre Prozesse automatisieren, Datensilos beseitigen und skalierbare Lösungen implementieren.
Mit Alteryx und AWS ist das möglich.
Die Alteryx Analytic Process Automation Platform ist eine End-to-End-Plattform. Sie stellt Datenkonnektoren, Module und Funktionalitäten zur Verfügung, die es ermöglichen, mit sehr geringem oder ganz ohne Programmieraufwand Modellierungslösungen zu erstellen und zu implementieren.
Sie umfasst ein offenes Ökosystem in Bezug auf APIs, Datenkonnektoren von Drittanbietern und Open-Source-Lösungen, was Entwicklerinnen und Entwicklern die Möglichkeit bietet, die Alteryx Lösung mit nativen AWS-Komponenten zu kombinieren.
Damit haben Sie die Freiheit, Machine Learning so einzusetzen, wie es Ihren Geschäftsanforderungen am besten entspricht.
Beginnen Sie mit dem Starter-Kit für die Intelligence Suite mit der Bereitstellung von Machine Learning-Modellen.
Sehen Sie sich eine interaktive Demo von Alteryx Designer an.
Erfahren Sie anhand der Best Practices für die Bereitstellung von Alteryx Server auf AWS, wie Sie skalieren und Alteryx Server über den AWS Marketplace implementieren.