Überwachtes vs. unüberwachtes Lernen – was ist besser?

Überwachte und unüberwachte Lernmodelle funktionieren auf einzigartige Weise, um Unternehmen dabei zu unterstützen, besser mit ihren Verbraucherinnen und Verbrauchern zu interagieren.

Intelligente Technologie ist überall und durchdringt fast jeden Aspekt des täglichen Lebens. Verbraucher:innen erwarten heute mehr Informationen, mehr Automatisierung, mehr Geschwindigkeit – und das alles mit nur einem Klick. Um Schritt zu halten, müssen Unternehmen sich kontinuierlich anpassen und die neuesten Technologien implementieren, sonst riskieren sie, ins Hintertreffen zu geraten.

Der Fortschritt der künstlichen Intelligenz (KI) in der Wirtschaft hat diesen Bedarf verstärkt. Sicherheitssysteme können Fingerabdruck- und Gesichtsscans in biometrische Daten umwandeln, um Türen und Smartphones zu entsperren. Bankensysteme können ungewöhnliche Einkaufsmuster erkennen und automatisch eine Nachricht zur menschlichen Überprüfung von Transaktionen senden. Sprachassistenten auf Smartphones verwenden natürliche Sprachverarbeitung, um Audio-Eingaben zu verarbeiten und Antworten auf eine Vielzahl von Anfragen zu geben. All diese bemerkenswerten Technologien werden durch die Verwendung von Machine-Learning (ML)-Algorithmen ständig weiterentwickelt.

Machine Learning ist ein Teilbereich der KI. Genauer gesagt handelt es sich um eine Anwendung künstlicher Intelligenz, die Systemen die Möglichkeit bietet, aus Daten zu lernen und sich zu verbessern. Ähnlich wie Menschen aus alltäglichen Erfahrungen lernen, verbessert ML schrittweise Vorhersagen und Genauigkeit über mehrere Iterationen hinweg. Für ML-Modelle werden Trainingsdaten von IoT-Geräten (Internet of Things) bereitgestellt, die aus Transaktionen erfasst oder aus sozialen Medien aufgezeichnet wurden. Data-Science-Algorithmen helfen dabei, Informationen basierend auf verschiedenen Parametern für diese Maschinen zu durchsuchen, zu klassifizieren und zu gruppieren. Mit den verarbeiteten und kombinierten Daten kann ML dann Modelle erstellen, die bestimmte menschliche Verhaltensmuster genau vorhersagen und entsprechende Reaktionen einleiten.

Wenn zum Beispiel ein Kunde online zum Kauf seines nächsten Mobiltelefons navigiert und seine Auswahl eingegrenzt hat, bietet die Website Vergleiche mit anderen Telefonen oder Zubehörteilen an, die Käufer:innen gleichzeitig anstellen können. Dieses Antwortmodell wird aus Daten erstellt, die aus früheren ähnlichen Einkäufen verarbeitet wurden, sodass die Maschine ein Modell erstellen kann, das neuen Kundinnen und Kunden dabei hilft, ähnliche, fundierte Entscheidungen zu treffen.

ML funktioniert mit drei Arten von Algorithmen: überwacht, unüberwacht und bestärkend. Beim bestärkenden Lernen werden Maschinen trainiert, um eine Entscheidungsabfolge zu schaffen. Überwachtes und unüberwachtes Lernen (bzw. supervised und unsupervised learning) haben einen wesentlichen Unterschied: Für überwachtes Lernen werden gekennzeichnete Datasets verwendet, während für unüberwachtes Lernen nicht gekennzeichnete Datasets verwendet werden. „Gekennzeichnet“ heißt, dass die Daten bereits mit der richtigen Antwort getaggt sind.

Überwachtes Lernen

Der überwachte Lernansatz in ML verwendet gekennzeichnete Datasets, die Algorithmen trainieren, um Daten zu klassifizieren oder Ergebnisse präzise vorherzusagen. Das Modell verwendet die gekennzeichneten Daten, um die Relevanz verschiedener Merkmale zu messen und die Modellanpassung an das bekannte Ergebnis schrittweise zu verbessern. Das überwachte Lernen kann in zwei Haupttypen unterteilt werden:

  • Klassifizierung:Bei einem Klassifizierungsproblem werden Algorithmen verwendet, um Daten in bestimmte Segmente zu klassifizieren. Ein alltägliches Beispiel ist ein Algorithmus, der hilft, Spam für einen primären E-Mail-Posteingang abzulehnen, oder ein Algorithmus, mit dem eine Person eine andere in sozialen Medien blockieren oder einschränken kann. Einige gängige Klassifizierungsalgorithmen umfassen logistische Regression, Nächste-Nachbarn-Klassifikation, Forest-Zufallsfunktion, Naive Bayes, stochastischen Gradientenabstieg und Entscheidungsbaum-Modelle.
  • Regression: Dies ist eine statistische und ML-Methode, die Algorithmen verwendet, um die Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen zu messen. Mit Regressionsmodellen können Benutzende Ursache-Wirkungs-Vorhersagen basierend auf verschiedenen Datenpunkten erstellen. In einem Unternehmen könnte dies beispielsweise die Vorhersage des Wachstumspfads für Werbeeinnahmen beinhalten. Einige gängige Regressionsalgorithmen sind Ridge-Regression, Lasso, neurale Netzwerkregression und logistische Regression.

Unüberwachtes Lernen

Beim unüberwachten Lernen werden ML-Algorithmen verwendet, um Datasets ohne Kennzeichnung zu untersuchen und zu gruppieren. Solche Algorithmen können ohne menschliche Aufsicht unbekannte Muster in Daten aufdecken. Es gibt drei Hauptkategorien von Algorithmen:

  • Clustering:Basierend auf Ähnlichkeiten oder Unterschieden werden nicht gekennzeichnete Daten mithilfe von Clustering-Techniken gruppiert. Wenn ein Unternehmen beispielsweise an der Marktsegmentierung arbeitet, weist der K-Means-Clustering-Algorithmus Gruppen ähnliche Datenpunkte zu, die einen Satz von Parametern darstellen. Dies kann nach Standort, Einkommensniveau, Alter der Käufer oder einer anderen Variablen gruppiert werden.
  • Association:Wenn eine Person Beziehungen von Variablen innerhalb eines Dataset identifizieren möchte, ist die Association-Methode des unüberwachten Lernens nützlich. Dies ist die Methode, mit der der Hinweis „Andere Kunden haben sich auch angesehen“ erstellt wird. Es ist eine Methode, die ideal für Empfehlungs-Engines geeignet ist. 15 Kund:innen haben ein neues Telefon gekauft und dann außerdem noch die Kopfhörer dazu. Daher empfehlen die Algorithmen allen Kundinnen und Kunden, die ein Telefon in ihren Warenkorb legen, auch noch die Kopfhörer.
  • Dimensionsreduktion: Manchmal weist ein Dataset eine ungewöhnlich hohe Zahl an Features auf. Die Dimensionsreduktion hilft, diese Zahl zu reduzieren, ohne die Integrität der Daten zu beeinträchtigen. Dies ist ein Verfahren, das häufig vor der Verarbeitung von Daten verwendet wird. Ein Beispiel dafür ist das Entfernen von „Rauschen“ aus einem Bild, um seine visuelle Klarheit zu verbessern.

Unterschiede zwischen überwachtem und unüberwachtem Lernen

Sobald die Prinzipien des überwachten und unüberwachten Lernens verstanden wurden, ist es einfach, die Unterschiede zwischen ihnen zu verstehen.

Die Unterscheidung zwischen gekennzeichneten und nicht gekennzeichneten Datasets ist der Hauptunterschied zwischen diesen beiden Ansätzen. Überwachtes Lernen nutzt gekennzeichnete Datasets, um Klassifizierungs- oder Vorhersagealgorithmen zu trainieren. Die gekennzeichneten „Trainings“-Daten werden eingespeist, und das Modell passt iterativ an, wie es verschiedene Features der Daten gewichtet, bis das Modell entsprechend dem gewünschten Ergebnis angepasst wurde. Überwachte Lernmodelle sind deutlich präziser als unüberwachte. Sie verlangen jedoch, dass Menschen an der Datenverarbeitung beteiligt sind, um sicherzustellen, dass die Kennzeichnungen der Informationen geeignet sind.

Ein Beispiel dafür ist, dass ein überwachtes Lernmodell Flugzeiten basierend auf den Spitzenzeiten am Flughafen, dem Flugverkehrsaufkommen in der Luft und den Wetterbedingungen (neben anderen möglichen Parametern) vorhersagen kann. Menschen müssen jedoch eingreifen, um die Datasets zu kennzeichnen und das Modell darin zu trainieren, wie sich diese Faktoren auf die Flugzeiten auswirken können. Ein überwachtes Modell hängt davon ab, ob man das Ergebnis kennt, um daraus zu schließen, dass Schnee ein Faktor für Flugverzögerungen ist.

Im Gegensatz dazu arbeiten unüberwachte Lernmodelle dauerhaft ohne menschliches Eingreifen. Sie finden eine Struktur von Sortierungen und erreichen diese mit nicht gekennzeichneten Daten. Die einzige hier benötigte menschliche Hilfe ist die Validierung der Ausgabevariablen. Wenn beispielsweise jemand online einen neuen Laptop kauft, stellt ein unüberwachtes Lernmodell fest, dass die Person zu einer Gruppe von Käufer:innen gehört, die gemeinsam eine Reihe verwandter Produkte kaufen. Es ist jedoch Aufgabe von Data Analyst:innen, zu überprüfen, ob eine Empfehlungs-Engine ebenfalls eine Laptop-Tasche, einen Bildschirmschutz und ein Autoladegerät anbietet.

Ergebnisse vs. Erkenntnisse

Die Ziele bei überwachtem und unüberwachtem Lernen sind unterschiedlich. Während es sich beim überwachten Lernen um die Vorhersage der Ergebnisse für neu eingeführte Daten handelt, geht es beim unüberwachten Lernen darum, neue Erkenntnisse aus riesigen Mengen neuer Daten zu gewinnen. Beim überwachten Lernen weiß eine Person, welche Ergebnisse zu erwarten sind, während sie beim unüberwachten Lernen hofft, etwas Neues und Unbekanntes zu entdecken.

Verschiedene Anwendungen

Modelle, die aus überwachtem Lernen erstellt wurden, sind ideal geeignet, um bei der Spam-Erkennung oder Verarbeitung von Stimmungsanalysen zu helfen. Diese Modelle werden beispielsweise auch für Wetterprognosen oder Vorhersagen von Preisänderungen verwendet. Unüberwachtes Lernen ist perfekt geeignet, um nach Anomalien und Ausreißern jeder Art zu suchen. Überwachtes Lernen funktioniert gut für Empfehlungs-Engines und das Verständnis von Kundenprofilen.

Unterschiedliche Komplexität

Bei der Arbeit mit überwachten Lernprogrammen für die Modellerstellung in ML sind die benötigten Tools recht einfach – oft reichen Programme wie R oder Python aus. Das unüberwachte Lernen erfordert jedoch Rechenleistung, um mit riesigen Mengen an nicht gekennzeichneten Daten arbeiten zu können.

Nachteile von überwachtem und unüberwachtem Lernen

Wie bei jeder Technologie haben sowohl überwachte als auch unüberwachte Lernmodelle ihre Nachteile.

Das Training für überwachtes Lernen kann sehr lange dauern und für das Validieren von Kennzeichnungen ist menschliches Know-hoch erforderlich – sowohl für die Eingaben als auch für die Ergebnisse. Die Arbeit an der Klassifizierung von Big Data stellt beim überwachten Lernen enorme Herausforderungen dar, aber die Ergebnisse sind nach der Kennzeichnung zuverlässig.

Unüberwachtes Lernen führt manchmal zu völlig fehlerhaften Ergebnissen, es sei denn, es gibt ein menschliches Eingreifen zur Validierung der Ergebnisse. Im Gegensatz zu überwachtem Lernen kann unüberwachtes Lernen in Echtzeit an riesigen Datenmengen arbeiten, aber da die Maschine sich selbst lehrt, ist die Transparenz bei der Klassifizierung geringer. Das erhöht die Wahrscheinlichkeit fehlerhafter Ergebnisse.

Auswahl zwischen überwachtem und unüberwachtem Lernen

Wie also kann ein Unternehmen herausfinden, welche Option für die eigenen Bedürfnisse am besten geeignet ist? Die Antwort liegt im genauen Kontext ihrer Anforderungen und in der Art und Weise, wie die Data Scientists, mit denen das Unternehmen zusammenarbeitet, ihre Daten bewerten und organisieren. Wenn ein Unternehmen Datenverarbeitungsstrukturen implementieren will, müssen zuerst folgende Punkte bedacht werden:

  • Sie müssen die Daten untersuchen und beurteilen, ob sie gekennzeichnet oder nicht gekennzeichnet sind.Verfügt das Unternehmen über die Zeit und das interne Fachwissen, um die Validierung und Kennzeichnung vorzunehmen? Ist das Ergebnis überhaupt bekannt?
  • Was sind die Ziele, die das Unternehmen erreichen möchte? Möchten sie ein bestehendes wiederkehrendes Problem lösen oder soll der Algorithmus ein unbekanntes Problem erkennen und lösen?
  • Welche Algorithmus-Optionen gibt es? Verfügt das Unternehmen über Algorithmen mit identischer Dimension, bei denen die Attribute der einzelnen Features bekannt sind und auch, wie viele Features vorhanden sind? Können sie feststellen, ob diese Features die erforderliche Unterstützung für ihr Datenvolumen und seine Struktur bieten werden?

Die Entscheidung, ob man sich für überwachte oder unüberwachte ML-Ansätze entscheidet, ist abhängig vom Kontext und von den grundlegenden Annahmen, die aufgrund der vorliegenden Daten getroffen werden können, sowie von deren endgültiger Anwendung. Die Verwendung beider Möglichkeiten kann sich im Laufe der Zeit ändern, wenn sich die Bedürfnisse des Unternehmens ändern.

Während ein Unternehmen das Training mit unmarkierten Daten beginnen und daher den unüberwachten Ansatz verwenden kann, werden mit der Zeit die richtigen Kennzeichnungen identifiziert und die Maschine kann zum überwachten Lernen wechseln. Dies kann in verschiedenen Phasen der Kennzeichnung geschehen. Allerdings liefert der überwachte Lerndaten-Ansatz möglicherweise nicht die erforderlichen Erkenntnisse und unüberwachtes Lernen kann unbekannte Muster erkennen und tiefere Einblicke in die Geschäftsmechanismen geben.

Erste Schritte mit Machine Learning

Viele Unternehmen nutzen ML einfach nicht in vollem Umfang. Die Alteryx Machine Learning Plattform ist ein leistungsstarkes No-Code/Low-Code Tool, das die Datenverarbeitung automatisiert, um Sie bei der Bereitstellung überwachter und unüberwachter Modelle zu unterstützen. Erstellen Sie einfach und schnell komplexe ML-Modelle, um komplexe Geschäftsprobleme zu lösen. Fangen Sie jetzt an und verwandeln Sie Ihre Big Data in umsetzbare Erkenntnisse und Prognosen.

Nächste Begriff
Feature Engineering