Für viele Unternehmen stellen Daten eine überwältigende Menge an Informationen dar. Es ist ein chaotisches Durcheinander, aus dem man unmöglich einen Nutzen ziehen kann. Mit Feature Engineering können Unternehmen ihre Daten verstehen und in etwas Sinnvolles umwandeln.

Der Begriff Feature Engineering beschreibt den Prozess, Fachwissen auf Daten anzuwenden, indem durch Features generiert werden, die die Daten so transformieren, dass sie leichter zu verstehen und zu interpretieren sind. Es wird in der Regel nach der Datenerfassung und -bereinigung und vor dem Trainieren der Machine-Learning-Modelle durchgeführt.

Feature Engineering ist häufig Teil des ML-Workflows zur Problembehebung:

  1. Daten sammeln
  2. Daten bereinigen
  3. Feature Engineering durchführen
  4. Modell definieren
  5. Modell trainieren
  6. Tests durchführen
  7. Den Output prognostizieren

Die meisten der von künstlicher Intelligenz (KI) verwendeten Informationen sind in Tabellen enthalten. Jede Zeile ist eine Beobachtung und eine Spalte ist ein Feature. Leider sind die Daten oft kompliziert, irrelevant oder sie fehlen oder liegen doppelt vor.

Feature Engineering bietet einen Prozess zur Umwandlung von Daten in ein Format, das das zugrunde liegende Problem besser darstellt. Genauer gesagt macht Feature Engineering die Daten nutzbar, indem sie in Kategorien unterteilt werden, um eine begrenzte Anzahl von Ergebnissen besser widerzuspiegeln oder indem fehlende Werte systematisch durch realistische Schätzwerte ersetzt werden.

Dieser Prozess der Datenumwandlung mit Feature Engineering ist oft genauso sehr eine Kunst wie eine Wissenschaft. Ein Unternehmen möchte zum Beispiel Betrugsfälle vorhersagen. Transaktionsrohdaten mit Zeitstempel könnten in eine KI-Software eingegeben werden, aber die Ausgabe ist möglicherweise nicht aussagekräftig oder verwertbar. Doch ein wenig Fachwissen bringt den Data Scientist weiter. Er erstellt mithilfe seines Fachwissens im Einzelhandel ein neues Feature, das zwischen der Arbeitswoche und Wochenenden unterscheidet, da am Wochenende grundsätzlich mehr Einzelhandelstätigkeiten stattfinden. Sobald dieser Kontext manuell festgelegt wurde, können Modelle Anomalien besser erkennen und produzieren dabei weniger falsch-positive Ergebnisse. Darin liegt die „Kunst“ des Feature Engineering.

Bei richtiger Durchführung erhöht das Feature Engineering die Vorhersagekraft von Machine-Learning (ML)-Algorithmen. Dies wird erreicht, indem aus Rohdaten Features modelliert werden, die den ML-Prozess speisen und vereinfachen. Darin kann der Unterschied zwischen einem guten und einem schlechten Datenmodell liegen.

Weiter aufgeschlüsselt, umfasst der Feature Engineering-Prozess die folgenden Schritte:

  • Brainstormen von neuen möglichen Features für das Modell
  • Erstellung der Features
  • Testen, wie effizient diese Features mit dem Modell arbeiten
  • Anpassung der Features, Wiederholung des Prozesses oder bei Bedarf Ausarbeitung eines neuen Entwurfs
  • Optimale Anpassung der Features an das Modell

Feature Engineering sollte nicht als einmalige Aufgabe betrachtet werden. Es kann während des gesamten Data-Science-Prozesses zur Anwendung kommen, um entweder Daten zu bereinigen oder vorhandene Ergebnisse zu verbessern. Feature Engineering ist ein iterativer Prozess, der mit der Datenauswahl, der Modellauswertung und der erneuten Auswertung verwoben ist. Der Prozess wird so lange fortgesetzt, bis die Daten in einem Format vorliegen, das von ML-Modellen verarbeitet werden kann und es diesen Modellen ermöglicht, umsetzbare Ergebnisse zu liefern.

 

Beispiele für Feature Engineering für Machine Learning

ML-Algorithmen lernen Lösungen für bestimmte Probleme anhand der ihnen vorliegenden Beispieldaten. Feature Engineering hilft Unternehmen dabei, die beste Darstellung ihrer Beispieldaten zu ermöglichen. So kann das Modell die Lösung für verschiedenste konkrete Probleme erlernen.

Beim Feature Engineering sind Darstellung und Beziehungen wichtig. Es gibt vier gängige Engineering-Strategien:

– Resampling unausgewogener Daten
– Erstellung neuer Features
– Verwaltung fehlender Werte
– Erkennung von Ausreißern

Resampling unausgeglichener Daten

In ihrer Rohform sind Daten in der Regel unausgeglichen. In den meisten Fällen lässt sich dies mit Validierungstechniken leicht beheben. Aber manchmal ist die Unausgeglichenheit besonders groß und wirkt sich auf die Ergebnisse aus. Feature Engineering kann dieses Problem durch künstlich in den Minderheitsgruppen erzeugte Stichproben lösen. Diese Stichproben helfen dabei, mit Schwankungen oder Unsicherheiten in den Daten umzugehen.

Erstellen neuer Features

Die Erstellung neuer Funktionen kann einfach darin bestehen, Daten in einem anderen Format wiederzugeben, das dem Kontext der Frage entspricht. Beispielsweise kann ein Unternehmen die Abfahrts- und Ankunftszeiten für Züge zur Verfügung haben und diese in die Gesamtreisedauer umwandeln. Durch die Kombination der Zeitstempel zu einem einzigen neuen Feature kann der Algorithmus den Geschäftsanforderungen gerecht werden und aussagekräftige Ergebnisse liefern.

Benutzende können auch zwei mäßig nützliche Features oder zwei für sich allein genommen nicht nützliche Features kombinieren, um ein für das Machine Learning nützliches Feature zu erstellen. Ein Beispiel hierfür findet man im Gesundheitswesen: Auch wenn eine Vielzahl von Risikofaktoren vorliegt, ergibt sich daraus allein noch keine höhere Wahrscheinlichkeit für ein medizinisches Ereignis. Beispielsweise kann anhand von Alter, Bluthochdruck und Raucherstatus allein betrachtet kein Schlaganfall vorhergesagt werden. In der Kombination aber ist dies möglich.

Bei der Auswahl von Features geht es schlicht darum, diejenigen unabhängigen Features auszuwählen, die am stärksten mit dem abhängigen Feature korrelieren. All diese Aspekte werden kombiniert, um das Prognosemodell zu optimieren. Heatmaps, eindimensionale Auswahl und die ExtraTreesClassifier-Methode sind bewährte Methoden zur Identifizierung der Features, die miteinander zusammenhängen.

Feature Engineering hilft auch bei der Auswahl der zu erstellenden Kategorien, damit der Rechner die relevanten Daten präzise der richtigen Kategorie zuordnen kann. Dazu gehört das Entfernen unerwünschter Features und Verzerrungen, was das Modell insgesamt verbessert.

Umgang mit fehlenden Werten

Fehlende Werte stellen ein häufiges Problem in Daten dar. Es gibt jedoch viele Methoden, um dieses Problem während der Datenbereinigung angemessen zu lösen.

Es gibt zudem einige fortschrittliche Engineering-Techniken, die die vorhandenen Daten verwenden können, um fehlende Werte exakt nachzubilden und das Dataset so zu vervollständigen. So wird sichergestellt, dass die Daten in einem Format vorliegen, das für die Modelle besser nutzbar ist.

Eine Methode ist die Datenlöschung. Mit dieser Methode können Feature Engineers Stichproben, bei denen Werte fehlen, entfernen. Dies funktioniert am besten, wenn nur wenige Stichproben unvollständig sind. Je mehr fehlende Werte ein Dataset enthält, desto problematischer wird diese Methode.

Eine andere Methode ist es, fehlende Daten durch eine Variable des Mittelwerts oder Medians zu ersetzen. Dieser Ansatz löst zwar das Problem fehlender Daten, kann aber die Ergebnisse verfälschen. Wenn die Daten eine Normalverteilung aufweisen, können die fehlenden Ergebnisse so bestimmt werden (durch ein Modell innerhalb eines Modells), dass auch sie der Normalverteilung entsprechen.

Dies sind die beiden Hauptmethoden. Es gibt zwar weitere Methoden, die zur Verwaltung fehlender Werte verwendet werden können, aber der generelle Ansatz besteht darin, Daten zu entfernen oder Schätzwerte einzugeben.

Erkennen von Ausreißern

Die Ausreißererkennung ist ein weiterer Prozess, der auf der Grenze zwischen Datenbereinigung und Engineering angesiedelt ist. Bei der Datenbereinigung kann KI die Ausreißer einfach entfernen, was unterstellt, dass es sich um Fehler oder eine für die Daten nicht relevante Stichprobe handelt. Das ist jedoch eine ungenaue Methode, bei der wichtige Informationen unterschlagen werden könnten.

Im Bereich Data Science sind die wichtigsten Faktoren, die die Leistungsfähigkeit eines Modells beeinflussen, die Handhabung und die Verarbeitung von Daten. Ein Modell ohne angemessene Datenhandhabung führt zu einer Genauigkeit von ca. 70 %. Wenn Feature Engineering auf dasselbe Modell angewendet wird, kann sich die Leistung erheblich verbessern.

Für Feature Engineering ist jedoch ein gutes Verständnis der Daten notwendig, da Data Scientists damit Schwellenwerte festlegen können, bei denen die Daten noch logisch sind. Ein Unternehmen hat zum Beispiel einen Kunden, der 100 Jahre, aber sicherlich nicht 1.000 Jahre alt ist. Ein Rechner ignoriert möglicherweise beide Datenpunkte, während man als Data Scientist weiß, dass die zusätzliche Null wahrscheinlich ein Eingabefehler ist.

Dieser Teil des Feature-Engineering-Prozesses kann langwierig und frustrierend sein. Die Fähigkeiten und Fachkenntnisse eines Data Scientists sind hierfür unverzichtbar. Aus diesem Grund ist Feature Engineering im Bereich Machine Learning für manche eine regelrechte Kunstform.

Vorteile von Feature Engineering

Sprichwörtlich sind KI- und ML-Modelle nur so gut wie die Daten, mit denen sie trainiert werden. Durch das Einbeziehen von Feature Engineering in den Modellierungsprozess wird sichergestellt, dass die hochwertigen und relevanten Daten, mit denen die Modelle trainiert werden, zur Lösung realer Probleme beitragen. Es gibt jedoch zwei wichtige Aspekte, die Sie beim weiteren Vorgehen beachten sollten:

  • Richtiges Framing des Problems: sinnvolle objektive Maße wählen, um die Genauigkeit des Outputs abschätzen zu können
  • Interdependenzen innerhalb des Modells: die inhärenten, zugrunde liegenden Strukturen in den Daten des Unternehmens. Eine gute Struktur führt immer zu deutlich besseren Ergebnissen.

Wenn diese Aspekte bei der Auswahl oder Erstellung von Features berücksichtigt werden, kommen die folgenden Vorteile von Feature Engineering zum Tragen:

  • mehr Flexibilität und weniger Komplexität in den Modellen
  • schnellere Verarbeitung
  • klare, leicht verständliche Modelle
  • einfachere Modelle, die leichter zu warten sind
  • ein besseres Verständnis des zugrunde liegenden Problems
  • bessere Darstellung aller verfügbaren Daten, die bei der Charakterisierung des zugrunde liegenden Problems hilfreich sind

Herausforderungen beim Feature Engineering

Daten sind oft unstrukturiert und unordentlich, enthalten Ausreißer oder Redundanzen oder sind unvollständig. Da Daten aus mehreren Quellen stammen, gibt es redundante und doppelte Daten. Weil Daten der Ausgangspunkt für ML sind, ergeben sich für das Feature Engineering folgende Herausforderungen:

  • Enorme Datenmengen aus mehreren Quellen, die bereinigt, aggregiert und analysiert werden müssen
  • Daten müssen in einer erkennbaren Struktur organisiert werden, mit der Modelle und Tools arbeiten können
  • Geschäftskontext und Prozesse müssen verstanden werden, um Muster zu erkennen und die Analyse zu erleichtern
  • Gewonnene Erkenntnisse müssen für das Unternehmen relevant und nutzbar sein
  • Daten sollten so dargestellt werden, dass sie leicht verständlich sind, z. B. in Dashboards oder Diagrammen
  • Aktualität kann ein Problem sein, da die Auswertung mitunter so lange dauert, dass die Ergebnisse nicht mehr anwendbar sind
  • Prozesse sind arbeitsintensiv und müssen oft von einem/einer Data Scientist durchgeführt werden

Die Zukunft von Feature Engineering

Moderne Technologien verbessern die Leistungsfähigkeit von Feature Engineering. Deep Learning als Teilbereich von ML verändert den Prozess zunehmend. Autoencoder und eingeschränkte Boltzmann-Maschinen sind vielversprechend: Sie lernen Darstellungen von abstrakten Features automatisch.

Je mehr Computer wie Menschen „denken“, desto hilfreicher wird das Feature Engineering. Dadurch, dass stark manuelle Aufgaben nicht mehr von Data Scientists, sondern von Rechnern ausgeführt werden, entfallen Kosten- und Zeitbeschränkungen. Das bedeutet, dass Datenformen wie Bilder, Videos, Objekte und Sprache, die von herkömmlicher KI, die sich auf Tabellen stützt, nicht ohne Weiteres verstanden werden, bald von Maschinen genau interpretiert werden können.

Neue ML-Modelle zeichnen sich durch zunehmend menschenähnliche Denkprozesse, eine bessere Feature-Analyse und eine höhere Modellgenauigkeit aus.

Aktuell ist dieser Bereich aber noch auf Data Scientists angewiesen. Die beste Interpretation von Daten erfordert nicht nur Kenntnisse aus dem Bereich Data Science, sondern auch Branchen- oder Fachwissen. Dieser Teilbereich der KI gehört daher zu einem Spezialgebiet. Die Dateninterpretation ist für Unternehmen, die genaue Prognosen wünschen, von entscheidender Bedeutung. Feature Engineering ist die beste Möglichkeit, sinnvolle Ergebnisse zu erhalten.

Benötigt Ihr Unternehmen genauere Prognosen?

Das Machine-Learning-Paket von Alteryx umfasst Deep Feature Synthesis. Sie hilft bei der Erstellung genauerer Modelle, indem sie Beziehungen innerhalb Ihrer Daten versteht und qualitativ hochwertige Features erkennt.

Diese Algorithmen sind optimal für Unternehmen, die genaue Modelle und Prognosen benötigen, und ermöglichen bessere Erklärungen, Entscheidungsfindung und Zukunftspläne.

Nächste Begriff
AutoML