Der Anreiz für Data Analysts oder Data Scientists besteht nicht darin, ungeordnete Daten zu bereinigen. Und doch ist es der Datenbereinigungsprozess, der oft den Großteil der gesamten Analysezeit in Anspruch nimmt – im Durchschnitt 80 Prozent –, während nur 20 Prozent für die Visualisierung und Analyse von Daten, die Erstellung von Machine-Learning-Modellen und andere erweiterte Analysen aufgewendet werden.
Es ist leicht, die letzten 20 Prozent zu verherrlichen oder zumindest die anfängliche Bereinigung ungeordneter Daten als nichts weiter als eine notwendige Hürde zu betrachten, bevor mit der „eigentlichen“ Arbeit begonnen wird. Aber die Bereinigung ungeordneter oder verunreinigter Daten verdient mehr Anerkennung. Sie ist ein entscheidender Teil des umfassenderen Prozesses der Datenvorbereitung, der, wenn er richtig durchgeführt wird, Einblicke in die vorliegenden Daten liefert, die es ermöglichen, bessere Fragen dazu zu stellen. Und sie ist die Grundlage der eigentlichen Analyse. Wir alle haben den Ausdruck „Garbage in, Garbage out“ gehört, aber es ist wichtig, sich daran zu erinnern, was das wirklich bedeutet: Wenn es nicht gelingt, unsaubere Daten angemessen zu bereinigen, wird die letztendliche Analyse fehlerhaft sein, egal welche ausgefallenen Analysetechniken als Nächstes angewendet werden.
Was sind unsaubere Daten?
Nur selten beginnen Data Analysts mit einem neuen Dataset zu arbeiten, ohne es vorher zu bereinigen. Das bedeutet nicht immer, dass das Dataset per se „chaotisch“ ist, aber es entspricht zumindest nicht den erforderlichen Standards für die Analyse. Beispielsweise kann ein ungeordnetes Dataset eine bestimmte Standardisierung enthalten, die korrigiert werden muss – wie etwa, dass „California“ zu „Calif“ abgekürzt wird, obwohl es „CA“ sein sollte. Oder Telefonnummern, die Bindestriche enthalten, obwohl es keine zusätzlichen Satzzeichen geben sollte.
Neben der Standardisierung gibt es noch viele andere Arten von Fehlern, die korrigiert werden müssen, um die Daten zu bereinigen. Zu diesen Fehlern können gehören:
- Fehlende Daten
- Unstrukturierte Daten
- mehrere Variablen in einer Spalte
- Variablen an den falschen Orten gespeichert
- Beobachtungen, die entgegen den Normalisierungsregeln falsch aufgeteilt oder zusammengelassen wurden
- vertauschte Spalten und Zeilen
- zusätzliche Leerzeichen
Jeder dieser Fehler müsste bereinigt und aufbereitet werden, damit die Daten zu wertvollen Erkenntnissen führen.
Datasets können auch aus mehreren Quellen stammen. Obwohl jede Datenquelle für sich genommen gültig sein kann, kann die Zusammenführung der Daten eine Verarbeitung erfordern, um Konsistenz zu erreichen. Beispielsweise kann ein Dataset eine andere Maßeinheit haben als ein anderes, was eine Normalisierung erfordert.
Datenbereinigungstechniken
Das Verständnis von Datenbereinigungstechniken beginnt mit dem Verständnis der verfügbaren Datenbereinigungstools. In der Vergangenheit haben sich Data Analysts entweder auf Tabellenkalkulationstools wie Excel oder Programmiersprachen wie SQL, R oder Python verlassen, je nach Komplexität der zu bereinigenden Daten und/oder ihrer eigenen technischen Kenntnisse. Heutzutage haben Data Analysts auch die Möglichkeit, eine moderne Plattform für die Datenvorbereitung zu nutzen – doch dazu weiter unten mehr.
Ganz gleich, welche Datenbereinigungstechnik oder welches Tool angewendet werden, beginnen Data Analysts die Bereinigung verunreinigter Daten mit Datenparsing, d. h. mit dem Segmentieren der wichtigen Elemente einer Datendatei in ein strukturiertes Format. Dies ermöglicht es Data Analysts, die Daten tatsächlich sinnvoll zu nutzen, anstatt ein Durcheinander von Werten entschlüsseln zu müssen, und sie sind in der Lage, einige der ersten Unterscheidungen und Muster herauszuarbeiten.
Nach dem Parsen der Daten gehen Data Analysts zu spezifischeren Datenbereinigungsaufgaben über. Wie bereits erwähnt, kann dies eine Reihe von Problemen umfassen, und es gibt keine bestimmte Reihenfolge, in der mit der Datenbereinigung begonnen werden soll. Ein Analyst kann damit beginnen, zusätzliche Leerzeichen oder doppelte Daten zu entfernen oder die Daten direkt in neue Zeilen und Spalten zu strukturieren.
Es ist jedoch wichtig zu beachten, dass die Datenbereinigung nicht als einmalige Aufgabe betrachtet werden sollte, sondern als ein iterativer Prozess. Wenn Data Analysts Daten selbst vorbereiten, kommen ihnen oft neue Ideen, wie sie ungeordnete Daten umwandeln können. Und selbst nachdem sie zur Analyse übergegangen sind, kehren sie möglicherweise zurück, um die Daten anders zu transformieren, nachdem sie eine Unregelmäßigkeit oder eine interessante Erkenntnis festgestellt haben.
Was sind die Herausforderungen bei verunreinigten Daten?
Wenn sich Unternehmen in der Vergangenheit über die Bereinigung verunreinigter Daten beschwert haben, betraf dies in der Regel einen der folgenden drei Punkte:
- Es ist zeitaufwendig.
Wie bereits erwähnt, können Data Analysts bis zu 80 % der gesamten Analyse damit verbringen, Daten von verunreinigten in saubere umzuwandeln. Obwohl sie ein wichtiger Teil des Analyseprozesses ist, ist die Datenbereinigung nicht das, wofür Data Analysts eingestellt wurden – und auch nicht das, worin ihr wahrer Wert liegt. Und je mehr Zeit für die Bereinigung von Daten aufgewendet wird, desto mehr Geld kostet es das Unternehmen. - Es ist technisch.
Bei komplexeren Datenprojekten müssen Unternehmen kostspielige Data Scientists oder Data Engineers mit fortgeschrittenen Programmierkenntnissen einstellen – um dann den Großteil ihrer Zeit mit der Bereinigung ungeordneter Daten zu verbringen. Programmiersprachen sind effektiv für den Umgang mit großen, komplexen Daten. Aber sie beschränken die Datenvorbereitung auf eine kleine Gruppe von Personen, was zu einem großen Engpass führt. - Es ist fehleranfällig.
Alles ist fehleranfällig, wenn es nicht von einem zweiten Paar Augen überprüft werden kann. Und das ist häufig sowohl bei Excel als auch bei Programmiersprachen der Fall. Da diese Tools nicht visuell sind, ist es für andere oft schwierig (oder nahezu unmöglich), die mit diesen Tools angewendeten Datenbereinigungstechniken zu überarbeiten oder Verbesserungsvorschläge hinzuzufügen.
Bewältigung ungeordneter Daten mit einer Datenvorbereitungsplattform
Wenn Unternehmen ihre Analysen skalieren möchten, vervielfachen sich die Herausforderungen bei der Arbeit mit unsauberen Daten. Aus diesem Grund haben viele Unternehmen Datenvorbereitungsplattformen wie Alteryx Designer eingeführt, die den Prozess der Bereinigung und Vorbereitung von Daten für Analyst:innen aller Couleur beschleunigen.
So begegnet Designer den Herausforderungen, die mit ungeordneten Daten einhergehen:
- Zeitliche Einschränkungen.
Alteryx Designer bietet eine visuelle Datenaufbereitung, die durch Machine Learning gesteuert wird und den Gesamtprozess um bis zu 90 % beschleunigt. Data Analysts müssen nicht stundenlang Excel-Datasets durchforsten oder Code schreiben, um Daten zu bereinigen. Stattdessen können ein paar Klicks und Wischbewegungen mit Designer die gleichen Ergebnisse erzielen. - Technische Einschränkungen.
Es ist nicht erforderlich, Programmiersprachen zu beherrschen, um die Datenbereinigungstechniken von Designer nutzen zu können – aber es bietet die gleiche Leistung wie ein Programmierer. Massenänderungen an Daten in großem Umfang, das Verständnis der Statistik von Stichprobendaten und komplexe Transformationen sind nur einige der Funktionen, die jede Art von Data Analyst mit Alteryx durchführen kann. - Ungenaue Daten.
Datasets müssen sowohl effektiv als auch effizient vorbereitet werden. Designer erkennt automatisch Fehler, Ausreißer und fehlende Daten, die korrigiert werden müssen, damit Data Analysts nichts entgeht. Darüber hinaus ermöglichen die Machine-Learning-generierten Vorschläge es Data Analysts, die bestmögliche Umwandlung für ihre ungeordneten Daten auszuwählen.
Designer wurde entwickelt, um die Verarbeitung von verunreinigten zu bereinigten Daten effizienter und besser handhabbar zu gestalten. Wenn Data Analysts nun mit einem ungeordneten Dataset konfrontiert sind – und alle Datasets sind in irgendeiner Form ungeordnet –, können sie es ganz einfach in brauchbare Daten für die Analyse umwandeln.