Weißes Muster

Data Wrangling

Weißes Muster
Content

Was Ist Data Wrangling?

Unternehmen haben mit großen Mengen an Rohdaten zu tun und die Vorbereitung dieser Daten für die Analyse kann zeit- und kostenaufwendig sein. Wrangling verringert diese Belastung durch Umwandlung, Bereinigung und Anreicherung von Daten, um sie anwendbarer, brauchbarer und praktischer zu machen. Im Gegensatz zur Vorverarbeitung oder Vorbereitung von Daten erfolgt das Wrangling während der Analyse- und Modellerstellungs- Phasen des Datenanalyseprozesses.

Data Wrangling verbessert die Qualität der analysierten Daten. Das bedeutet, dass Unternehmen keine Zeit und Ressourcen zu verschwenden brauchen, um sich mit den Konsequenzen von schlechten Daten zu befassen. Stattdessen können sie genaue, aussagekräftige Analysen erstellen, die bessere Lösungen, Entscheidungen und Ergebnisse ermöglichen.

So funktioniert Data Wrangling

Der Data-Wrangling-Prozess

Data Wrangling erfolgt in fünf Hauptschritten: Erkunden, Umwandeln, Bereinigen, Anreichern und Speichern.

Erkunden: Die Datenexploration oder -erkundung ist eine Möglichkeit zur Identifikation von Mustern, Trends und fehlenden oder unvollständigen Informationen in einem Dataset. Der größte Teil der Erkundung findet vor der Erstellung von Berichten, Datenvisualisierungen oder dem Training von Modellen statt, aber es ist durchaus üblich, auch während der Analyse auf Überraschungen und Erkenntnisse in einem Dataset zu stoßen.
Erkunden


Umwandlung: Die Umwandlung oder Strukturierung von Daten ist wichtig; wenn sie nicht frühzeitig durchgeführt wird, kann sie den Rest des Wrangling-Prozesses gefährden. Bei der Datentransformation müssen die Daten in die richtige Form und in das richtige Format gebracht werden, damit sie für einen Bericht, eine Datenvisualisierung oder einen Analyse- oder Modellierungsprozess verwendet werden können. Dazu kann es gehören, neue Variablen (auch Features genannt) zu erstellen und mathematische Funktionen auf die Daten anzuwenden.
Data-Wrangling-umwandeln


Bereinigen: Daten enthalten häufig Fehler, die auf eine manuelle Eingabe, unvollständige Daten, automatisch von Sensoren erfasste Daten oder sogar auf Fehlfunktionen von Geräten zurückzuführen sind. Die Datenbereinigung korrigiert diese Eingabefehler, entfernt Duplikate und Ausreißer (falls zutreffend), eliminiert fehlende Daten und errechnet fehlende Werte auf der Grundlage statistischer oder bedingter Modellierung, um die Datenqualität zu verbessern.
Data-Wrangling-bereinigen


Anreichern: Anreichern oder Zusammenführen macht ein Dataset nützlicher, indem zusätzliche Quellen wie zuverlässige Daten von Drittanbietern, firmografische oder demografische Daten integriert werden. Der Anreicherungsprozess kann auch dabei helfen, zusätzliche Erkenntnisse aus den Daten innerhalb eines Unternehmens zu gewinnen oder neue Ideen für die zukünftige Erfassung und Speicherung zusätzlicher Kundeninformationen zu entwickeln. Dies gibt Gelegenheit dazu, strategisch darüber nachzudenken, welche zusätzlichen Daten zu einem Bericht, Modell oder Geschäftsprozess beitragen können.
Data-Wrangling-anreichern


Speichern: Der letzte Teil des Data Wrangling besteht darin, das Endprodukt zusammen mit allen Schritten und Umwandlungen, die durchgeführt wurden, zu speichern oder zu erhalten, damit es in Zukunft geprüft, verstanden und wiederholt werden kann.
Data-Wrangling-speichern

Die Zukunft des Data Wrangling

Früher wurde Data Wrangling von Entwicklerinnen und Entwicklern, IT-Experten und -Expertinnen mit umfangreichen Kenntnissen in der Datenbankverwaltung sowie SQL, R und Python gehandhabt. Analytic Process Automation hat das geändert, weil es umständliche Tabellenkalkulationen überflüssig gemacht hat. Daher haben es Data Scientists, Data Analysts, IT-Expertinnen und -Experten gleichermaßen einfacher, komplexe Daten zu verarbeiten und zu analysieren.

Erste Schritte mit Data Wrangling

Die Alteryx Analytic Process Automation Plattform™ verwendet eine grafische Benutzeroberfläche, sodass wichtige Daten einfach dokumentiert, geteilt und skaliert werden können. Data Wrangling funktioniert auf eine Art und Weise, die prüfbar und wiederholbar ist. No-Code-/Low-Code-Modi ermöglichen es Benutzenden, entweder per Drag & Drop zu arbeiten oder eine Programmierzeile nach der anderen in Angriff zu nehmen. Benutzende können ihre Arbeit auch in Formaten speichern, die einer Tabellenkalkulationsdatei ähneln, oder als Teil eines größeren Datenmodells auf einer gemeinsamen Plattform.

Tools zum Data Wrangling sind in jeden Schritt der Alteryx Analytic Process Automation Plattform integriert und bieten:
  • Transformations-Tools, einschließlich Anordnen, Zusammenfassen und Umstellen
  • Vorbereitungs- und Bereinigungs-Tools, wie Formulieren, Filtern und Bereinigen
  • Datenanreicherungs-Tools, einschließlich Location Insights, Business Insights und Verhaltensanalyse
Bericht
Bericht

Thomson Reuters Report: The 2022 State of the Corporate Tax Department

Die Technologie, die zur Erfüllung der wachsenden Anforderungen der digitalen Wirtschaft benötigt wird, stellt Steuerabteilungen von Unternehmen gleichzeitig vor mehrere Herausforderungen.

Finanzen
Thomson Reuters
Jetzt lesen
Abstraktes Bild
Kundenreferenz
5 Min. Lesezeit

Neustrukturierung mehrjähriger Mitarbeiteransprüche mit Alteryx

Grant Thornton erkannte den Bedarf an Services zur Sicherstellung der Gehaltsabrechnung und kreierte ein flexibles, skalierbares und kosteneffizientes Modell, um Arbeitnehmeransprüche exakt zu berechnen.

Finanzen
Personalwesen
Asien-Pazifik-Raum
Jetzt lesen
Geldscheine
Blog
5 Min. Lesezeit

SoFi Bank optimiert Liquiditätsprognose

Benötigen Sie Hilfe bei der Liquiditätsprognose? Lesen Sie, wie die SoFi Bank ihren Prozess optimiert hat.

Finanzen
Analyse-Expertin/Experte
Führungskraft
Jetzt lesen

Starter-Kit für die Datenzusammenführung

Beschleunigen Sie Ihren Weg zur Beherrschung von Datenzusammenführung und zur Automatisierung sich wiederholender Workflow-Prozesse, die Daten aus verschiedenen Quellen zusammenführen.
Bild