Weißes Muster

Datenexploration

Weißes Muster
Content

Was ist Datenexploration?

Die Exploration ist einer der ersten Schritte bei der Datenvorbereitung und ermöglicht es, Daten kennenzulernen, bevor man mit ihnen arbeitet. Durch Prüfungen und Untersuchungen werden große Datasets für tiefere, strukturiertere Analysen vorbereitet. Bei der explorativen Datenanalyse (Exploratory Data Analysis, EDA) wird ähnlich vorgegangen, es kommen jedoch statistische Grafiken und andere Datenvisualisierungsmethoden zum Einsatz.‍

Warum ist Datenexploration wichtig?

Eine Exploration ermöglicht einen besseren Überblick über ein Dataset und erleichtert dadurch die Handhabung und spätere Verwendung der Daten. Je besser Analysten bzw. Analystinnen die Daten kennen, mit denen sie arbeiten, desto besser ist auch die Analyse. Eine erfolgreiche Exploration beginnt mit einer unvoreingenommenen Herangehensweise und hat das Ziel, Ansatzpunkte für relevante Zusammenhänge zu finden und Frage- und Problemstellungen für nachfolgende Analysen zu ermitteln und zu präzisieren.

So funktioniert die Datenexploration

Daten ohne zugehörige Fragestellung sind einfach nur Informationen. Werden Daten mit einer Fragestellung analysiert, erhält man Antworten. Werden dann noch die richtigen Fragen gestellt und wird eine zielführende Exploration durchgeführt, kann dies zu einem umfassenderen Verständnis von zugrundeliegenden Mustern führen und sogar prädiktive (also vorausschauende) Aussagen ermöglichen.

Die bei Explorationen gebräuchlichsten Sprachen sind R und Python. Dabei eignet sich R besonders gut für statistisches Lernen, Python für Machine Learning. Wird eine No-Code-Plattform genutzt, ist für die Datenexploration keine Programmierung erforderlich.

Auch bei der Arbeit mit geografischen Informationssystemen (GIS) gewinnt die Exploration zunehmend an Bedeutung, da viele Daten inzwischen auch Standortinformationen enthalten.

Eine Datenexploration erfolgt in der Regel in drei Schritten:


Datenexplorationsprozess

Variablen verstehen: Voraussetzung für jede Datenanalyse ist ein Verständnis der enthaltenen Variablen. Hierzu bietet es sich an, zunächst die Bezeichnungen der Spalten zu überfliegen. Eine genauere Betrachtung der Datenkataloge, Feldbeschreibungen und Metadaten erlaubt einen Einblick in die Bedeutung der einzelnen Felder und hilft dabei, fehlende oder unvollständige Daten zu ermitteln.

Datenexploration – Variablen verstehen

Ausreißer erkennen: Ausreißer oder Anomalien können eine Analyse unbrauchbar machen und das Dataset verzerren – daher ist es wichtig, sie frühzeitig zu identifizieren. Eine Datenvisualisierung, numerische Methoden, Interquartilbereiche und Hypothesentests sind dabei die gängigsten Methoden zur Erkennung von Ausreißern. Kastengrafiken, Histogramme oder Streudiagramme ermöglichen es zum Beispiel, Datenpunkte weit außerhalb des Standardbereichs zu erkennen, eine Z-Bewertung zeigt an, wie weit diese vom Mittelwert entfernt sind. Wurde eine Anomalie gefunden, können Analystinnen bzw. Analysten entscheiden, ob der Ausreißer untersucht, angepasst, gelöscht oder ignoriert werden soll. Die Entscheidung sollte in jedem Fall in der Analyse festgehalten werden.

Datenexploration – Ausreißer erkennen

Muster und Beziehungen untersuchen: Wird ein Dataset auf verschiedene Arten dargestellt, lassen sich Muster und Beziehungen zwischen Variablen einfacher erkennen und untersuchen. Einem Unternehmen, das Daten aus mehreren Filialen untersucht, liegen möglicherweise Informationen zu Standort, Bevölkerung, Temperatur und Pro-Kopf-Einkommen vor. Um die Umsätze für einen neuen Standort einzuschätzen, muss entschieden werden, welche Variablen in das Prognosemodell einbezogen werden sollen.

Datenexploration – Beziehungen untersuchen

Die Zukunft der Datenexploration

Bisher wurden Analysen so gut wie ausschließlich von Spezialisten und Spezialistinnen übernommen, da Programmierkenntnisse erforderlich waren, um Daten zu extrahieren und zu untersuchen. Das ist inzwischen anders. Dank Analytic Process Automation sind Analysen heute für jede Person zugänglich. Das ermöglicht es Unternehmen, ihre wichtigsten Ressourcen besser einzusetzen: Daten und Beschäftigte. Analytic Process Automation sorgt dafür, dass Mitarbeitende den Fokus darauf legen können, nach Beziehungen und Mustern Ausschau zu halten, anstatt Daten mühsam aufbereiten zu müssen.

Erste Schritte bei der Datenexploration

Mithilfe von Technologie ist der Prozess, der zuvor typischerweise zeitaufwendig und kompliziert war, nun in optimierter, leicht zugänglicher und prüfbarer Form verfügbar. Die Alteryx Analytic Process Automation Platform™ wurde für End-to-End-Analysen entwickelt und ermöglicht es Unternehmen, Daten schnell zu aggregieren, Trends und Muster zu erkennen, Variablen zu verstehen, Ausreißer zu erkennen und Beziehungen innerhalb eines Datasets in einer No-Code-Plattform zu untersuchen.

Bericht
Bericht

Thomson Reuters Report: The 2022 State of the Corporate Tax Department

Die Technologie, die zur Erfüllung der wachsenden Anforderungen der digitalen Wirtschaft benötigt wird, stellt Steuerabteilungen von Unternehmen gleichzeitig vor mehrere Herausforderungen.

Finanzen
Thomson Reuters
Jetzt lesen
Abstraktes Bild
Kundenreferenz
5 Min. Lesezeit

Neustrukturierung mehrjähriger Mitarbeiteransprüche mit Alteryx

Grant Thornton erkannte den Bedarf an Services zur Sicherstellung der Gehaltsabrechnung und kreierte ein flexibles, skalierbares und kosteneffizientes Modell, um Arbeitnehmeransprüche exakt zu berechnen.

Finanzen
Personalwesen
Asien-Pazifik-Raum
Jetzt lesen
Geldscheine
Blog
5 Min. Lesezeit

SoFi Bank optimiert Liquiditätsprognose

Benötigen Sie Hilfe bei der Liquiditätsprognose? Lesen Sie, wie die SoFi Bank ihren Prozess optimiert hat.

Finanzen
Analyse-Expertin/Experte
Führungskraft
Jetzt lesen

Starter-Kit für die Intelligence Suite

Dieses Starter-Kit bietet Analysevorlagen, um Ihnen den Weg zu erweiterten No-Code-Analysen mithilfe von Assisted Modeling zu ebnen, der angeleiteten Erstellung von Machine Learning-Modellen.
Bild