E-Book

6 Schritte zu einer absolut sicheren Datenvorbereitungsstrategie

Von Exploration bis Aufbereitung – bereiten Sie sich den Weg für bessere Erkenntnisse

„Pro Jahr werden sechs Milliarden Stunden mit Tabellenkalkulationen verbracht. Pro Woche werden 26 Stunden mit Tabellenkalkulationen verschwendet. 8 Stunden pro Woche werden für die Wiederholung der gleichen Datenaufgaben aufgewendet.“
– The State of Self-Service Data Preparation and Analysis Using Spreadsheets, IDC

Sie suchen nach einer intelligenten Methode zur Datenvorbereitung?

In den meisten Unternehmen ist die Datenvorbereitung eine zeitintensive und sich wiederholende Aufgabe. Die Analyse kommt dabei zu kurz. Es gibt jedoch eine Möglichkeit, schneller zu besseren Erkenntnissen zu gelangen.

Wir erklären den Prozess Schritt für Schritt.

 

Voraussetzungen für Erfolg schaffen: Die Bedeutung der Datenvorbereitung

Was ist so spannend an Datenvorbereitung?

Das Entscheidende ist, dass ohne Datenvorbereitung kein Erfolg möglich ist. Und das ist nicht übertrieben. Datenvorbereitung ist vielleicht nicht gerade die spannendste Aufgabe. Aber sie ist das strukturelle Fundament einer guten Geschäftsanalyse. Wenn Sie Ihre Rohdaten nicht richtig bereinigen, validieren und konsolidieren, werden Sie keine aussagekräftigen Antworten erhalten.

69 % der Unternehmen geben an, dass sie noch nicht datengestützt arbeiten.

— Big Data and AI Executive Survey, NewVantage Partners, 2019.

Doch in typischen Unternehmen enden Daten in Silos, in denen sie ihr Potenzial nicht entfalten können, sowie in Tabellenkalkulationen, wo sie von Hand bearbeitet werden. Silos und manuelle Aufbereitungsprozesse sind wie ein kilometerlanger Hindernisparcours, der zwischen Ihnen und den Erkenntnissen liegt, die Ihr Geschäft voranbringen sollen.

Wenn Ihr Unternehmen mit einer solchen Verzögerung zu kämpfen hat, befinden Sie sich in guter Gesellschaft: 69 % der Unternehmen geben an, dass sie noch nicht datenorientiert arbeiten – aber mit anderen Leuten auf einem sinkenden Schiff zu sitzen, macht das Ertrinken nicht angenehmer.

Je mehr Daten Sie erfassen und je komplexer diese werden, desto stärker machen sich diese Probleme bemerkbar. Sie benötigen also bessere Lösungen. Wie wäre es, mit jedem beliebigen Datenformat arbeiten zu können, das Ihnen in den Sinn kommt? Wie wäre es, wenn Sie einige dieser Prozesse automatisieren und sie schnell, transparent und wiederholbar machen könnten?

Das wäre wahrscheinlich ein großer Fortschritt.

Datenvorbereitung 101: Die Grundlagen verstehen

So sieht eine gute Strategie zur Datenvorbereitung aus.

Bevor wir uns mit den Lösungen befassen, lassen Sie uns zunächst einen genaueren Blick darauf werfen, welche Schritte Sie bei der Datenvorbereitung einplanen sollten.

Ein erfolgreicher Ansatz zur Datenvorbereitung umfasst die folgenden Funktionen:

Datenexploration

Finden Sie heraus, welche Überraschungen das Dataset bereithält.

Datenbereinigung

Eliminieren Sie Duplikate, Fehler und Irrelevanzen, die die Ergebnisse verunreinigen.

Datenzusammenführung

Verknüpfen Sie mehrere Datasets und entdecken Sie neue Wahrheiten.

Datenprofilierung

Erkennen Sie minderwertige Daten, ehe diese Ihre Ergebnisse verfälschen.

ETL (Extract – Transform – Load/Entpacken, Umwandeln, Laden)

Aggregieren Sie Daten aus verschiedenen Quellen.

Datenaufbereitung

Machen Sie Daten für Ihre Analysemodelle nutzbar.

Im Idealfall dokumentieren Sie bei diesen Aktivitäten sowohl Ihre Daten als auch Ihren Prozess, damit Fehler sich nicht ständig wiederholen und damit andere Ihre Ergebnisse reproduzieren können.

Transparenz und Reproduzierbarkeit sind der heilige Gral der Datenvorbereitung. Aber das erreichen Sie nicht in einem System, das auf Tabellenkalkulation basiert.

Datenvorbereitung 101: Datenexploration

Es herrscht Chaos da drin

Bevor Sie sich intensiv mit einem neuen Dataset befassen, empfiehlt es sich, beherzt in das Rohmaterial einzusteigen und es ein wenig zu erkunden. Auch wenn Sie vielleicht mit einer Vorstellung davon beginnen, wonach Sie suchen, oder einer Frage, die Sie gerne beantwortet sehen möchten, ist es am besten, unvoreingenommen zu bleiben und die Daten für sich sprechen zu lassen.

Früher erforderte die Datenexploration Programmierkenntnisse von IT-Fachkräften, was gewissermaßen eine verschlossene Tür zwischen Rohdaten und den Menschen darstellte, die sie analysierten. Doch dank der Verwendung automatisierter Tools während des gesamten Datenvorbereitungsprozesses können Data Analysts und geschäftliche Benutzer:innen nun selbst direkt in ein Dataset eintauchen und untersuchen, was sich darin befindet.

Im Folgenden finden Sie einige Techniken zur Datenexploration, die Ihnen zu umfassenden Erkenntnissen verhelfen können:

  • Überprüfen Sie Spaltennamen und Feldbeschreibungen, um zu sehen, ob Ihnen Anomalien auffallen oder ob Informationen fehlen oder unvollständig sind.
  • Führen Sie eine Kontrolle durch, um zu sehen, ob Ihre Variablen integer sind: Wie viele einmalige Werte enthalten sie? Welche Bereiche und Modi sind vorhanden?
  • Halten Sie Ausschau nach ungewöhnlichen Datenpunkten, die Ihre Ergebnisse verzerren können. Sie können visuelle Methoden verwenden – wie Box-Plots, Histogramme oder Streudiagramme – oder numerische Ansätze wie Z-Bewertungen.
  • Prüfen Sie Ausreißer genau. Sollten Sie ihnen nachgehen, sie anpassen, auslassen oder ignorieren?
  • Untersuchen Sie Muster und Beziehungen auf statistische Signifikanz.

Datenvorbereitung 101: Datenbereinigung

Video ansehen

Sagen Sie einfach Nein zu verunreinigten Daten

Ihre Analyse ist nur so gut wie die Daten, auf denen sie basiert. Deshalb haben fehlerhafte und inkonsistente Daten einen hohen Preis: Studien zeigen, dass verunreinigte Daten den Jahresumsatz eines Unternehmens um Millionenbeträge schmälern können.

Um derartige katastrophale Verluste zu vermeiden, müssen Sie Ihr Dataset bereinigen, bis er glänzt. Als Analyst wissen Sie das nur zu gut, denn wahrscheinlich verbringen Sie den größten Teil Ihrer Arbeitswoche damit.

All diese Prozesse können manuell durchgeführt werden, was jedoch einen erheblichen Teil Ihrer Zeit in Anspruch nimmt. Automatisierte Datenbereinigung-Tools hingegen können den Großteil dieser Arbeit mit nur wenigen Mausklicks erledigen.

 

Abhängig von der Art der Analyse, die Sie durchführen, müssen Sie in der Bereinigungsphase sechs Dinge erledigen:

  • Entsorgen Sie alle doppelten Datensätze, die Ihren Serverplatz belegen und Ihre Analyse verzerren.
  • Entfernen Sie alle Zeilen oder Spalten, die für das zu lösende Problem nicht relevant sind.
  • Ermitteln Sie fehlende oder unvollständige Informationen und eliminieren Sie sie gegebenenfalls.
  • Beseitigen Sie alle unerwünschten Ausreißer, die Sie bei der Datenexploration entdeckt haben.
  • Korrigieren Sie strukturelle Fehler – Typografie, Groß- und Kleinschreibung, Abkürzungen, Formatierung, zusätzliche Zeichen.
  • Überprüfen Sie, ob Ihre Arbeit korrekt, vollständig und konsistent ist, und dokumentieren Sie alle von Ihnen verwendeten Tools und Techniken.

Datenvorbereitung 101: Datenzusammenführung

Video ansehen

Zwei(hundert) Datasets sind besser als eines

Je mehr hochwertige Quellen Sie in Ihre Analyse einbeziehen, desto tiefer und umfassender sind Ihre Erkenntnisse. In der Regel benötigen Sie für ein Projekt sechs oder mehr Datenquellen – sowohl interne als auch externe – und erfordern Tools für die Datenzusammenführung, um diese nahtlos miteinander zu verbinden.

Der Moment vor der Zusammenführung ist so ähnlich wie der Blick über den Rand einer Klippe. Was, wenn Sie ein neues Dataset einführen, dieses eine Lawine von Kompatibilitätsproblemen auslöst und Sie den Schaden nicht mehr rückgängig machen können? Manchmal macht es die Komplexität der Arbeit schwer, sich auf die Ergebnisse zu verlassen. Es ist immer besser, eine Lösung zu haben, die es Ihnen erlaubt, zu dem Punkt zurückzugehen, an dem Sie Änderungen vorgenommen haben.

Die Datenzusammenführung umfasst in der Regel drei Schritte:

  • Erfassen und vorbereiten. Wenn Sie moderne Daten-Tools verwenden, anstatt zu versuchen, Dateien an eine Tabellenkalkulation anzupassen, können Sie fast jeden Dateityp oder jede Struktur einbeziehen, die mit dem zu lösenden Geschäftsproblem zusammenhängt, und alle Datasets schnell in eine gemeinsame Struktur umwandeln. Denken Sie an Dateien und Dokumente, Cloud-Plattformen, PDFs, Textdateien, RPA-Bots und Anwendungsressourcen wie ERP, CRM, ITSM und vieles mehr.
  • Zusammenführen. In Tabellenkalkulationen können Sie nur Ihre VLOOKUP-Muskeln spielen lassen. (Die ermüden jedoch, oder?) Wenn Sie stattdessen Self-Service Analytics verwenden, ist dieser Prozess einfach per Drag & Drop möglich.
  • Validieren. Um die Ergebnisse auf Konsistenz zu prüfen, ist es wichtig, alle nicht übereinstimmenden Datensätze zu untersuchen. So können Sie feststellen, ob weitere Bereinigungs- oder andere Vorbereitungsaufgaben erforderlich sind.

Datenvorbereitung 101: Datenprofilierung

Nicht alle Daten werden berücksichtigt

Datenprofilierung ähnelt in vielem der Datenexploration, hat jedoch einen stärkeren Fokus. Datenexploration ist eine offene Abfrage, die in einem neuen Dataset durchgeführt wird. Datenprofilierung bedeutet, dass ein Dataset speziell auf seine Relevanz für ein bestimmtes Projekt oder eine bestimmte Anwendung untersucht wird. Die Profilierung entscheidet darüber, ob ein Dataset überhaupt verwendet werden soll – eine wichtige Entscheidung, die für Ihr Unternehmen schwerwiegende finanzielle Folgen haben kann.

Datenprofilierung kann komplex und zeitaufwendig sein. Damit ein Endbenutzer im Unternehmen dies ohne die Hilfe eines Spezialisten ordnungsgemäß durchführen kann, ist eine Datenprofilierungs-Software ein Muss.

Es gibt drei Haupttechniken zur Datenprofilierung, die in dieser Reihenfolge ausgeführt werden:

  • Strukturprofilierung. Wie groß ist das Dataset und welche Arten von Daten enthält es? Ist die Formatierung konsistent, korrekt und mit dem endgültigen Ziel kompatibel?
  • Profilerstellung für Inhalte Welche Informationen enthalten die Daten? Gibt es Lücken oder Fehler? In dieser Phase führen Sie zusammenfassende Statistiken zu numerischen Feldern aus, prüfen auf Nullwerte, fehlende und einmalige Werte und suchen nach systembedingten Fehlern bei Rechtschreibung, Abkürzungen oder IDs.
  • Beziehungsprofilierung. Gibt es Stellen, an denen Daten überlappen oder falsch ausgerichtet sind? Welche Verbindungen bestehen zwischen Dateneinheiten? Beispiele hierfür sind Formeln, die Zellen verbinden, oder Tabellen, die regelmäßig Informationen aus externen Quellen erfassen. Identifizieren und beschreiben Sie alle Beziehungen und stellen Sie sicher, dass Sie diese beibehalten, wenn Sie die Daten an einen neuen Zielort verschieben.

Datenvorbereitung 101: ETL (Extrahieren, transformieren, laden)

Behalten Sie den Überblick über Ihre Daten

In Anbetracht des enormen Volumens und der Komplexität der Ihnen zur Verfügung stehenden Datenquellen ist es unvermeidlich, dass Sie diese extrahieren, integrieren und an einem zentralen Ort speichern, der es Ihnen ermöglicht, sie für Analysen abzurufen, wann immer Sie sie benötigen.

Dieser Prozess wird als ETL bezeichnet. Die Abkürzung steht für „Extract, Transform, Load“ (Entpacken, Umwandeln, Laden) und ist das Herzstück einer modernen Datenstrategie. ETL kann Ihnen auch dabei helfen, Daten während einer Veränderung zu migrieren – zum Beispiel bei einem Upgrade auf ein neues System oder bei einer Fusion mit einem anderen Unternehmen.

Dabei geht es darum, alle Daten zu integrieren und sie für mehr Menschen zugänglich zu machen, anstatt die Silos zu replizieren, in denen sie bisher untergebracht waren. Vorausschauende Unternehmen betrachten ETL als eine Möglichkeit, Data Analysts, Data Scientists, Fach- und Führungskräften die Möglichkeit zu geben, Entscheidungen auf der Grundlage desselben Regelwerks zu treffen.

Die drei Schritte im Überblick:

  • Entpacken. Ziehen Sie alle Daten – strukturiert oder unstrukturiert, aus einer oder vielen Quellen – und validieren Sie deren Qualität. (Seien Sie besonders gründlich, wenn Sie Daten aus Altsystemen oder externen Quellen abrufen.)
  • Umwandeln. An dieser Stelle nehmen Sie eine Tiefenreinigung vor und stellen sicher, dass Ihre Formatierung den technischen Anforderungen für Ihren Zielort entspricht.
  • Laden.Schreiben Sie die umgewandelten Daten an ihren Speicherort – in der Regel ein Data Warehouse. Führen Sie dann eine Stichprobe durch und prüfen Sie, ob Datenqualitätsfehler vorliegen.

Data Prep 101: Data Wrangling

Bereiten wir schon auf?

Der englische Begriff „Data Wrangling“ wird oft im Sinne von „Datenvorbereitung“ verwendet, bezieht sich aber eigentlich auf die Aufbereitung, die während des Prozesses der Analyse und der Erstellung von Prognosemodellen stattfindet. Selbst wenn Sie Ihre Daten von Anfang an gut vorbereitet haben, müssen Sie sie, sobald Sie zur Analyse kommen, wahrscheinlich noch aufbereiten, um sicherzustellen, dass Ihr Modell die Daten verarbeiten kann und sie nicht wieder ausspuckt.

Datenaufbereitung wird in der Regel mit Programmen und Sprachen wie SQL, R und Python durchgeführt. Dafür ist technisches Know-how erforderlich, über das der durchschnittliche Analyst nicht verfügt. Um diesen Prozess Ihrem gesamten Unternehmen zugänglich zu machen, müssen Sie automatisierte Analysesoftware verwenden.

So bereiten Sie Daten auf:

Erkunden Wenn Ihr Modell nicht so funktioniert, wie Sie es sich vorstellen, ist es an der Zeit, die Daten zu analysieren, um dem auf den Grund zu gehen.

Umwandeln. Sie sollten Ihre Daten von Anfang an mit Blick auf Ihr Modell strukturieren. Wenn die Ausrichtung Ihres Datasets geschwenkt werden muss, um die gewünschte Ausgabe zu liefern, müssen Sie einige Zeit für seine Bearbeitung aufwenden. (Automatisierte Analysesoftware kann dies in einem Schritt tun.)

Bereinigen. Korrigieren Sie Fehler und entfernen Sie Duplikate.

Enrich. Add more sources, such as authoritative third-party data.

Speichern.Datenaufbereitung ist harte Arbeit. Dokumentieren Sie Ihre Prozesse, damit sie in der Zukunft reproduziert werden können.

Schnellere, intelligentere Erkenntnisse: Das Argument für Automatisierung

Daten treffen auf das 21. Jahrhundert.

Was geschieht in einer Welt ohne Silos und Tabellenkalkulation? Wenn Sie mit einer leistungsstarken Softwareplattform auf Daten in jedem Format zugreifen und Ihre aktuellen Vorbereitungsprozesse automatisieren könnten, wie würde das aussehen – für Sie und für Ihr Unternehmen?

Nach unseren Erfahrungen sieht die Automatisierung der Datenvorbereitung folgendermaßen aus:

Schnelle Erfolge

Die Umstellung auf eine automatisierte Plattform bringt fast immer innerhalb weniger Tage oder Wochen eine messbare Rendite.

Zeit für Erkenntnisse

Durch die Automatisierung verlagert sich der Schwerpunkt des Arbeitstages eines Analysten komplett – von banalen zu kreativen Tätigkeiten. Und Sie müssen niemals zweimal dasselbe Datenproblem lösen.

Kontinuierliche Weiterbildung

Wenn Sie keine Wächter für die Daten mehr benötigen, können Sie das gesamte Unternehmen einbeziehen. Mitarbeiter auf allen Ebenen werden angeregt, ihre eigenen Fähigkeiten zu erweitern.

Diese Veränderung ist so tiefgreifend – im Grunde ein ganz eigenes Universum –, dass wir einen Namen dafür haben: Analytics Automation.

The Alteryx Analytics Automation Platform

Was spricht für den Einsatz von Alteryx bei der Datenvorbereitung?

Analytics Automation

Und der ROI Ihres Unternehmens? Gut, dass Sie gefragt haben.

1. Umsatzwachstum
2. Einsparungen unter dem Strich
3. Dramatische Effizienzsteigerungen
4. Schnelle Qualifizierung der Beschäftigten
5. Risikominderung

„Wir setzen [Analytics Automation] in vielen unserer Geschäfte ein, um Daten zu nutzen, Prozesse zu automatisieren und unsere Beschäftigten in die Lage zu versetzen, selbstständige digitale Mitarbeiter zu werden.“

— Rod Bates, Vice President Decision Science and Data Strategy, The Coca-Cola Company

Sie können überall beginnen. Und alle Probleme lösen.

Alteryx ist die einzige schnell zu implementierende, End-to-End-Datenanalyseplattform, mit der Sie – und jeder, mit dem Sie arbeiten – Geschäftsprobleme schneller lösen können, als Sie es je für möglich gehalten haben.

Wenn Sie Analytic Process Automation wollen (und glauben Sie uns, das wollen Sie), dann sind wir der ideale Partner dafür. Unsere Plattform kann all Ihre Daten ermitteln, vorbereiten und analysieren sowie Analysen in großem Umfang bereitstellen und teilen, um tiefere Erkenntnisse zu ermöglichen.

Der Alteryx Effekt: Verkürzung der Prozesszeiten, Beschleunigung der Erkenntnisse und ganz allgemein die Rettung des Tages.

Vorteile für Sie:

  • Datenvorbereitung in Lichtgeschwindigkeit
  • Wiederholbare Workflows
  • Low-Code/No-Code-Modellierung über eine intuitive Benutzeroberfläche (oder erweiterte Modellierung mit Code für all Ihre Data Scientists)
  • Unterstützung nahezu aller verfügbaren Datenquellen und Visualisierungstools
  • Leistung, Sicherheit, Zusammenarbeit und Governance
  • ROI und mehr

Wieso Analysten Alteryx lieben

 

69 % schnellere Erkenntnisse

6+ Mio USDhöherer Jahresumsatz pro 100 beschäftigten Data Analysts

Mehr als 2.000 Stunden manueller Aufwand eingespart
– The Salvation Army

1 Jahr Verkaufsdaten organisiert in nur einer Stunde
– 7-Eleven

80.000 USD jährliche Einsparung durch Automatisierung
– Amway

Die Zeit für Analysen wurde von „vorher unmöglich“ verkürzt auf 20 Sekunden.
– Chick-fil-A

„Ich kann meine Arbeit ganz einfach nicht ohne Alteryx erledigen – und ich würde es auch nicht wollen.“
— Jay Caplan, The Coca-Cola Company

„Dank Alteryx werden unsere Analysen vom Dame- zum Schachspiel.“
— William McBride, Cetera Financial Group

„Es ist kaum zu glauben, dass wir früher 80 % unserer Zeit für die Buchhaltung benötigt haben und nur 20 % für die Interaktion mit Kunden verblieben. Aber mit Alteryx haben wir dieses Verhältnis jetzt umgekehrt und bieten zu 80 % reine Beratung, während wir nur 20 % unserer Zeit für die Buchhaltung aufwenden. Dadurch können wir unseren Kunden einen wesentlich besseren Service bieten.“
— Brian Milrine, Brookson

„Alteryx ermöglicht es Leuten wie uns, die wenig bis gar keine Kenntnisse in Computerprogrammierung haben, komplexe Dinge mit Daten zu tun, obwohl wir niemanden in der IT haben, der Python programmieren kann. So können wir den Ideen in unseren Köpfen folgen und viel schneller von der Frage zur Antwort kommen.“
— Alexandra Mannerings, Colorado Hospital Association

„Ich habe am ersten Tag in 10 Minuten einen Workflow erstellt, der fünf Milliarden Datensätze abgefragt hat – in 20 Sekunden. Und mir wurde sofort klar, dass hier etwas vor sich geht, das wirklich cool und leistungsfähig ist.“
— Justin Winter, Chick-fil-A

 

Tauchen Sie tiefer in die Datenvorbereitung ein

Gelangen Sie von der Vorbereitung zu Erkenntnissen. Sehen Sie sich den Leitfaden für Erfolg mit Advanced Analytics ohne Plackerei an. Holen Sie sich den Leitfaden 5 Gründe warum Tabellenkalkulationen das Buch lieben würden.

Erhalten Sie einen Vorgeschmack auf Drag & Drop-Analysen. Testen Sie das Alteryx Starter-Kit für die Datenzusammenführung. Starter-Kit testen

 

Empfohlene Ressourcen

 
Produktdemo
Alteryx Analytics Cloud
Sehen Sie sich unser Produkt in diesem Video in Aktion an und erfahren Sie, wie Sie Daten für Analysen und Machine Learning profilieren, vorbereiten und in die Pipeline aufnehmen können.  
  • Englisch
  • Englisch
Jetzt ansehen
 
E-Book
Schnellere Erkenntnisse für das Hochschulwesen mit Alteryx
Erfahren Sie, wie Sie qualifizierte Bewerber:innen identifizieren – solche, die sich einschreiben, ihren Abschluss machen und sich irgendwann an Alumni-Spendenkampagnen beteiligen.
  • Analyse-Expertin/Experte
  • Fachkraft
  • Bildungswesen
Jetzt lesen
 
E-Book
Dateninnovatoren im Hochschulwesen
Erfahren Sie, wie diese sieben Institutionen wesentliche Herausforderungen im Hochschulwesen mit intelligenteren Erkenntnissen angehen.
  • Analytics Automation
  • Analyse-Expertin/Experte
  • Fachkraft
Jetzt lesen