Die Datenvorbereitung kann eine der zeitintensivsten und repetitivsten Aufgaben Ihrer Arbeitswoche sein. Wenn Sie Ihre Rohdaten nicht auf die richtige Weise bereinigen, validieren und konsolidieren, werden immer wieder fehlerhafte Daten auftreten und Ihre Erkenntnisse sind nicht zuverlässig.
Wie stellen Sie also sicher, dass Ihre Datenvorbereitung falsche Daten in Schach hält und gleichzeitig die Daten schützt, auf die Ihr Unternehmen angewiesen ist?
Das erfordert Wachsamkeit und regelrechte Superkräfte.
Schnappen Sie sich Cape und Schild oder Batarang und machen Sie Ihre Daten kugelsicher. Und damit meinen wir: unverwundbar gegen Formatierungsfehler, Ungenauigkeiten und Ausreißer. Mit diesen sechs Schritten zu einer unschlagbaren Datenvorbereitung retten Sie den Tag.
1. Eine bessere Übersicht als Hawkeye
Bevor Sie intensiv mit einem neuen Dataset arbeiten, sollten Sie ruhig ein paar mutige Schritte in das neue Territorium wagen und sich ein wenig umsehen. Genetisch verstärkte Sehkraft (wie die von Hawkeye) ist dabei sicher hilfreich, aber keine Notwendigkeit. Machen Sie sich zunächst eine Vorstellung davon, wonach Sie suchen, aber bleiben Sie auch unvoreingenommen und lassen Sie die Daten für sich sprechen.
Tipps: Datenexploration
- Überfliegen Sie die Spaltennamen und Feldbeschreibungen, um zu sehen, ob Ihnen Anomalien auffallen, ob Informationen fehlen oder unvollständig sind.
- Führen Sie eine Kontrolle durch, um zu sehen, ob Ihre Variablen integer sind: Wie viele einmalige Werte enthalten sie? Welche Bereiche und Modi sind vorhanden?
- Halten Sie Ausschau nach ungewöhnlichen Datenpunkten, die Ihre Ergebnisse verzerren können. Sie können visuelle Methoden verwenden, wie Box-Plots, Histogramme oder Streudiagramme oder numerische Ansätze wie Z-Bewertungen.
- Prüfen Sie Ausreißer genau. Sollten Sie ihnen nachgehen, sie anpassen, auslassen oder ignorieren?
- Untersuchen Sie Muster und Beziehungen auf statistische Signifikanz.
2. Daten können komplexer sein als der Reaktor von Iron Man
Deshalb haben fehlerhafte und inkonsistente Daten einen hohen Preis: Studien zeigen, dass verunreinigte Daten den Jahresumsatz eines Unternehmens um Millionenbeträge schmälern können. Denn diese Fehler können so teuer sein wie ein Palladiumkern. Um große Verluste zu vermeiden, müssen Sie Ihre Daten bereinigen, bis sie glänzen wie von einem starken, selbst erzeugten Licht.
Tipps: Datenbereinigung
- Entsorgen Sie alle doppelten Datensätze, die Ihren Serverplatz belegen und Ihre Analyse verzerren.
- Entfernen Sie alle Zeilen oder Spalten, die für das zu lösende Problem nicht relevant sind.
- Ermitteln Sie fehlende oder unvollständige Informationen und eliminieren Sie sie gegebenenfalls.
- Beseitigen Sie alle unerwünschten Ausreißer, die Sie bei der Datenexploration entdeckt haben.
- Korrigieren Sie strukturelle Fehler, wie Typografie, Groß- und Kleinschreibung, Abkürzungen, Formatierung und zusätzliche Zeichen.
- Überprüfen Sie, ob Ihre Arbeit korrekt, vollständig und konsistent ist, und dokumentieren Sie alle von Ihnen verwendeten Tools und Techniken.
3. Eine stärkere Kombination als die Avengers
Je mehr hochwertige Quellen Sie in Ihre Analyse einbeziehen, desto tiefer und umfassender sind Ihre Erkenntnisse. In der Regel benötigen Sie für ein Projekt sechs oder mehr Datenquellen. Sie benötigen Tools für die Datenzusammenführung,um sie nahtlos miteinander zu verschmelzen. Im Grunde müssen Sie das ultimative Team aus hochwertigen Daten zusammenbringen.
Tipps: Daten zusammenführen
- Erfassen und vorbereiten. Wenn Sie moderne Daten-Tools verwenden, anstatt zu versuchen, Dateien an eine Tabellenkalkulation anzupassen, können Sie fast jeden Dateityp oder jede Struktur einbeziehen, die mit dem zu lösenden Geschäftsproblem zusammenhängt, und alle Datasets schnell in eine einheitliche Struktur umwandeln. Denken Sie an Dateien und Dokumente, Cloud-Plattformen, PDFs, Textdateien, RPA-Bots und Anwendungsressourcen wie ERP, CRM, ITSM und vieles mehr.
- Zusammenführen. In Tabellenkalkulationen können Sie Ihre VLOOKUP-Muskeln spielen lassen. (Die ermüden jedoch irgendwann, oder?) Wenn Sie stattdessen Self-Service Analytics verwenden, ist dieser Prozess einfach per Drag & Drop möglich.
- Validieren. Um die Ergebnisse auf Konsistenz zu prüfen, ist es wichtig, alle nicht übereinstimmenden Datensätze zu untersuchen. So können Sie feststellen, ob weitere Bereinigungs- oder andere Vorbereitungsaufgaben erforderlich sind.
4. Datensinn ist der neue Spürsinn
Die Datenprofilierung, eng verwandt mit der Datenexploration, erfordert mehr Aufmerksamkeit. Sie bedeutet, dass ein Dataset speziell auf seine Relevanz für ein bestimmtes Projekt oder eine bestimmte Anwendung untersucht wird. Sie müssen sich auf Ihren Instinkt und Ihr Know-how verlassen, um zu ermitteln, ob ein Dataset überhaupt verwendet werden sollte. Dies ist eine wichtige Entscheidung, die ernsthafte finanzielle Konsequenzen für Ihr Unternehmen haben kann.
Tipps: Datenprofilierung
- Strukturprofilierung. Wie groß ist das Dataset und welche Datentypen sind enthalten? Ist die Formatierung konsistent, korrekt und mit dem Ziel kompatibel?
- Inhaltsprofilierung. Welche Informationen enthalten die Daten? Gibt es Lücken oder Fehler? In dieser Phase führen Sie zusammenfassende Statistiken zu numerischen Feldern aus, prüfen auf Nullwerte, fehlende und einmalige Werte und suchen nach systembedingten Fehlern bei Rechtschreibung, Abkürzungen oder IDs.
- Beziehungsprofilierung. Gibt es Stellen, an denen Daten überlappen oder falsch ausgerichtet sind? Welche Verbindungen bestehen zwischen Dateneinheiten? Beispiele hierfür sind Formeln, die Zellen verbinden, oder Tabellen, die regelmäßig Informationen aus externen Quellen erfassen. Identifizieren und beschreiben Sie alle Beziehungen und stellen Sie sicher, dass Sie diese beibehalten, wenn Sie die Daten an einen neuen Zielort verschieben.
5. Richten Sie Ihre geheime Basis ein
In Anbetracht des enormen Volumens und der Komplexität der Ihnen zur Verfügung stehenden Datenquellen ist es unvermeidlich, dass Sie diese extrahieren, integrieren und an einem zentralen Ort speichern, der es Ihnen ermöglicht, sie für Analysen abzurufen, wann immer Sie sie benötigen. Etwa so wie eine geheime Basis (oder Bat-Höhle?) für Ihre Datenhelden.
Tipps: ETL (Extract, Transform, Load – Entpacken, Umwandeln, Laden)
- Entpacken. Ziehen Sie jegliche Daten, ob strukturiert oder unstrukturiert, aus einer oder vielen Quellen, und validieren Sie deren Qualität. (Seien Sie besonders gründlich, wenn Sie Daten aus Altsystemen oder externen Quellen abrufen.)
- Umwandeln. An dieser Stelle nehmen Sie eine Tiefenreinigung vor und stellen sicher, dass Ihre Formatierung den technischen Anforderungen für Ihren Zielort entspricht.
- Laden. Schreiben Sie die umgewandelten Daten an ihren Speicherort, in der Regel ein Data Warehouse. Führen Sie dann eine Stichprobe durch und prüfen Sie, ob Datenqualitätsfehler vorliegen.
6. Effektiver als Wonder Womans Lasso der Wahrheit
Der englische Begriff „Data Wrangling“ wird oft im Sinne von „Datenvorbereitung“ verwendet, bezieht sich aber eigentlich auf die Aufbereitung, die während des Prozesses der Analyse und der Erstellung von Prognosemodellen stattfindet. Selbst wenn Sie Ihre Daten von Anfang an gut vorbereitet haben, müssen Sie sie, sobald Sie zur Analyse kommen, wahrscheinlich noch aufbereiten (sie sozusagen mit dem Lasso fangen), um sicherzustellen, dass Ihr Modell die Daten verarbeiten kann und sie nicht wieder ausspuckt.
Tipps: Data Wrangling
- Erkunden. Wenn Ihr Modell nicht so funktioniert, wie Sie es sich vorstellen, ist es an der Zeit, die Daten zu analysieren, um dem Problem auf den Grund zu gehen.
- Umwandeln. Sie sollten Ihre Daten von Anfang an mit Blick auf Ihr Modell strukturieren. Wenn die Ausrichtung Ihres Datasets geschwenkt werden muss, um die gewünschte Ausgabe zu liefern, müssen Sie einige Zeit für seine Bearbeitung aufwenden. (Automatisierte Analysesoftware kann dies in einem Schritt tun.)
- Bereinigen. Korrigieren Sie Fehler und entfernen Sie Duplikate.
- Anreichern. Fügen Sie weitere Quellen hinzu, wie z. B. maßgebliche Daten von Drittanbietern.
- Speichern. Datenaufbereitung ist harte Arbeit. Dokumentieren Sie Ihre Prozesse, damit sie in der Zukunft reproduziert werden können.
Und das war’s dann auch schon. Befolgen Sie diese sechs Schritte und Ihre Daten werden schneller als ein Flugzeug, stoppen Kugeln in ihrer Bahn und tragen, im Endeffekt, einen leuchtendroten Heldenumhang.
Oh, und wenn Sie keine Lust mehr auf VLOOKUPs und manuelle Prozesse haben, sollten Sie sich einmal die Möglichkeiten zur Automatisierung ansehen. Wir sprechen von analytischen Superkräften, der Möglichkeit, Daten in jedem Format aufzurufen und Ihre aktuellen Vorbereitungsprozesse mit einer automatisierten Self-Service Analytics-Plattform zu automatisieren.
Nach unseren Erfahrungen sieht die Automatisierung der Datenvorbereitung folgendermaßen aus:
- Retten Sie die Welt – Jetzt noch schneller: Die Umstellung auf eine automatisierte Plattform bringt fast immer innerhalb weniger Tage oder Wochen einen messbaren Return on Investment.
- Effiziente Kriminalitätsbekämpfung in Vollzeit: Automatisierung verlagert den Schwerpunkt Ihres Arbeitstags weg von manuellen, repetitiven Aufgaben, hin zu Kreativität. Und Sie müssen niemals zweimal dasselbe Datenproblem lösen.
- Als Superheld brauchen Sie einen Sidekick … oder vier: Wenn Sie die Daten-Gatekeeper eliminieren, können Sie das gesamte Unternehmen einbeziehen. Mitarbeiter auf allen Ebenen werden angeregt, ihre eigenen Fähigkeiten zu erweitern.
Diese Veränderung ist so tiefgreifend – im Grunde ein ganz eigenes Universum –, dass wir einen Namen dafür haben: Analytic Process Automation.
Erfahren Sie mehr über Analytic Process Automation und darüber, wie es Ihnen analytische Superkräfte verleiht.
Bereit für mehr?
LEKTÜRE
In Ein grundlegender Leitfaden zur Datenanalyse-Kompetenz erfahren Sie, wie einfach die Umstellung auf einen modernen Analyse-Ansatz ist.
ERFAHRUNG
Steigen Sie mit dem Alteryx Starter-Kit für Datenzusammenführung in die Welt der Datenzusammenführung ein.