Weißes Muster

Datenbereinigung

Weißes Muster
Content

Was ist Datenbereinigung?

Die Datenbereinigung, auch als Data Cleansing, Data Cleaning oder Data Scrubbing bezeichnet, identifiziert Fehler, Duplikate sowie irrelevante Daten und behebt bzw. entfernt diese aus einem aus Rohdaten bestehenden Dataset. Als Teil des Datenvorbereitungsprozesses ermöglicht die Datenbereinigung genaue, belastbare Daten, die zuverlässige Visualisierungen, Modelle und Geschäftsentscheidungen generieren.

Warum ist Datenbereinigung wichtig?

Analysen und Algorithmen sind nur so gut wie die Daten, auf denen sie basieren. Im Durchschnitt vermuten Unternehmen, dass fast 30 % ihrer Daten ungenau sind. Diese verunreinigten Daten kosten Unternehmen 12 % ihres Gesamtumsatzes – und sie verlieren mehr als nur Geld. Die Bereinigung erzeugt konsistente, strukturierte und genaue Daten, die fundierte und intelligente Entscheidungen ermöglichen. Außerdem werden Bereiche hervorgehoben, in denen vorgeschaltete Dateneingabe- und Datenspeicherumgebungen verbessert werden können. Dadurch kann jetzt und in Zukunft Zeit und Geld eingespart werden.

Der Datenbereinigungsprozess

Datenbereinigungsprozess

Die Datenbereinigung ist für jeden Analyseprozess von zentraler Bedeutung und umfasst in der Regel sechs Schritte.


Duplikatentfernung: Duplikate tauchen in der Regel auf, wenn Daten aus verschiedenen Quellen (z. B. Tabellen, Websites und Datenbanken) zusammengeführt werden oder wenn ein Kunde bzw. eine Kundin mehrere Ansprechpartner bei einem Unternehmen hat bzw. redundante Formulare eingereicht hat. Diese sich wiederholenden Daten nutzen unnötig Speicherplatz auf dem Server und Verarbeitungsressourcen, was zu größeren Dateien und weniger effizienten Analysen führt. Regeln der Duplikatentfernung hängen vom gewünschten Ergebnis des Unternehmens ab. Wenn eine Kundin bzw. ein Kunde beispielsweise verschiedene E-Mails auf unterschiedlichen Seiten einer Website eingegeben hat, würde ein konservativer Ansatz nur Datenzeilen eliminieren, bei denen jedes Feld genau übereinstimmt.


Irrelevante Beobachtungen entfernen: Daten, die für das zu lösende Problem nicht relevant sind, können zu längeren Verarbeitungszeiten führen. Durch das Entfernen dieser irrelevanten Beobachtungen werden diese nicht aus der Quelle gelöscht, sondern aus der aktuellen Analyse ausgeschlossen. Bei der Untersuchung von Kampagnen aus dem letzten Jahr ist es beispielsweise nicht erforderlich, Daten außerhalb dieses Zeitraums einzuschließen. Beachten Sie jedoch, dass auch wenn eine bestimmte Variable nicht benötigt wird, sie mit dem zu untersuchenden Ergebnis in Zusammenhang stehen kann (z. B. könnte das Alter eines Kunden/einer Kundin beeinflussen, welche E-Mail am erfolgreichsten war).


Unvollständige Daten verwalten: Bei Daten können aus einigen Gründen Werte fehlen (z. B. wenn Kundinnen/Kunden bestimmte Informationen nicht bereitstellen). Dies muss bei der Analyse berücksichtigt werden, da so Voreingenommenheit und Fehlberechnungen verhindert werden können. Nach der Isolierung und Prüfung der unvollständigen Werte, die ggf. als „0“, „k. A.“, „keine“, „Null“ oder „nicht zutreffend“ angezeigt werden, bestimmen Sie, ob es sich um plausible Werte oder um fehlende Informationen handelt. Obwohl die einfachste Lösung darin besteht, die unvollständigen Daten zu löschen, sollten Sie sich jedoch bewusst sein, dass dies zu einer entsprechenden Voreingenommenheit führen könnte. Alternativen umfassen das Ersetzen von Nullwerten auf Basis statistischer oder bedingter Modelle oder das Markieren und Kommentieren der fehlenden Daten.


Ausreißer identifizieren: Datenpunkte, die weit vom Rest der Datengruppe entfernt sind, können die Realität der Daten erheblich verzerren. Diese Ausreißer können visuell oder numerisch gekennzeichnet werden, zum Beispiel mit Kastendiagrammen, Histogrammen, Streudiagrammen oder Z-Bewertungen. Wenn sie Teil eines automatisierten Prozesses sind, können schnell Annahmen getroffen und getestet sowie Datenprobleme zuverlässig gelöst werden. Nachdem sie identifiziert wurden, können Ausreißer einbezogen oder ausgelassen werden, je nachdem, wie extrem sie sind und welche statistischen Methoden in einer Analyse verwendet werden.


Strukturelle Fehler beheben: Es ist wichtig, Fehler und Inkonsistenzen, wie etwa Typografie, Großschreibung, Abkürzungen und Formatierung zu korrigieren. Prüfen Sie den Datentyp für jede Spalte und stellen Sie sicher, dass die Einträge korrekt und konsistent sind. Dazu gehört u. a. die Standardisierung von Feldern und das Entfernen unerwünschter Zeichen, wie z. B. zusätzlicher Leerzeichen.


Validieren: Bei der Validierung kann sichergestellt werden, dass Daten korrekt, vollständig, konsistent und einheitlich sind. Dies geschieht während eines automatisierten Datenbereinigungsprozesses, aber es ist trotzdem wichtig, anhand einer Stichprobe sicherzustellen, dass alles stimmt. Bei dieser Gelegenheit kann auch dokumentiert werden, welche Tools und Techniken während der Bereinigung verwendet wurden.

Die Zukunft der Datenbereinigung

Die Datenbereinigung ist für eine aussagekräftige, leistungsstarke Analyse unerlässlich. Doch für viele Unternehmen stellt dies einen manuellen, isolierten Prozess dar, der Zeit und Ressourcen verschwendet. Analytic Process Automation ermöglicht wiederholbare, skalierbare sowie zugängliche Datenbereinigung und sorgt für:

  • Die Demokratisierung von Daten und Analysen
  • Die Automatisierung von Geschäftsprozessen
  • Die Weiterbildung von Beschäftigten und somit für schnelle Erfolge und transformative Ergebnisse

Die Datenbereinigung ist die Grundlage der Analytic Process Automation und zeigt Unternehmen einen klaren Weg auf, um detailliertere Analysen mit Data Science und Machine Learning durchzuführen.

Erste Schritte bei der Datenbereinigung

Die manuelle Datenbereinigung ist mühsam, fehleranfällig und zeitaufwendig. Mit seinen benutzerfreundlichen Automatisierungsmodulen ermöglicht Alteryx Analytics Automation™ Unternehmen die Identifizierung und Bereinigung von verunreinigten Daten auf unterschiedliche Weise – ohne Code. Die End-to-End-Analyseplattform wurde unter Berücksichtigung und Bedeutung und Spezifikationen der Datenexploration entwickelt. Sie basiert auf dem Verständnis, dass saubere Daten zu einer guten Analyse führen. Die Alteryx Plattform schafft einen schnellen, wiederholbaren und überprüfbaren Prozess. Wenn dieser einmal erstellt wurde, kann er dauerhaft automatisiert werden.

Bericht
Bericht

Thomson Reuters Report: The 2022 State of the Corporate Tax Department

Die Technologie, die zur Erfüllung der wachsenden Anforderungen der digitalen Wirtschaft benötigt wird, stellt Steuerabteilungen von Unternehmen gleichzeitig vor mehrere Herausforderungen.

Finanzen
Thomson Reuters
Jetzt lesen
Abstraktes Bild
Kundenreferenz
5 Min. Lesezeit

Neustrukturierung mehrjähriger Mitarbeiteransprüche mit Alteryx

Grant Thornton erkannte den Bedarf an Services zur Sicherstellung der Gehaltsabrechnung und kreierte ein flexibles, skalierbares und kosteneffizientes Modell, um Arbeitnehmeransprüche exakt zu berechnen.

Finanzen
Personalwesen
Asien-Pazifik-Raum
Jetzt lesen
Geldscheine
Blog
5 Min. Lesezeit

SoFi Bank optimiert Liquiditätsprognose

Benötigen Sie Hilfe bei der Liquiditätsprognose? Lesen Sie, wie die SoFi Bank ihren Prozess optimiert hat.

Finanzen
Analyse-Expertin/Experte
Führungskraft
Jetzt lesen

Starter-Kit für die Intelligence Suite

Dieses Starter-Kit bietet Analysevorlagen, um Ihnen den Weg zu erweiterten No-Code-Analysen mithilfe von Assisted Modeling zu ebnen, der angeleiteten Erstellung von Machine Learning-Modellen.
Bild