Was ist Datenstandardisierung?

Bei der Datenstandardisierung (Data Standardization) werden die Softwarealgorithmen, die Datenumwandlungen ausführen, von den Systemen abgekoppelt, in denen sich die Daten befinden. Diese Algorithmen werden nicht in Code gespeichert, sondern ihre Logik wird in visuell lesbaren Regeln dargestellt. Personen, die keine Programmierkenntnisse haben, können sie über visuelle Benutzeroberflächen selbstständig verwalten, ohne auf die IT angewiesen zu sein. Die Datenstandardisierung abstrahiert die komplexe Semantik, wie die Daten erfasst, standardisiert und zusammengefügt werden. Sie bietet Aggregatoren die Flexibilität, neue Partner schnell zu integrieren, die Regeln zur logischen Zusammenführung der Daten des neuen Anbieters mit den vorhandenen Daten zu verbessern und dem Unternehmen schnellere und genauere Analysen zu liefern.

Warum ist Datenstandardisierung wichtig?

Data Mapping ist auch zukünftig ein Muss, da es aller Voraussicht nach in nächst kürzerer Zeit nicht möglich sein wird, eine weltweit einheitliche Methode zur Definition jedes Geschäftsdatenelements einzuführen. Die gute Nachricht ist jedoch, dass das Mapping nicht mühsam sein muss. Eine moderne Strategie für den Umgang mit Data Mapping besteht darin, den gesamten Prozess zu virtualisieren.

Unternehmen programmieren ihre Standardisierungslogik oft fest in den Code, der sich in den Systemen befindet, in denen die Daten liegen und bewegt werden. Diese starke Koppelung bedeutete, dass Unternehmen viel Zeit mit der Erstellung, der Pflege und dem Debugging von Standardisierungscode, der über mehrere Standorte verteilt war, aufwenden mussten, wobei die Qualität und die Wiederverwendbarkeit des Codes nur eingeschränkt gewährleistet werden konnte. Aufgrund der komplexen Standardisierungslogik haben Unternehmen Probleme damit, neue Partner schnell einzubinden, sodass sie Meilensteine bei der Einführung und neue Umsatzmöglichkeiten verpassen.

Ein einzigartiger Ansatz für die Datenumwandlung besteht in der Virtualisierung, um den Standardisierungscode zu entkoppeln und zu abstrahieren. Somit können Geschäftsanwendende die Standardisierungsregeln mithilfe einer visuellen Oberfläche definieren, die die Logik zur Abfragezeit in Code umwandelt. Mit dieser Art von Virtualisierung erhöhen Unternehmen ihre Unternehmensflexibilität und binden neue Partner schneller ein.

Der Prozess der Datenstandardisierung

Wenn ein neuer Datenanbieter integriert wird, verwendet die Analytics Automation-Plattform ihren proprietären Datenscanner, um die Quelldaten, unabhängig vom Format oder System, in dem sie sich befinden, zu verstehen. Die Plattform baut eine universelle und virtuelle Datenebene auf, die automatisch mit Zeigern auf die neuen Rohdatenelemente erweitert wird und die gesamte Umwandlungslogik enthält, die das Unternehmen benötigt.

Diese virtuellen Datenspalten und ihre Umwandlungen ermöglichen es der Plattform, die Rohdaten jederzeit abzufragen, sodass Datenbewegungen und Kopien vermieden werden und sichergestellt wird, dass die Abfrageergebnisse die neuesten Änderungen der Rohdaten widerspiegeln. Wenn Schemaänderungen erkannt werden, nimmt die Plattform die erforderlichen Anpassungen in der Datenebene vor, um richtig auf die Rohdatenelemente zu verweisen.

Mit den hinzugefügten virtuellen Datenspalten definieren Geschäftsanwendende virtuelle Regeln, um die Daten zu standardisieren und zusammenzuführen. Die Regeln sind virtuell, da sie nicht dauerhaft in Code festgehalten werden. Sie werden in einer von Menschen lesbaren Form gespeichert, die von den Geschäftsanwendenden gepflegt wird. Erst bei der Abfrage erstellt Alteryx automatisch den erforderlichen Code, der für die Erstellung von Tabellen und Ansichten nötig ist.

Es gibt drei Arten von Regeln, die die Geschäftsanwendenden für die Datenumwandlung pflegen:

Taxonomieregeln: Diese Regeln ordnen die Spalten und Werte der Partnerdaten denen des Aggregatoren zu. Ein Partner kann seine Transaktionen beispielsweise mit zwei Spalten beschreiben: einem Abrechnungsbetrag und einem Typ, wobei der Typ eine von drei Optionen sein kann.

Umgestaltungsregeln: Diese Regeln legen fest, wie Datenelemente von der Partnerseite zusammengetragen und auf der Aggregatorseite verteilt werden. Beispielsweise kann ein Einzelhändler alle Transaktionsdaten in einer einzigen Datei bereitstellen, aber der Aggregator muss sie in drei Tabellen aufteilen: eine für die Transaktionen, eine für die Einzelhändlerdaten und eine weitere für die Verbraucher:innen.

Semantische Regeln: Diese Regeln beschreiben die Bedeutung von Datenelementen, und wie das Unternehmen sie zur Beschreibung seiner Domäne verwendet. Was macht beispielsweise eine erfolgreiche Transaktion aus? Und wie sollte der endgültige Abrechnungsbetrag nach Berücksichtigung von Erstattungen berechnet werden? Jeder Datenanbieter verfügt über eine eigene Semantik, die im Kontext seines Betriebs sinnvoll ist, die aber der Datenaggregator mit den Datendefinitionen aller anderen Anbieter abgleichen muss.

Sie können diese Regeln mithilfe eines visuellen Tools deklarativ definieren. Es verfügt über eine Vielzahl von Umwandlungsfunktionen, die die Standardisierung erleichtern. Benutzende können beispielsweise Spalten zuordnen und Werte in einen Standardsatz übersetzen oder Daten aus mehreren Dateitypen wie XML, CSV, JSON, EDI usw. zusammentragen.

Häufig auftretende Probleme wie eine andere Reihenfolge der Spalten, umbenannte Spalten oder Änderungen an den Werten oder Spaltentypen können automatisch bearbeitet werden. Benutzende können auch eine SQL-Konsole verwenden, um eine komplexere Logik zu beschreiben. Darüber hinaus können Benutzende Datenvalidierungen und Berichte erstellen, um zu überwachen und zu überprüfen, ob alle Standardisierungen korrekt durchgeführt wurden. Sobald eine neue Datei oder ein neuer Datensatz hinzugefügt oder geändert wird, erkennt ein Datenscanner sie, wendet die relevanten Standardisierungsregeln an – indem er den entsprechenden SQL-Code dynamisch generiert und ausführt – und exportiert die Daten in ein Standardformat.

Die Zukunft der Datenstandardisierung

Die Standardisierung von Geschäftsdaten von mehreren Partnern ist eine wichtige und häufige Aufgabe, die nur noch wichtiger und häufiger wird, da wirtschaftliche Entwicklungen die Möglichkeit bieten, mit mehr Stakeholdern zusammenzuarbeiten, und diese Datenanbieter ihre Datasets weiterhin nach ihrer eigenen Geschäftslogik gestalten. Angesichts der Auswirkungen, die die Datenstandardisierung auf die geschäftliche Agilität und Leistung hat, sollten Unternehmen, die Daten aus mehreren Quellen aggregieren, die von ihnen eingerichtete Infrastruktur und Workflows sowie ihre Fähigkeit, neue Partner einzubinden, sorgfältig prüfen.

Erste Schritte bei der Datenstandardisierung

Unternehmen kämpfen oft mit der gleichen Herausforderung: Datasets, die je nach der individuellen Geschäftslogik des Anbieters unterschiedlich formatiert sind, einzuspeisen sowie diese Datasets zu standardisieren, sodass sie miteinander verglichen, aggregiert und anderweitig konsistent analysiert werden können.

Die Analytics Automation-Plattform von Alteryx unterstützt Unternehmen bei der Vorbereitung von Daten über verschiedene Quellen hinweg, ohne dass die Erstellung von ETL- und Datenpipelines erforderlich ist. Kundinnen und Kunden können das volle Potenzial ihrer Daten ausschöpfen, indem sie Geschäftsanwendenden die Möglichkeit geben, mit Datasets zu arbeiten, die schwer zu verstehen, abzugleichen und zusammenzuführen sind. So können Kundinnen und Kunden die Geschäftslogik sofort erfassen und validieren, um eine Vielzahl von Anwendungsfällen zu unterstützen.

Nächste Begriff
Feature Engineering