Glossar zu Data Science und Data Analytics

Alle(s)
  • Kastengrafiken,
  • $
  • C
  • D
  • E
  • F
  • G
  • H
  • I
  • J
  • K
  • L
  • M
  • N
  • O
  • P
  • Q
  • R
  • S
  • T
  • U
  • V
  • W
  • X
  • Y
  • Z

Advanced Analytics, oder auch: die erweiterte Datenanalyse, nutzt modernste Methoden, um Erkenntnisse zu gewinnen, Muster zu erkennen, Ergebnisse vorherzusagen und Empfehlungen zu generieren.

...  

Je höher der Grad der analytischen Reife Ihres Unternehmens ist, desto besser ist es in der Lage, Daten zur Erzielung von Geschäftsergebnissen zu nutzen.

...  

Durch automatisiertes Machine Learning, kurz: AutoML, wird Machine Learning auch für Laien zugänglich, indem es ihnen durch ein automatisiertes Benutzererlebnis ermöglicht, ML-Modelle zu erstellen, zu validieren, zu iterieren und zu untersuchen.

...  

Unter Batch Processing, oder auch: Stapelverarbeitung, versteht man die gleichzeitige Planung und Verarbeitung großer Datenmengen, im Allgemeinen zu Zeiten, in denen die Nachfrage nach Rechenressourcen gering ist. Batch-Jobs sind in der Regel repetitiver Natur und werden häufig so geplant (automatisiert), dass sie in festgelegten Intervallen ausgeführt werden, z. B. ...  

Business Analytics ist der Prozess der Datenanalyse mithilfe statistischer und quantitativer Methoden, um Entscheidungen zu treffen, die zu besseren Geschäftsergebnissen führen.

...  

Business Intelligence ist das Gesamtergebnis der Daten, Software, Infrastruktur, Geschäftsprozesse und menschlichen Intuition einer Organisation, das umsetzbare Erkenntnisse liefert.

...  

Cloud Analytics umfasst sowohl die Nutzung von in der Cloud gespeicherten Daten für Analyseprozesse als auch die Nutzung der schnellen Rechenleistung der Cloud für schnellere Analysen.

...  

Ein Cloud Data Warehouse ist eine Datenbank, die als Dienst verwaltet und von einem Drittanbieter bereitgestellt wird, beispielsweise Google Cloud Platform (GCP), Amazon Web Services (AWS) oder Microsoft Azure. Cloud-Datenarchitekturen unterscheiden sich von On-Premise-Datenarchitekturen, bei denen Unternehmen ihre eigenen physischen Daten verwalten.  

Bei der Datenaggregation werden Daten (häufig aus mehreren Datenquellen) zusammengestellt, um übergeordnete zusammenfassende Informationen bereitzustellen, die für statistische Analysen verwendet werden können. Ein Beispiel für eine einfache Datenaggregation ist die Ermittlung der Summe der Verkäufe in einer bestimmten Produktkategorie für jede Region, die Sie ...  

Data Analytics bezeichnet den Prozess der Exploration, Transformation und Analyse von Daten, um aussagekräftige Erkenntnisse und Effizienzsteigerungen zu ermitteln und so die Entscheidungsfindung zu unterstützen.

...  

Datenanwendungen sind auf Datenbanken aufbauende Anwendungen, die ein Nischendatenproblem lösen und über eine visuelle Benutzeroberfläche mehrere Abfragen gleichzeitig ermöglichen, um diese Daten zu untersuchen und mit ihnen zu interagieren. Datenanwendungen erfordern keine Programmierkenntnisse, um ...  

Bei der Datenzusammenführung werden Daten aus einer Vielzahl von Quellen in einem nützlichen Dataset zusammengebracht, um tiefergehende, komplexere Analysen durchzuführen.

...  

Ein Datenkatalog ist eine umfassende Sammlung der Datenbestände einer Organisation, die zusammengestellt werden, um Fachleuten in der gesamten Organisation das Auffinden der benötigten Daten zu erleichtern. So wie Buchkataloge Benutzer:innen dabei helfen, Bücher in Bibliotheken schnell zu finden, helfen Datenkataloge Benutzer:innen bei der schnellen Suche ...  

Die Datenbereinigung, auch als Data Cleansing, Data Cleaning oder Data Scrubbing bezeichnet, identifiziert Fehler, Duplikate sowie irrelevante Daten und behebt bzw. entfernt diese aus einem aus Rohdaten bestehenden Dataset.

...  

Unter Datenanreicherung versteht man die Kombination von eigenen Daten aus internen Quellen mit Daten aus anderen internen Systemen oder Drittdaten aus externen Quellen. Der Datenanreicherungsprozess macht Daten nützlicher und aufschlussreicher. Ein gut funktionierender Datenanreicherungsprozess ist eine Grundvoraussetzung ...  

Die Datenexploration ist einer der ersten Schritte im Analyseprozess, mit dem man beginnt, die Muster und Trends im Dataset zu untersuchen und zu bestimmen. Ein/e Data Analyst beginnt normalerweise mit der Datenexploration, indem er/sie Datenvisualisierungstechniken und andere Tools verwendet, um die Merkmale zu beschreiben ...  

Data Governance ist die Sammlung von Richtlinien, Prozessen und Standards, die definieren, wie Datenbestände innerhalb einer Organisation verwendet werden können und wer die Befugnis dazu hat. Governance bestimmt, wer welche Daten auf welche Weise nutzen darf. Dadurch wird sichergestellt, dass die Datenbestände sicher bleiben und den vereinbarten Q ...  

Die Datenaufnahme („Data Ingestion“) ist der Prozess, bei dem Daten von ihrer Quelle bzw. ihren Quellen gesammelt und in eine Zielumgebung übertragen werden, wo sie abgerufen, verwendet oder analysiert werden können.

...  

Datenintegrität bezieht sich auf die Genauigkeit und Konsistenz von Daten über ihren gesamten Lebenszyklus sowie auf die Einhaltung notwendiger Berechtigungsbeschränkungen und anderer Sicherheitsmaßnahmen. Kurz gesagt: Es geht um die Vertrauenswürdigkeit Ihrer Daten.

...  

Ein Data Lakehouse ist eine Datenverwaltungsarchitektur, die darauf abzielt, die Stärken von Data Lakes mit den Stärken von Data Warehouses zu kombinieren.

 

...  

Verfolgen Sie, woher die Daten eines Unternehmens stammen und welchen Weg sie im System durchlaufen. Stellen Sie außerdem sicher, dass Geschäftsdaten jederzeit compliant und korrekt sind.

...  

Ein Data Mesh ist ein neuer Ansatz zum Entwurf von Datenarchitekturen. Es verfolgt einen dezentralen Ansatz für die Datenspeicherung und -verwaltung, bei dem die einzelnen Geschäftsbereiche die Hoheit über ihre Datasets behalten, anstatt alle Daten eines Unternehmens in einen zentralen Data Lake einfließen zu lassen. Daten sind ...  

Data Munging ist der Prozess der manuellen Datenbereinigung vor der Analyse. Dieser Prozess ist sehr zeitaufwendig und steht oft der Gewinnung des wahren Werts und Potenzials von Daten im Wege. In vielen Organisationen werden 80 % der Zeit, die für die Datenanalyse aufgewendet wird, für das Data Munging aufgewendet, bei der die IT manuell ...  

Data Observability – oder, die Beobachtbarkeit von Daten – bezieht sich auf die Fähigkeit einer Organisation, die Vorgänge in ihren Datensystemen zu überwachen, zu verfolgen und Empfehlungen auszusprechen, um den Systemzustand zu erhalten und Ausfallzeiten zu reduzieren. Ziel ist es, sicherzustellen, dass Daten-Pipelines produktiv sind und ...  

Beim Daten-Onboarding handelt es sich um den Prozess der Vorbereitung und des Hochladens von Kundendaten in eine Online-Umgebung. Es ermöglicht es Unternehmen, offline gesammelte Kundendatensätze in Online-Systeme wie CRMs zu übertragen. Daten-Onboarding erfordert eine erhebliche Datenbereinigung, um Fehler zu korrigieren und ...  

Eine Daten-Pipeline ist eine Abfolge von Schritten, die Daten für die Speicherung, Analyse, Machine Learning oder andere Zwecke sammeln, verarbeiten und zwischen Quellen verschieben. Daten-Pipelines werden beispielsweise häufig verwendet, um Daten von Anwendungen an Speichergeräte wie Data Warehouses oder Data Lakes zu senden. Daten-Pipelines sind ...  

Bei der Datenvorbereitung, die auch als „Vorverarbeitung“ bezeichnet wird, werden Rohdaten bereinigt und konsolidiert, bevor sie für Geschäftsanalysen und Machine Learning verwendet werden.

...  

Datenprofilierung, oder auch: Data Profiling, hilft bei der Ermittlung, dem Verständnis und der Organisation von Daten, indem die Eigenschaften der Daten identifiziert und ihre Qualität bewertet werden.

...  

Data Science ist eine Form angewandter Statistik, die Elemente der Informatik und Mathematik einbezieht, um Erkenntnisse sowohl aus quantitativen als auch qualitativen Daten zu gewinnen.

...  

Data Science und Machine Learning sind Schlagworte der Technologiewelt. Beide verbessern KI-Operationen über sämtliche Geschäftszweige und Branchen hinweg. Doch was ist am besten?

...  

Eine Datenquelle ist der digitale oder physische Ort, von dem Daten stammen oder an dem sie gespeichert werden. Dies beeinflusst, wie sie je nach Standort gespeichert werden (z. B Datentabelle oder Datenobjekt) und seine Konnektivitätseigenschaften.

...  

Bei der Datenstandardisierung wird die komplexe Semantik abstrahiert, also wie Daten erfasst, standardisiert und zusammengefügt werden, um Unternehmen schnellere und genauere Analysen zu bieten.

...  

Unter Datentransformation versteht man den Prozess der Konvertierung von Daten in ein anderes Format, das für eine Organisation nützlicher ist. Sie wird genutzt, um Daten zwischen Datasets zu standardisieren oder um Daten für Analysen und Machine Learning nützlicher zu machen. Die häufigsten Datentransformationen umfassen die Konvertierung von Rohdaten in ...  

Bei der Datenvalidierung geht es darum, sicherzustellen, dass Ihre Daten korrekt und sauber sind. Sie ist in jeder Phase eines Datenprojekts von entscheidender Bedeutung – von der Anwendungsentwicklung über die Dateiübertragung bis hin zum Data Wrangling –, um die Korrektheit sicherzustellen. Ohne Datenvalidierung vom Anfang bis Iteration ...  

Datenvisualisierung ist die visuelle Darstellung von Daten mithilfe von Grafiken, Diagrammen, Plots oder Informationsgrafiken.

...  

Data Wrangling, oft auch vereinfacht Datenaufbereitung genannt, ist der Vorgang der Umwandlung, Bereinigung und Anreicherung von Daten, um sie anwendbarer, brauchbarer und praktischer zu machen. Das hilft dabei, intelligentere Geschäftsentscheidungen zu treffen.

...  

Unter Decision Intelligence, oder auch: Entscheidungsintelligenz, versteht man den Prozess der Anwendung von Analytics, KI und Automatisierung auf Entscheidungen Beitrag 

Nachfrageprognosen, auch bekannt als „Demand Forecasting“, schätzen den zukünftigen Bedarf an Produkten und Dienstleistungen ein, um fundierte Geschäftsentscheidungen treffen zu können. Nachfrageprognosen umfassen granulare Daten, historische Absatzdaten, Umfragen und vieles mehr.

...  

Descriptive Analytics beantwortet die Frage „Was ist passiert?“ indem wir Schlussfolgerungen von großen rohen Datasets ziehen. Die Ergebnisse werden in zugänglichen Linien-, Torten- und Balkendiagrammen, in Tabellen und als Bericht visualisiert.

...  
ETL

Bei ETL – Extract, Transform, Load – handelt es sich um den Prozess, der für das Kopieren, Kombinieren und Konvertieren von Daten aus verschiedenen Quellen und Formaten und das Laden in ein neues Ziel, wie z. B. ein Data Warehouse oder einen Data Lake, verantwortlich ist.

...  

Ein/e ETL-Entwickler:in ist eine IT-Fachkraft, die komplexe Anwendungen zum Extrahieren, Transformieren und Laden von Daten entwirft, entwickelt, automatisiert und unterstützt. Sie spielt eine wichtige Rolle bei der Bestimmung der Datenspeicheranforderungen ihres Unternehmens.

...  

Mit Feature Engineering können Unternehmen ihre Daten verstehen und in etwas Sinnvolles umwandeln.

...  

Machine Learning ist der iterative Prozess, der an einem Computer ausgeführt wird, um unter Berücksichtigung spezifischer Einschränkungen Muster in einem Dataset zu erkennen.

...  

Machine-Learning-Modelle (MLOps) liefern wertvolle Erkenntnisse für Unternehmen – allerdings nur, wenn diese Modelle kontinuierlich auf die Daten des Unternehmens zugreifen und diese analysieren können. MLOps ist der entscheidende Prozess, der dies ermöglicht.

...  

Predictive Analytics ist eine Art von Datenanalyse, die Statistiken, Data Science, Machine Learning und andere Methoden verwendet, um zukünftige Ereignisse vorherzusagen.

...  

Prescriptive Analytics, oder auch: präskriptive Analysen, beantwortet die Frage „Was sollte/kann getan werden?“ mithilfe von Machine Learning, Diagrammanalysen, Simulationen, Heuristik und anderen Methoden.

...  

Ein Regex, bzw. ein regulärer Ausdruck, ist eine Zeichenfolge, die zur Angabe eines Suchmusters verwendet wird. Er ermöglicht Benutzer:innen die einfache Durchführung von Suchen nach sehr spezifischen Kriterien, was denjenigen, die regelmäßig mit Texten arbeiten oder große Datenmengen analysieren, viel Zeit spart. Ein Beispiel für ein Re ...  

Unter Sales Analytics, oder auch: Vertriebsanalysen, versteht man die Gewinnung von Erkenntnissen aus Daten, die zur Festlegung von Zielen, Kennzahlen und einer umfassenderen Strategie verwendet werden.

...  

Beim Source-to-Target Mapping, oder auch: Quelle-zu-Ziel-Zuordnung, handelt es sich um eine Reihe von Anweisungen zur Datentransformation, die bestimmen, wie die Struktur und der Inhalt der Daten im Quellsystem in die Struktur und den Inhalt umgewandelt werden, die im Zielsystem benötigt werden.

...  

Bei der Geoanalyse – oder auch: Spatial Analysis – werden Probleme geografisch modelliert, sodass ein Unternehmen Standorte, Beziehungen, Attribute und Näherungswerte von Geodaten analysieren kann, um Fragen zu beantworten und Erkenntnisse zu gewinnen.

...  

Überwachtes und unüberwachtes Lernen unterscheiden sich in einem wesentlichen Punkt: Für überwachtes Lernen werden gekennzeichnete Datasets verwendet, während für unüberwachtes Lernen nicht gekennzeichnete Datasets verwendet werden.

...  

Systems of Intelligence bzw. Intelligenzsysteme helfen Unternehmen dabei, den Wert ihres Tech-Stacks zu steigern  

Eine benutzerdefinierte Funktion („User Defined Function“, UDF) ist eine benutzerdefinierte Programmierfunktion, die es Benutzer:innen ermöglicht, Prozesse wiederzuverwenden, ohne Code neu schreiben zu müssen. Beispielsweise kann eine komplexe Berechnung mit SQL programmiert und als UDF gespeichert werden. Wenn diese Berechnung in Zukunft für einen anderen Satz an Daten verwendet werden muss, ...