Was ist Data Science?

Data Science ist eine Form angewandter Statistik, die Elemente der Informatik
und Mathematik einbezieht, um Erkenntnisse sowohl aus quantitativen als auch
qualitativen Daten zu gewinnen.

Zu den in der Data Science verwendeten Tools und Technologien gehören
Algorithmen und Frameworks für Machine Learning sowie Programmiersprachen und
Visualisierungsbibliotheken.

Ein Data Scientist kombiniert Programmier-, Mathematik- und Fachwissen, um
Fragen anhand von Daten zu beantworten.

Warum ist Data Science wichtig?

Durch Data-Science-Verfahren bleiben Unternehmen wettbewerbsfähig und
produktiver.

Organisationen, die Data Science einen hohen Stellenwert einräumen,
identifizieren Trends und Chancen, die ohne Nutzung der verfügbaren Daten
möglicherweise nicht realisiert worden wären. Die Erkenntnisse aus Data
Science können enorme Auswirkungen auf die Geschäftsergebnisse haben.

Data Science extrahiert nützliche Informationen aus großen und kleinen
Datasets. Obwohl zum Trainieren von KI-Systemen (Künstliche Intelligenz) große
Mengen an Daten benötigt werden, kann Data Science auch bei kleinen Datasets
helfen.

Beispielsweise haben Einzelhändler früher den Lagerbestand für ihre Filialen
auf Grundlage des Umsatzes der jeweiligen Filiale vorhergesagt. Als Geschäfte
wegen der COVID-19-Pandemie schließen mussten, mussten Einzelhändler ihre
Prognosemethoden ändern, da sich auch die Menge und Art der verfügbaren Daten
änderten.

Wenn nur eine kleine Menge an Daten betrachtet werden kann, nutzt Data Science
Verfahren wie Datenanreicherung, Generierung synthetischer Daten, Transfer
Learning und Ensemble Learning, um Erkenntnisse zu gewinnen.

Data Science ermöglicht es Organisationen außerdem, zusätzliche Resilienz zu
schaffen. In dieser schnelllebigen, technologisierten Welt, in der sich die
Dinge im Handumdrehen ändern können, müssen Unternehmen in der Lage sein, sich
anzupassen und schnell zu reagieren, um zu überleben. Und Data Science kann
dazu beitragen.

Data Science wird von vielen Organisationen genutzt und bietet zahlreiche
branchenspezifische Anwendungen. Organisationen, die Data Science nicht
nutzen, laufen Gefahr, abgehängt zu werden – oder sogar ganz schließen zu
müssen.

Data-Science-Lebenszyklus

Data Science ist ein zyklischer Prozess. Der Lebenszyklus kann in folgende
Schritte unterteilt werden:

topic expertise
Fachwissen: Zunächst muss ein Data Scientist ein grundlegendes Verständnis des Themas oder Problems haben, das er untersuchen möchte, damit er sinnvolle Fragen zu diesem Thema oder Problem stellen kann. Data Science besteht per se darin, Erklärungen darüber zu erhalten, warum Dinge so sind, wie sie sind. Das richtige Fachwissen sorgt dafür, dass die Anforderungen eines Data-Science-Projekts definiert werden können, und führt zu zuverlässigeren, datengestützten Entscheidungen.
data aquistion
Datenerfassung: Der nächste Schritt im Data-Science-Lebenszyklus besteht darin, die richtigen Daten zu sammeln, um die definierte Frage zu beantworten. Die Daten können an verschiedenen Orten abgelegt sein oder lassen sich vielleicht je nach technischen Kenntnissen der jeweiligen Person nur schwer erreichen. Der Erfolg des weiteren Data-Science-Prozesses hängt jedoch von der Qualität der in diesem Schritt erfassten Daten ab – und davon, wie gut diese vorbereitet sind.
data preparation
Datenvorbereitung: Die Datenvorbereitung ist der zeitaufwendigste – und wohl wichtigste – Schritt im Data-Science-Zyklus. Wie es so schön heißt: Von nichts kommt nichts. Die Daten müssen vor der Analyse ordnungsgemäß bereinigt und zusammengeführt werden. Dazu gehören beispielsweise die Integration unterschiedlicher Datenquellen, die Handhabung fehlender Werte und Ausreißer und vieles mehr. Während dieses iterativen Schritts erkennt ein Data Scientist möglicherweise, dass er zurückgehen und mehr Daten sammeln muss.
data exploration
Datenexploration: Bei der Datenexploration geht es darum, Muster in einem Dataset zu identifizieren und zu verstehen. Sobald die Daten bereinigt und nutzbar sind, können Data Scientists Zeit damit verbringen, die Daten zu untersuchen und Hypothesen zu entwickeln, die getestet werden sollen. Dies ist ein weiterer iterativer Schritt in einem iterativen Prozess und Data Scientists müssen möglicherweise einen oder zwei Schritte zurückgehen, um auf Grundlage der Ergebnisse zusätzliche Bereinigungs- und Zusammenführungsvorgänge durchzuführen. Diese Praxis schließt die Überprüfung der verschiedenen Attribute jedes Datenpunkts – oder „Merkmale“ im Dataset – und die Bestimmung ein, ob weitere Zusammenführungen und Datentransformationen potenziell hilfreiche neue Merkmale mit sich bringen. Der Prozess der Erstellung neuer Merkmale in Daten wird häufig als „Feature Engineering“ bezeichnet. Er findet in der Regel im Zusammenspiel zwischen den Schritten zur Datenexploration und Datenvorbereitung statt.
predictive modeling and exploration
Prognosemodellierung und Bewertung: Nach der Exploration kann ein Data Scientist mit dem Training von Prognosemodellen beginnen. Prognosemodellierung kann oft mit der Datenexploration kombiniert werden. Sobald die Modellierung und Bewertung beginnt, wird ein Data Scientist wahrscheinlich neue Dinge über die Merkmale im Dataset bemerken und einen weiteren Schritt zurückgehen, um das Feature Engineering zu wiederholen. Wenn Modelle erstellt werden, müssen sie bewertet werden. Ein Data Scientist sollte weiter Modelle testen und verfeinern, bis er mit einem zufrieden ist.
interpretation and deployment
Interpretation und Bereitstellung: Das Ergebnis dieser Arbeit kann eine Interpretation der Daten und Ergebnisse sein, bei der der Data Scientist das Modell und alle Analysen verwendet, die er während des Lebenszyklus durchgeführt hat, um die Frage zu beantworten, mit der er begonnen hat. Ein weiteres Ergebnis könnte sein, dass das Modell für die Bereitstellung bestimmt ist, wo es verwendet wird, um Stakeholder bei datenbasierten Entscheidungen zu unterstützen oder einen Prozess zu automatisieren (wenn dies Ihr Ergebnis ist, vergessen Sie nicht den nächsten Schritt: Monitoring).
monitoring
Monitoring: Nachdem das Modell bereitgestellt wurde, muss es geprüft und gepflegt werden, damit es auch bei Erhalt neuer Daten ordnungsgemäß funktioniert. Modelle müssen überwacht werden, damit bei Datenverschiebungen aufgrund von Verhaltensänderungen oder anderen Faktoren Modellanpassungen vorgenommen werden können.
repeat
Wiederholung: Der Zyklus wiederholt sich, unabhängig davon, ob das endgültige Ziel eine sofortige Interpretation oder eine längerfristige Bereitstellung war. Das Endergebnis jedes Data-Science-Projekts sollte darin bestehen, etwas Neues über das untersuchte Thema oder Problem zu erfahren, was wiederum das Fachwissen erhöht und dann zu neuen, genaueren Fragen führt.

Data-Science-Anwendungen in verschiedenen Branchen

Unternehmen nutzen Data Science jeden Tag, um ihre Produkte und internen
Abläufe zu verbessern. Fast jede Art von Unternehmen in jeder Branche kann von
der Anwendung von Data Science profitieren.

Beispiele für Anwendungsfälle:

  • Ein Energieunternehmen, das Empfehlungsmodelle verwendet, um qualifizierten Kunden neue oder bestehende Energieprodukte zuzuweisen
  • Ein Finanzdienstleister, der Machine-Learning-Modelle nutzt, um potenzielle Kunden zu erreichen, die in der Vergangenheit von traditionellen Bankinstituten möglicherweise übersehen wurden
  • Ein Car-Sharing-Unternehmen, das Modelle zur dynamischen Preisgestaltung nutzt, um Personen, die ihre Autos zur Vermietung anbieten, Preisvorschläge zu unterbreiten
  • Eine Hochschuleinrichtung, die Daten aus Transkripten, standardisierten Testergebnissen, demografischen Informationen und mehr kombiniert, um Studierende zu identifizieren, bei denen das Risiko besteht, keinen Abschluss zu erlangen
  • Ein Fintech-Unternehmen, das eine Kombination aus komplexen Datensuchen und Entscheidungsfindungs-Algorithmen nutzt, um zu bewerten, ob ein Kreditantragsteller in betrügerischer Absicht handelt

In dem Whitepaper
Data Science in der Praxis: Fünf häufige Anwendungen
erfahren Sie mehr über diese Anwendungsfälle.

Business Intelligence und Data Science im Vergleich

Data Science bietet zwar viele Geschäftsanwendungen, der Schwerpunkt liegt
jedoch auf breiter angelegten und vielfältigeren Taktiken als
Business Intelligence.

Business Intelligence nutzt Statistik- und Visualisierungstools mit
herkömmlichen strukturierten Daten, um aktuelle und historische Trends auf
eine Weise zu beschreiben und darzustellen, die leicht zu verwenden und zu
verstehen ist.

Data Science nutzt diese Ansätze sowie Machine Learning mit strukturierten und
unstrukturierten Daten, um Beziehungen zu untersuchen und wahrscheinliche
Ergebnisse oder optimale Maßnahmen zu ermitteln.

Während die Ergebnisse von Business Intelligence in der Regel eine Art von
Bericht oder Dashboard sind (und somit einen Menschen informieren, der eine
Entscheidung mit der bestmöglichen Schätzung trifft), können mit Data Science
Entscheidungen und Maßnahmen direkt getroffen werden.

Wer kann Data Science nutzen?

Obwohl viele das vielleicht denken, sind Data Scientists nicht die einzigen,
die Data Science einsetzen. Tatsächlich kann jeder Data Science anwenden. Dank
technologischer Fortschritte erfordert Data Science keine speziellen
Programmierkenntnisse und kein fortschrittliches statistisches Know-how mehr.
„Drag & Drop“-Data-Science ist heute eine allgemein anerkannte und praktikable
Form der Data Science, mit der Analysten und andere Datenspezialisten Modelle
skalierbar erstellen und bereitstellen können. Diese so genannten „Citizen
Data Scientists“ oder Datenspezialisten, die erweiterte Analysen durchführen
können, ohne die Komplexität der Backend-Prozesse zu kennen, sind eine äußerst
gefragte Berufsgruppe.

Weil Data Science so stark gefragt ist, weil herkömmliche Data Scientists oft
hohe Gehälter beziehen und weil ihre begrenzte Zahl für Engpässe sorgen kann,
gelten Citizen Data Scientists als Data-Science-Multiplikator. Mit
entsprechenden Kontrollen können Citizen Data Scientists die Modellproduktion
in jedem Unternehmen erheblich steigern, wodurch Erkenntnisse gewonnen und
Umsätze erzielt werden, die sonst unmöglich wären.

Erste Schritte mit Data Science

Die
Alteryx Analytic Process Automation™-Plattform
ermöglicht Ihnen die Erstellung automatisierter und wiederholbarer Workflows,
die den Prozess der Data Science im Allgemeinen einfacher und effizienter
gestalten können. Datenzugriff, -vorbereitung und -modellierung sowie das
Teilen von Analyseergebnissen erfolgen alle an einem Ort und auf einer
benutzerfreundlichen Plattform.

Mithilfe unseres Starter-Kits erfahren Sie außerdem, wie Sie
Alteryx mit Snowflake integrieren
können, einem Cloud-basierten Tool zur Datenspeicherung und -analyse. Durch
die gemeinsame Verwendung dieser beiden Komponenten können Sie einfach
Analyse- und Data-Science-Ergebnisse in der Cloud verbessern.

Außerdem bieten wir neuen Absolventen und arbeitslosen Datenspezialisten das
ADAPT-Programm (Advancing Data & Analytics Potential Together) an. Sie
erhalten Zugang zu kostenlosen Kursen zu Data Science und Analysen, eine
Lizenz für Alteryx Designer, virtuellen persönlichen Support von unseren
Mitarbeitern und vieles mehr.
Erfahren Sie mehr und bewerben Sie sich
jetzt für das Programm.

Nächster Begriff