white pattern

Data Science

Was ist Data Science?

Data Science ist eine Form angewandter Statistik, die Elemente der Informatik und Mathematik einbezieht, um Erkenntnisse sowohl aus quantitativen als auch qualitativen Daten zu gewinnen.

Zu den in der Data Science verwendeten Tools und Technologien gehören Algorithmen und Frameworks für Machine Learning sowie Programmiersprachen und Visualisierungsbibliotheken.

Ein Data Scientist kombiniert Programmier-, Mathematik- und Fachwissen, um Fragen anhand von Daten zu beantworten.

Warum ist Data Science wichtig?

Durch Data-Science-Verfahren bleiben Unternehmen wettbewerbsfähig und produktiver.

Organisationen, die Data Science einen hohen Stellenwert einräumen, identifizieren Trends und Chancen, die ohne Nutzung der verfügbaren Daten möglicherweise nicht realisiert worden wären. Die Erkenntnisse aus Data Science können enorme Auswirkungen auf die Geschäftsergebnisse haben.

Data Science extrahiert nützliche Informationen aus großen und kleinen Datasets. Obwohl zum Trainieren von KI-Systemen (Künstliche Intelligenz) große Mengen an Daten benötigt werden, kann Data Science auch bei kleinen Datasets helfen.

Beispielsweise haben Einzelhändler früher den Lagerbestand für ihre Filialen auf Grundlage des Umsatzes der jeweiligen Filiale vorhergesagt. Als Geschäfte wegen der COVID-19-Pandemie schließen mussten, mussten Einzelhändler ihre Prognosemethoden ändern, da sich auch die Menge und Art der verfügbaren Daten änderten.

Wenn nur eine kleine Menge an Daten betrachtet werden kann, nutzt Data Science Verfahren wie Datenanreicherung, Generierung synthetischer Daten, Transfer Learning und Ensemble Learning, um Erkenntnisse zu gewinnen.

Data Science ermöglicht es Organisationen außerdem, zusätzliche Resilienz zu schaffen. In dieser schnelllebigen, technologisierten Welt, in der sich die Dinge im Handumdrehen ändern können, müssen Unternehmen in der Lage sein, sich anzupassen und schnell zu reagieren, um zu überleben. Und Data Science kann dazu beitragen.

Data Science wird von vielen Organisationen genutzt und bietet zahlreiche branchenspezifische Anwendungen. Organisationen, die Data Science nicht nutzen, laufen Gefahr, abgehängt zu werden – oder sogar ganz schließen zu müssen.

Data-Science-Lebenszyklus

Data Science ist ein zyklischer Prozess. Der Lebenszyklus kann in folgende Schritte unterteilt werden:

topic expertise

Fachwissen: Zunächst muss ein Data Scientist ein grundlegendes Verständnis des Themas oder Problems haben, das er untersuchen möchte, damit er sinnvolle Fragen zu diesem Thema oder Problem stellen kann. Data Science besteht per se darin, Erklärungen darüber zu erhalten, warum Dinge so sind, wie sie sind. Das richtige Fachwissen sorgt dafür, dass die Anforderungen eines Data-Science-Projekts definiert werden können, und führt zu zuverlässigeren, datengestützten Entscheidungen.

data aquistion

Datenerfassung: Der nächste Schritt im Data-Science-Lebenszyklus besteht darin, die richtigen Daten zu sammeln, um die definierte Frage zu beantworten. Die Daten können an verschiedenen Orten abgelegt sein oder lassen sich vielleicht je nach technischen Kenntnissen der jeweiligen Person nur schwer erreichen. Der Erfolg des weiteren Data-Science-Prozesses hängt jedoch von der Qualität der in diesem Schritt erfassten Daten ab – und davon, wie gut diese vorbereitet sind.  

data preparation

Datenvorbereitung: Die Datenvorbereitung ist der zeitaufwendigste – und wohl wichtigste – Schritt im Data-Science-Zyklus. Wie es so schön heißt: Von nichts kommt nichts. Die Daten müssen vor der Analyse ordnungsgemäß bereinigt und zusammengeführt werden. Dazu gehören beispielsweise die Integration unterschiedlicher Datenquellen, die Handhabung fehlender Werte und Ausreißer und vieles mehr. Während dieses iterativen Schritts erkennt ein Data Scientist möglicherweise, dass er zurückgehen und mehr Daten sammeln muss.

data exploration

Datenexploration: Bei der Datenexploration geht es darum, Muster in einem Dataset zu identifizieren und zu verstehen. Sobald die Daten bereinigt und nutzbar sind, können Data Scientists Zeit damit verbringen, die Daten zu untersuchen und Hypothesen zu entwickeln, die getestet werden sollen. Dies ist ein weiterer iterativer Schritt in einem iterativen Prozess und Data Scientists müssen möglicherweise einen oder zwei Schritte zurückgehen, um auf Grundlage der Ergebnisse zusätzliche Bereinigungs- und Zusammenführungsvorgänge durchzuführen. Diese Praxis schließt die Überprüfung der verschiedenen Attribute jedes Datenpunkts – oder „Merkmale“ im Dataset – und die Bestimmung ein, ob weitere Zusammenführungen und Datentransformationen potenziell hilfreiche neue Merkmale mit sich bringen. Der Prozess der Erstellung neuer Merkmale in Daten wird häufig als „Feature Engineering“ bezeichnet. Er findet in der Regel im Zusammenspiel zwischen den Schritten zur Datenexploration und Datenvorbereitung statt.

predictive modeling and exploration

Prognosemodellierung und Bewertung: Nach der Exploration kann ein Data Scientist mit dem Training von Prognosemodellen beginnen. Prognosemodellierung kann oft mit der Datenexploration kombiniert werden. Sobald die Modellierung und Bewertung beginnt, wird ein Data Scientist wahrscheinlich neue Dinge über die Merkmale im Dataset bemerken und einen weiteren Schritt zurückgehen, um das Feature Engineering zu wiederholen. Wenn Modelle erstellt werden, müssen sie bewertet werden. Ein Data Scientist sollte weiter Modelle testen und verfeinern, bis er mit einem zufrieden ist.

interpretation and deployment

Interpretation und Bereitstellung: Das Ergebnis dieser Arbeit kann eine Interpretation der Daten und Ergebnisse sein, bei der der Data Scientist das Modell und alle Analysen verwendet, die er während des Lebenszyklus durchgeführt hat, um die Frage zu beantworten, mit der er begonnen hat. Ein weiteres Ergebnis könnte sein, dass das Modell für die Bereitstellung bestimmt ist, wo es verwendet wird, um Stakeholder bei datenbasierten Entscheidungen zu unterstützen oder einen Prozess zu automatisieren (wenn dies Ihr Ergebnis ist, vergessen Sie nicht den nächsten Schritt: Monitoring).

monitoring

Monitoring: Nachdem das Modell bereitgestellt wurde, muss es geprüft und gepflegt werden, damit es auch bei Erhalt neuer Daten ordnungsgemäß funktioniert. Modelle müssen überwacht werden, damit bei Datenverschiebungen aufgrund von Verhaltensänderungen oder anderen Faktoren Modellanpassungen vorgenommen werden können.

repeat

Wiederholung: Der Zyklus wiederholt sich, unabhängig davon, ob das endgültige Ziel eine sofortige Interpretation oder eine längerfristige Bereitstellung war. Das Endergebnis jedes Data-Science-Projekts sollte darin bestehen, etwas Neues über das untersuchte Thema oder Problem zu erfahren, was wiederum das Fachwissen erhöht und dann zu neuen, genaueren Fragen führt.

Data-Science-Anwendungen in verschiedenen Branchen

Unternehmen nutzen Data Science jeden Tag, um ihre Produkte und internen Abläufe zu verbessern. Fast jede Art von Unternehmen in jeder Branche kann von der Anwendung von Data Science profitieren.

Beispiele für Anwendungsfälle:

  • Ein Energieunternehmen, das Empfehlungsmodelle verwendet, um qualifizierten Kunden neue oder bestehende Energieprodukte zuzuweisen
  • Ein Finanzdienstleister, der Machine-Learning-Modelle nutzt, um potenzielle Kunden zu erreichen, die in der Vergangenheit von traditionellen Bankinstituten möglicherweise übersehen wurden
  • Ein Car-Sharing-Unternehmen, das Modelle zur dynamischen Preisgestaltung nutzt, um Personen, die ihre Autos zur Vermietung anbieten, Preisvorschläge zu unterbreiten
  • Eine Hochschuleinrichtung, die Daten aus Transkripten, standardisierten Testergebnissen, demografischen Informationen und mehr kombiniert, um Studierende zu identifizieren, bei denen das Risiko besteht, keinen Abschluss zu erlangen
  • Ein Fintech-Unternehmen, das eine Kombination aus komplexen Datensuchen und Entscheidungsfindungs-Algorithmen nutzt, um zu bewerten, ob ein Kreditantragsteller in betrügerischer Absicht handelt

In dem Whitepaper Data Science in der Praxis: Fünf häufige Anwendungen erfahren Sie mehr über diese Anwendungsfälle.

Business Intelligence und Data Science im Vergleich

Data Science bietet zwar viele Geschäftsanwendungen, der Schwerpunkt liegt jedoch auf breiter angelegten und vielfältigeren Taktiken als Business Intelligence.

Business Intelligence nutzt Statistik- und Visualisierungstools mit herkömmlichen strukturierten Daten, um aktuelle und historische Trends auf eine Weise zu beschreiben und darzustellen, die leicht zu verwenden und zu verstehen ist.

Data Science nutzt diese Ansätze sowie Machine Learning mit strukturierten und unstrukturierten Daten, um Beziehungen zu untersuchen und wahrscheinliche Ergebnisse oder optimale Maßnahmen zu ermitteln.  

Während die Ergebnisse von Business Intelligence in der Regel eine Art von Bericht oder Dashboard sind (und somit einen Menschen informieren, der eine Entscheidung mit der bestmöglichen Schätzung trifft), können mit Data Science Entscheidungen und Maßnahmen direkt getroffen werden.  

Wer kann Data Science nutzen?

Obwohl viele das vielleicht denken, sind Data Scientists nicht die einzigen, die Data Science einsetzen. Tatsächlich kann jeder Data Science anwenden. Dank technologischer Fortschritte erfordert Data Science keine speziellen Programmierkenntnisse und kein fortschrittliches statistisches Know-how mehr. „Drag & Drop“-Data-Science ist heute eine allgemein anerkannte und praktikable Form der Data Science, mit der Analysten und andere Datenspezialisten Modelle skalierbar erstellen und bereitstellen können. Diese so genannten „Citizen Data Scientists“ oder Datenspezialisten, die erweiterte Analysen durchführen können, ohne die Komplexität der Backend-Prozesse zu kennen, sind eine äußerst gefragte Berufsgruppe.

Weil Data Science so stark gefragt ist, weil herkömmliche Data Scientists oft hohe Gehälter beziehen und weil ihre begrenzte Zahl für Engpässe sorgen kann, gelten Citizen Data Scientists als Data-Science-Multiplikator. Mit entsprechenden Kontrollen können Citizen Data Scientists die Modellproduktion in jedem Unternehmen erheblich steigern, wodurch Erkenntnisse gewonnen und Umsätze erzielt werden, die sonst unmöglich wären.

Erste Schritte mit Data Science

Die Alteryx Analytic Process Automation™-Plattform ermöglicht Ihnen die Erstellung automatisierter und wiederholbarer Workflows, die den Prozess der Data Science im Allgemeinen einfacher und effizienter gestalten können. Datenzugriff, -vorbereitung und -modellierung sowie das Teilen von Analyseergebnissen erfolgen alle an einem Ort und auf einer benutzerfreundlichen Plattform.

Mithilfe unseres Starter-Kits erfahren Sie außerdem, wie Sie Alteryx mit Snowflake integrieren können, einem Cloud-basierten Tool zur Datenspeicherung und -analyse. Durch die gemeinsame Verwendung dieser beiden Komponenten können Sie einfach Analyse- und Data-Science-Ergebnisse in der Cloud verbessern.

Außerdem bieten wir neuen Absolventen und arbeitslosen Datenspezialisten das ADAPT-Programm (Advancing Data & Analytics Potential Together) an. Sie erhalten Zugang zu kostenlosen Kursen zu Data Science und Analysen, eine Lizenz für Alteryx Designer, virtuellen persönlichen Support von unseren Mitarbeitern und vieles mehr. Erfahren Sie mehr und bewerben Sie sich jetzt für das Programm.

E-Book
E-book
3 min to read

Datenpioniere: Erweiterte Analysen erschließen | Alteryx

Analyst
Führungskraft
Analytic Process Automation
Read Now
Whitepaper
White paper

Best Practices für die Verwendung von Alteryx mit Snowflake

So richten Sie Daten und Workflows zwischen Alteryx und Snowflake ein, verbinden, laden und integrieren sie.

Datenvorbereitung und Analyse
Informationstechnologie
Technologie
Read Now
Whitepaper
White paper
3 min to read

Data Science in der Praxis: Fünf häufige Anwendungen

Überall in der Geschäftswelt wird über Data Science gesprochen. Doch was ist das eigentlich? Entdecken Sie, was wirklich hinter Data Science steckt und wie Sie diese für Ihr Unternehmen einsetzen können — damit auch Ihre Analysten pünktlich zum Abendessen zu Hause sind. Wenn Sie sich insgeheim fragen, ob Data Science wirklich eine Wissenschaft oder eine Art schwarzer Magie ist, sollten Sie dieses Whitepaper lesen.

Analyst
Führungskraft
Data Scientist
Read Now

Starter-Kit für Predictive Analytics

Dieses Starter-Kit enthält Analysevorlagen, die Ihnen helfen, mithilfe von linearen Regressionsmodellen, Zeitreihenprognosen und A/B-Analysen Predictive Analytics durchzuführen.

Bild

_$$$

Intelligence Suite – Kostenlose Testversion

Beginnen Sie mit der Textanalyse und erstellen Sie Prognosen im Handumdrehen. Erleben Sie automatisiertes Machine Learning und Natural Language Processing in einem Low-Code-/No-Code-Format.