Daten-Readiness ist nicht neu. Aber KI verlangt mehr von ihr.
Es ist verlockend, sich KI als eine neue Grenze vorzustellen, die neue Regeln erfordert. In vielerlei Hinsicht bleiben die Prinzipien der Daten-Readiness jedoch unverändert. Saubere, gut strukturierte und gut dokumentierte Daten waren schon immer entscheidend für das Gewinnen von Erkenntnissen. Der Unterschied besteht nun darin, dass Maschinen – statt Menschen – diese Daten zunehmend nutzen und darauf reagieren, oft auf undurchsichtige oder zufallsbasierte Weise.
In einem aktuellen Alter Everything-Podcast diskutierte der Experte für Datenorchestrierung Nick Schrock, CTO und Gründer von Dagster Labs, darüber, was es wirklich bedeutet, Daten für KI vorzubereiten. Schrock gab praktische Einblicke, wie Unternehmen KI-bereite Daten vorbereiten, Herausforderungen beim Context Engineering meistern und eine effektive Governance für KI-gesteuerte Daten-Workflows etablieren können.
Der Aufstieg des Context Engineering
Hier kommt das Konzept des Context Engineering ins Spiel.
Jahrelang bezog sich „Prompt Engineering“ auf die Kunst, den perfekten Input für einen Chatbot zu erstellen. Aber wie Schrock erklärt, erfordert KI in Unternehmen etwas Anspruchsvolleres: die Orchestrierung des richtigen Kontexts, des richtigen Modells, zur richtigen Zeit.
Dies ist die Entwicklung vom einfachen Prompting hin zu echtem Engineering. Statt sich auf Ad-hoc-Prompts zu verlassen, müssen Unternehmen Systeme entwickeln, die den Datenkontext als bewussten, wiederverwendbaren Vermögenswert verwalten.
Schrock warnt davor, dass mehr Kontext nicht immer besser ist. Die Bereitstellung von zu vielen oder widersprüchlichen Informationen kann zu Verwirrung und Halluzinationen führen. Er weist auch auf das Problem des „Context Rot“ hin (im Grunde also veralteter Kontext), bei dem sich veraltete oder irrelevante Daten ansammeln, wodurch die Leistung im Laufe der Zeit beeinträchtigt wird.
Erfolg hängt von Präzision ab: relevante, hochwertige Kontexte zu kuratieren und effizient an das Modell bereitzustellen. Für viele Unternehmen ist das eine neue Disziplin und eine neue technische Herausforderung.
Governance in KI-Daten-Workflows
Data Governance war schon immer wichtig, aber KI erhöht die Anforderungen. Governance geht heute über Compliance und Datensicherheit hinaus. Es geht um Vertrauen, Erklärbarkeit und Kontrolle in einer Welt, in der KI Daten im Handumdrehen generieren und ändern kann.
Schrock betont die Notwendigkeit von Richtlinien, die definieren, wie KI in Datenpipelines funktioniert. Bei Dagster Labs entwirft sein Team Abstraktionen, die KI-Operationen auf kleinere, modulare Einheiten beschränken, um das zu verhindern, was er als „Super Spreading technischer Schulden“ bezeichnet. Ohne solche Grenzen können KI-Tools fehlerhafte Muster über eine gesamte Codebasis replizieren und so Fehler verschlimmern, anstatt sie zu beheben. Zu den wichtigsten Empfehlungen von Schrock gehören:
- Prompts und Metadaten wie Code behandeln. Sie sollten versioniert, überprüfbar und umkehrbar sein.
- KI-Operationen segmentieren. Begrenzen Sie, wo und wie KI mit Datenpipelines interagiert, um den Überblick zu behalten.
- Modellüberwachung etablieren. Überwachen Sie KI-Ausgaben durch Evaluierungen, um eine konsistente Leistung sicherzustellen und Qualitätsabweichungen zu erkennen.
Wie Schrock sagt, ist die Beobachtbarkeit von Modellen ein noch unerschlossenes Feld. Nur wenige Unternehmen verstehen vollständig, warum sich Modelle so verhalten, wie sie es tun. Aber die Einführung von Governance-Frameworks und Versionierungspraktiken trägt dazu bei, KI-Systeme zu entmystifizieren, und legt den Grundstein für Verantwortlichkeit.
Balance zwischen Geschwindigkeit und Qualität
Generative KI-Tools haben die Kosten für Experimente gesenkt, sodass Teams schneller als je zuvor Prototypen für Lösungen erstellen können. Aber schnelle Iterationen können auch zu fragilen Systemen führen, die realen Bedingungen nicht standhalten.
Schrock beschreibt dieses Spannungsfeld als „Wolkenkratzerproblem“: KI macht es einfach, hoch zu bauen, aber nicht unbedingt stabil. Ohne ein starkes Fundament riskieren Unternehmen eher Instabilität statt Innovation zu skalieren.
Um schnell voranzukommen und zuverlässig zu arbeiten, sollten Unternehmen auf eine phasenweise Bereitstellung setzen. Frühe Prototypen sind für das Lernen wertvoll, aber vor der Skalierung müssen Teams in saubere Datenmodelle, Pipeline-Validierung und Bewertungsmechanismen investieren, die über einen längeren Zeitraum Konsistenz sicherstellen. Das Versprechen der KI-Geschwindigkeit sollte genutzt werden, um das Lernen zu beschleunigen, nicht um die Disziplin des Daten-Engineerings zu umgehen.
Die Zukunft von KI und Data Engineering
Trotz aller Disruption, die KI verspricht, sieht Schrock sie als Katalysator und nicht als Ersatz für Data Engineering. „Ich war noch nie so optimistisch in Bezug auf Data Engineering“, sagt er. „Der zugrunde liegende Wert dieser Systeme kann nur mit gutem Engineering ausgeschöpft werden.“
KI hat auch das Potenzial, die Zusammenarbeit zwischen fachlichen und technischen Teams zu verbessern. Schrock beschreibt einen Use Case, bei dem sein Team einen Slack-Bot verwendet, um Anfragen in natürlicher Sprache in SQL-Abfragen zu übersetzen. Das Ergebnis ist ein gemeinsamer Bereich, in dem Stakeholder, die nicht technisch versiert sind, in einfachem Englisch ausdrücken können, was sie brauchen, und Data Engineers genau sehen können, wie diese Anfragen in Datenbankabfragen übersetzt werden.
Diese Art der KI-gestützten Zusammenarbeit schließt Kommunikationslücken und beschleunigt die Problemlösung. Geschäftsanwender:innen sprechen in ihrer eigenen Fachsprache, während Data Engineers nachvollziehen können, wie diese Sprache auf das Datenmodell abgebildet wird – ein gegenseitiger Lernprozess, der zu besseren Ergebnissen führt.
KI könnte auch die veraltete Infrastruktur transformieren. Mit der Fähigkeit, Code effizient neu zu schreiben und zu migrieren, können Unternehmen jahrzehntealte Systeme schneller als je zuvor modernisieren. Aber auch dieses Potenzial hängt von einer Sache ab: KI-bereiten Daten.
Der Weg zu echtem KI-Mehrwert
Während der KI-Hype weiter wächst, werden die Unternehmen erfolgreich sein, die über die stärksten Datenfundamente verfügen, nicht diejenigen mit den auffälligsten Demos. Bei der KI-Daten-Readiness geht es nicht nur darum, Systeme zu entwickeln, die sich anpassen, skalieren und Wert liefern, in einer Welt, in der Maschinen und Menschen zunehmend gemeinsam das Steuer übernehmen.
Jetzt ist es an der Zeit, in die weniger glamourösen, aber wesentlicheren Teile Ihrer KI-Strategie zu investieren: Datenqualität, Context Engineering, Governance-Frameworks und bereichsübergreifende Kompetenz.