Im Jahr 2011 prägte James Dixon, der Gründer und damalige CTO von Pentaho , den Begriff "Data Lake" Sein Ziel war es, die Probleme mit traditionellen Data Warehouses zu überwinden, die mit der Notwendigkeit einer Vorkategorisierung am Einstiegspunkt zusammenhängen. Seitdem haben wir uns von den Ideen der Data Warehouses und Data Lakes weiterentwickelt und sind beim aktuell heißesten Thema angelangt - dem "Data Mesh"
Angesichts der wachsenden Bedeutung datengestützter Entscheidungen für den Unternehmenserfolg werfen wir einen kurzen Blick darauf, wie jedes dieser Konzepte Ihren Betrieb unterstützen kann
Ein Data Warehouse unterstützt die Integration von Daten aus heterogenen Quellen, kategorisiert und speichert sie für die künftige Verwendung. Die operativen Schemata werden hier für jede relevante Geschäftsanforderung vordefiniert, in der Regel nach dem ETL-Prozess (Extract-Transform-Load).
Zu den Herausforderungen, die mit einem Data Warehouse verbunden sind, gehören:
- Für jede neue Geschäftsanforderung müssen wir die entsprechenden Quellen und Daten identifizieren, um das Schema zu erstellen und den ETL-Prozess zu implementieren.
- Wenn das bestehende Schema aktualisiert werden muss, kann dies eine Herausforderung in Bezug auf den Zeitbedarf darstellen, da das Datenvolumen recht groß sein kann (mehrere Terabytes/Petabytes)
- Mehrere Data Warehouses könnten von Geschäftsanwendern erstellt worden sein, um ihre eigenen Rohdaten und verarbeiteten Daten für ihre Analyse- und BI-Berichte zu pflegen, was zu einer Duplizität der Quellen führt.
Data Lakes haben dazu beigetragen, die meisten der oben genannten Probleme mit Hilfe einer schemafreien Architektur für die Speicherung jeder Art von Daten in einem zentralisierten Speicher zu lösen. Sie sind mit mehreren Zonen konzipiert, angefangen von der Landing Zone für den Empfang der Daten (temporärer Datenspeicher), der Rohdatenzone für die Speicherung der ursprünglichen Daten, der Produktionszone, in der die bereinigten und verarbeiteten Daten gespeichert werden, der sensiblen Zone für die Speicherung sensibler Daten und der Entwicklungszone für die Arbeit der Datenwissenschaftler und Ingenieure. Dies wird über eine rollenbasierte Zugriffsverwaltung gesteuert.
Mit Data Lakes wird der ETL-Prozess nun zum ELT-Prozess (Extract-Load-Transform), bei dem alle Daten aus heterogenen Quellen zunächst in einem einzigen Speicher gesammelt werden (stellen Sie sich vor, dass verschiedene Datenströme in einen See fließen). Das Team aus Dateningenieuren, Datenwissenschaftlern und Geschäftsanalysten kann dann die wichtigsten Ergebnisse dynamisch ableiten.
Ungeachtet der Vorteile haben Data Lakes ihre eigenen Herausforderungen, darunter:
- Alle Daten werden in einem zentralen Speicher gesammelt, was zu einem Datensumpf führen kann, wenn es keine angemessene Katalogisierung gibt.
- Dateningenieure, die sich mit einem Data Lake befassen, verfügen nicht immer über ein tiefes Domänenverständnis, um die Zielergebnisse für das Unternehmen abzuleiten.
Ein Datengeflecht, das seinem Gegenstück, dem Dienst, ähnelt. Es löst das oben genannte Problem, indem es die Daten in Geschäftsbereiche aufteilt, in denen jeder Nutzer die relevanten Daten als Produkt besitzt, um sicherzustellen, dass jede Information vorhanden ist:
- Auffindbar
- Adressierbar
- Vertrauenswürdig und wahrheitsgetreu
- Selbstbeschreibend
- Interoperabel, und
- Sicher

Abbildung 1 Data Mesh-Architektur aus der 30K-Fuß-Ansicht von Martin Flower
Ref: https://martinfowler.com/articles/data-monolith-to-mesh.html
Data Mesh ist ein neues Muster, das neben Data Warehouse und Data Lakes existiert. Während Data Warehousing die übergeordnete Aktivität bleibt, fungieren Data Lakes als breiterer Informationsspeicher, wobei das Data Mesh einen schnelleren Zugriff auf Erkenntnisse und Analysen ermöglicht.
Durch die Einführung einer virtuellen Trennung innerhalb eines Data Lakes und die Überwindung der Herausforderungen, die mit einer Datenpfütze oder einem Datenteich verbunden sind, hat sich ein Data Mesh daher als das heißeste neue Thema in diesem Bereich herauskristallisiert.