Generationen-übergreifende Data Lakes mit Open-Source-Software aufbauen
Data Lakes der ersten Generation wurden in der Regel in den Rechenzentren der Unternehmen mit den Open-Source-Produkten des Apache-Hadoop-Ökosystems aufgebaut. Die Verarbeitung großer Datenmengen wurde durch die enge Kopplung von Storage- und Compute im Cluster ermöglicht.
Durch die größere Bandbreite moderner Netzwerktechnologie kann dieses Paradigma bei den Data Lakes der zweiten Generation aufgegeben werden. Dies ermöglicht modulare, flexible Architekturen, die häufig in der Cloud mit den proprietären Managed Services der Anbieter umgesetzt werden.
Cloud-native Konzepte und Technologien wie Containerisierung und Kubernetes machen es aber möglich, moderne Datenplattformen mit Open-Source-Software zu orchestrieren, und das nicht nur in einer Cloud, sondern auch Multi-Cloud oder hybrid. Der modulare Architekturansatz eignet sich auch für die Implementierung eines dezentralen Data Mesh, der dritten Generation von Data Lakes.
In diesem Vortrag möchten wir die Architektur unserer integrierten Datenplattform vorstellen, und unseren Ansatz „Everything-as-Code“ an den Beispielen Deployment und Security erläutern. Wir werden auf aktuelle Herausforderungen bei der Implementierung der Plattform eingehen und verschiedene Szenarien darstellen, wie sie bei unseren Kunden und Partnern eingesetzt wird.
Vorkenntnisse
Grundkenntnisse zu Data Lakes, Containerisierung und Kubernetes sind hilfreich.