Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

heise conferences GmbH

(vormals SIGS DATACOM GmbH)

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

Metadatengetriebenes Framework für mandantenfähige Cloud Data Lakehouses

Traditionelle Data-Warehouse-Systeme liefern konsistente Daten, stoßen jedoch bei modernen Anforderungen an Reporting, Self-Service-Analytics und Mandantenfähigkeit an ihre Grenzen. Reine Data Lakes bieten Skalierbarkeit, leiden jedoch unter mangelnder Datenorganisation und fehlenden Beziehungen zwischen Geschäftsentitäten. Data Lakehouses vereinen die Stärken beider Ansätze, indem sie die Datalake-Technologie um Data-Warehouse-Funktionalitäten erweitern. Dieser Artikel stellt ein metadatengetriebenes Framework vor, das Schemata, Beziehungen und weitere Metadaten systematisch integriert. Besonderes Augenmerk liegt auf der Unterstützung logischer Mandantentrennung, um Plattformen für mehrere Kunden skalierbar und flexibel zu gestalten. Die Implementierung basiert exemplarisch auf Microsoft Azure und Databricks, ist jedoch konzeptionell anbieterunabhängig und lässt sich gleichermaßen mit Open-Source-Tools wie Apache Spark und Airflow realisieren.

Frühere Data-Warehouse-Systeme (DWH) lieferten konsistente Daten, können jedoch den heutigen Anforderungen an Reporting und BI nicht mehr vollständig gerecht werden [1]. Data Lakes bieten nahezu unbegrenzte Skalierbarkeit, weisen aber Schwächen in der Nutzerfreundlichkeit und bei der Abbildung von Geschäftsbeziehungen auf [2]. Data Lakehouses schließen diese Lücke, indem sie die Skalierbarkeit von Data Lakes mit den Strukturen eines DWH verbinden, realisiert durch ein Framework, das Schemata, R…