Metadatengetriebenes Framework für mandantenfähige Cloud Data Lakehouses
Traditionelle Data-Warehouse-Systeme liefern konsistente Daten, stoßen jedoch bei modernen Anforderungen an Reporting, Self-Service-Analytics und Mandantenfähigkeit an ihre Grenzen. Reine Data Lakes bieten Skalierbarkeit, leiden jedoch unter mangelnder Datenorganisation und fehlenden Beziehungen zwischen Geschäftsentitäten. Data Lakehouses vereinen die Stärken beider Ansätze, indem sie die Datalake-Technologie um Data-Warehouse-Funktionalitäten erweitern. Dieser Artikel stellt ein metadatengetriebenes Framework vor, das Schemata, Beziehungen und weitere Metadaten systematisch integriert. Besonderes Augenmerk liegt auf der Unterstützung logischer Mandantentrennung, um Plattformen für mehrere Kunden skalierbar und flexibel zu gestalten. Die Implementierung basiert exemplarisch auf Microsoft Azure und Databricks, ist jedoch konzeptionell anbieterunabhängig und lässt sich gleichermaßen mit Open-Source-Tools wie Apache Spark und Airflow realisieren.