Als umfassende Klammer setzt das Autoren-Kollektiv auf einen als Data Engineering Lifecycle beschriebenen Prozess, der die "Verarbeitung" der eingehenden Informationen als Pipeline vorzustellen sucht. Durch diese Vorgehensweise wird die auf den ersten Blick immens komplizierte Aufgabe in "Kleinteile" aufgebrochen, die sich individuell leichter verstehen lassen.
Damit ist der Zweck des ersten Teils beschrieben: Nach einem historischen Rückblick auf die Entwicklung von Big Data als Ganzes versuchen die Autoren zu begründen, wieso die Aufteilung und die Errichtung einer vernünftigen Datenarchitektur erforderlich sind. Hier zeigt sich der immense historische Wissensschatz der Verfasser. Die detaillierte Betrachtung der Rolle der einzelnen Elemente sorgt für mehr Verständnis, wenn es um die Auswahl der Komponenten eines Systems geht.
Das Buch folgt einem interdisziplinären Ansatz und geht schon früh darauf ein, dass ein "Data Engineer" nicht in der Luft hängt, sondern von anderen Abteilungen (Computersicherheit, aber auch Finanzen) abhängig ist. Die Ausführungen zur Verwaltung der verwendeten Ressourcen sind vorbildhaft; die Überlegungen für und wider der Nutzung von Cloud-Systemen präsentiert das Werk umfangreich. Dies hilft dem Leser, die für seine Aufgabe optimale Lösung zu finden. Interessant ist außerdem, dass sich am Ende jedes Kapitels zahlreiche Literaturverweise befinden – diese helfen beim Selbststudium.
Detailverliebt im Bereich der einzelnen Arbeitsschritte
Das Buch sieht sich explizit nicht als Schritt-für-Schritt-Anleitung zur Errichtung von Big-Data-Systemen. Diese Ausrichtung zeigt sich unter anderem daran, dass das Autorenkollektiv den "Fokus" in den einzelnen Kapiteln, beispielsweise zur Ingestion oder zur Speicherung, auf die dort auftretenden schwierigen Probleme legt. Der Leser erfährt beispielsweise, "wie" die Anlieferung von Informationen am effizientesten bewältigbar ist.
Im Kapitel zu den Datenbankabfragen finden sich „generische“ Hinweise zur Optimierung der Abfragelaufzeit. Was auf den ersten Blick wenig brauchbar klingt, erweist sich nach dem Durchlesen als gelungener Einstieg in das Thema und hilft bei der Findung von Optimierungspunkten für ein vorliegendes Produkt.
Mindestens ebenso wichtig ist die Frage, wie die Informationen zum Analysedienst gelangen – Daten-Leaks sind insbesondere in Zeiten von DSGVO und Co. ein immens teurer Spaß. Der dritte und letzte Teil wendet sich deshalb dieser Frage zu – neben praktischen Handreichungen stellen die Autoren auch Spekulationen dazu an, wie sich das Data Engineering in den nächsten Jahren weiterentwickeln wird.
Fazit und Ausblick
Mit dem "Handbuch Data Engineering" liefert O’Reilly ein Lehrwerk, das eine holistische Besprechung des Themas liefert, das für die Informatik als Ganzes im Laufe der nächsten Jahre von eminenter Bedeutung sein wird.
Wer – egal in welcher Form – mit Systemen der KI oder Big Data zu tun hat, bereut den Kauf auf keinen Fall. Die vermittelten Hintergrundinformationen und Einblicke in das große Ganze helfen, im täglichen Kampf um das Finden des besten Werkzeugs nicht vom Fluss der Daten mitgerissen zu werden. Nach Ansicht des Rezensenten ein empfehlenswertes Werk. Lobenswert sind außerdem der saubere didaktische Aufbau und die gelungene Übersetzung, der Text wirkt, als wäre es von einem Deutsch-Muttersprachler verfasst.
Joe Reis, Matt Housley Handbuch Data Engineering. Robuste Datensysteme planen und erstellen Seiten: 492 Verlag: O’Reilly, 2023 ISBN Print: 978-3-96009-216-2 Sprache: Deutsch