Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

SIGS DATACOM GmbH

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

Data Warehouse as a Service: Analysen mit 3D-Effekt

Herkömmliche, lokale Data Warehouses und Big-Data-Lösungen stoßen beim Aufkommen großer Datenmengen an ihre Grenzen, wenn es um schnelle Analysen und die Bereitstellung von Informationen für verschiedene Fachbereiche geht. Snowflake will mit einem SQL-basierten Data Warehouse für die Cloud die Probleme lösen. Arjan van Staveren, Managing Director Major Accounts DACH bei der Snowflake Computing GmbH, erklärt im Interview, welche Vorteile eine „Single Source of Truth“ dem Anwender bringt.

Author Image
Christoph Witte

Chefredakteur IT Spektrum und BI-Spektrum


  • 22.06.2020
  • Lesezeit: 6 Minuten
  • 85 Views

BI-Spektrum: Was sind aktuell die größten Herausforderungen für die Anwender in Bezug auf Daten?
Van Staveren: Es gibt drei kritische Herausforderungen. Erstens: Die Anwender haben sehr viele unterschiedliche „Datentöpfe“. Die Datenbank müsste eigentlich die „Single Source of Truth“ sein – ist es allerdings durch die vielen Datensilos oft nicht. Zweitens: die Performance, die nötig ist, um an die Daten zu kommen und aussagekräftige Reports zu erhalten. Und drittens: die Skalierbarkeit. Wenn viele Anwender zu Stoßzeiten auf Daten zugreifen wollen, leidet oft die Geschwindigkeit darunter und die Endverbraucher beschweren sich.

BI-Spektrum: Welche Auswirkungen hat das?
Van Staveren: Das wirkt sich nicht nur negativ auf die Benutzerfreundlichkeit aus, sondern führt auch zu Querelen zwischen IT- und BI-Kollegen im Unternehmen. Die IT-Kollegen kritisieren, dass die BI-Verantwortlichen zu viel bemängeln, weil sie die Komplexitäten der Technologie nicht immer verstehen – während das andere Lager argumentiert: „Ich möchte doch nur auf meine Daten zugreifen, das ist ja wohl nicht zu viel verlangt.“

BI-Spektrum: Wie löst die Plattform diese Probleme?
Van Staveren: Wir realisieren den „Single Source of Truth“-Ansatz. Alle Daten sind zentral in der Cloud gespeichert. Und abgedeckt werden nicht nur die klassischen Datenszenarien wie in einer relationalen Datenbank, sondern auch die Data-Lake-Szenarien mit vielen semistrukturierten Daten. Basis ist eine neue Architektur, auf die alle Nutzer zugreifen können.

BI-Spektrum: Wie sieht diese neue Architektur aus?
Van Staveren: Die Datenplattform basiert auf einer patentierten Multi-Cluster/Shared-Data-Architektur, die speziell für die Cloud entwickelt wurde. Die Architektur besteht aus drei voneinander unabhängigen Schichten: Daten-, Rechen- und Service-Schicht, die getrennt skalierbar sind. Als Datenschicht fungiert der Storage Layer des jeweiligen Cloud-Providers. Die darüber liegende Rechenschicht besteht aus Virtual Warehouses, die in „T-Shirt-Größen“ von XS (1 Rechenknoten) bis 4XL (128 Rechenknoten) verfügbar sind. Sie können im laufenden Betrieb nach Abfragebedarf dynamisch skaliert werden. Die dritte Schicht bietet verschiedene Services, beispielsweise Sicherheitsfunktionen und Authentifizierung, Datennutzung und das Management der Anfragen von integrierten analytischen Werkzeugen sowie der externen Kommunikation. Die Rechenschicht erlaubt jedem Kunden per Knopfdruck und in Sekundenschnelle das Aufsetzen beliebig vieler virtueller Warehouses, die alle physisch vollkommen unabhängig voneinander sind und keinerlei gemeinsame Ressourcen wie Prozessoren oder Arbeitsspeicher besitzen. Sie können aber parallel auf die Datenbestände zugreifen, ohne sich gegenseitig zu beeinträchtigen. Deshalb lassen sich beispielsweise mehrere analytische Lösungsmöglichkeiten für ein Problem durchspielen, indem als Test mehrere kleinere Warehouses für je einen Lösungsweg eingerichtet werden, um dann zu beobachten, welche Lösungsvariante die besten Ergebnisse bringt. Ein Snowflake-Kunde kann für jede Abteilung oder jede Aufgabe ein Virtual Warehouse einrichten und es auch genauso schnell wieder löschen. Ressourcenlimits haben in der Praxis für Kunden keine Bedeutung, da lediglich die Begrenzungen der jeweiligen Clouds bestehen und damit de facto immer genug Ressourcen bereitstehen. Während viele herkömmliche Architekturen Speicher und Rechenleistung miteinander verknüpfen, trennt Snowflake diese voneinander und ermöglicht so ein automatisches, schnelles und einfaches Skalieren von Speicher, Analysen oder Ressourcen für jeden Job

BI-Spektrum: Was bedeutet das für die IT-Abteilung?
Van Staveren: Das Cloud Data Warehouse ist eine Software-as-a-Service-(SaaS-)Lösung. Man muss keine Hardware – virtuell oder physisch – sowie Software auswählen, installieren, konfigurieren oder managen. Wartung, Management der Umgebung und Optimierungen werden direkt von Snowflake übernommen. Optimierungen, beispielsweise der Query-Abfragen, werden von einer Engine unterstützt. Teures, hochqualifiziertes Personal für dieses Thema ist nicht nötig, die Mitarbeiter können sich anderen Themen widmen.

BI-Spektrum: Was sind die Vorteile für die Anwender?
Van Staveren: Snowflake unterstützt alle gängigen Datenmanagement- und Analytics-Tools, beispielsweise Tableau, PowerBI, MicroStrategy, Cognos, Qlik, Spark und Python. Die Lösung wurde für hohe Leistungsanforderungen konzipiert. Da die Architektur Rechen- von Speicherkapazitäten trennt, können die Komponenten jederzeit auf Knopfdruck angepasst und damit die benötigte Leistung erzielt werden. Dabei können viele Anwender oder verschiedene Fachbereiche gleichzeitig auf Daten zugreifen – ohne Auswirkungen auf die Performance.

BI-Spektrum: Was sind die wichtigsten Unterschiede zwischen einer Datenplattform, einem Data Warehouse und einem Data Lake?
Van Staveren: Ein Data Warehouse ist in erster Linie für relationale Zwecke gebaut. Es ist allerdings meist nicht in der Lage, große Datenmengen zu verarbeiten. Data Lakes wurden mit Hadoop aufgesetzt, um dieses Problem zu lösen. Allerdings sind sie wiederum nicht optimal für die schnelle Analyse strukturierter Daten in den Fachbereichen, die mit BI-Tools arbeiten. Snowflake schließt die Lücke: Strukturierte und semistrukturierte Daten wie XML oder JSON lassen sich in einer Datenplattform verarbeiten.

BI-Spektrum: Wofür nutzen Kunden diese Datenplattform?
Van Staveren: Das ist unterschiedlich. Die einen modernisieren ihre Data Warehouses, um alle Daten in einem Pool zusammenzuführen und sie allen Nutzern und Anwendungen für Analysen zur Verfügung zu stellen. Andere verwenden die Lösung als Data Lake, beispielsweise für IoT-Daten, um effektive Predictive Maintenance betreiben zu können. Viele schätzen auch die Nutzung als „Data Sharehouse“, denn es lassen sich Daten in Echtzeit mit Partnern austauschen. Nanigans beispielsweise, ein Softwareanbieter für Werbeautomatisierung, optimiert mit Snowflake seine Multi-Channel-Werbeausgaben von mehr als 700 Millionen US-Dollar für seine kommerziellen Werbekunden. Er hat zudem Data Sharing im Einsatz, damit seine Kunden in Echtzeit den kontrollierten und sicheren Zugriff auf ihre Daten ohne Bezug zu Personen freigeben können, um ihre Werbeausgaben zu optimieren. Und PDX, ein Anbieter von Apothekenmanagementsoftware und -dienstleistungen, empfängt und verarbeitet täglich Patienten- und Betriebsdaten von mehr als 9.000 Apotheken. Diese Daten müssen ständig ergänzt, aktualisiert und schnell analysiert werden. In Deutschland nutzen zum Beispiel Siemens, AXA und Uniper Energy unsere Software.

BI-Spektrum: Wie wird die Nutzung abgerechnet?
Van Staveren: Abgerechnet wird die verbrauchte Speichermenge und die Nutzung der Rechenknoten im Sekundentakt – wenn ein virtuelles Warehouse aktiv ist und Daten analysiert. Dies lässt sich auch automatisieren, beispielsweise am Monatsende, wenn Verkaufszahlen oder Maschinenausfälle analysiert werden sollen.

BI-Spektrum: Welche Voraussetzungen müssen Kunden schaffen, um diese Plattform zu nutzen?
Van Staveren: Die wichtigste ist, dass man sich traut, den Status quo in Frage zu stellen und sich von Altlasten zu trennen. Dann kann ein „3D-Effekt“ eintreten: Die Welt wird mehrdimensional. Es können auch mehrere analytische Lösungswege für ein Problem getestet werden. Ganz einfach dadurch, dass der Kunde mehrere kleinere Warehouses für je einen Lösungsweg einrichtet und sich dann die jeweiligen Ergebnisse anschaut. Wenn die Daten demokratisiert und für alle Fachbereiche zugänglich sind, können diese eigene Use-Cases bauen – Beschränkungen sind dann Schnee von gestern.

. . .

Author Image
Zu Inhalten
Arjan Van Staveren
Author Image

Christoph Witte

Chefredakteur IT Spektrum und BI-Spektrum
Zu Inhalten

Christoph Witte ist Gründer der Wittcomm Agentur für IT, Publishing und Kommunikation. Darüber hinaus ist er Chefredakteur von IT Spektrum sowie BI-Spektrum und wirkt zudem bei dem Magazin JavaSPEKTRUM mit.


Artikel teilen