BI-Spektrum: Mit welchen Problemen bei der Datenintegration haben Unternehmen zu kämpfen?
Golovin: Es lassen sich drei große Herausforderungen ausmachen. Da ist zunächst die ständig steigende Zahl von Datenquellen: Das Wachstum neuer Datenquellen ist durch den digitalen Wandel bedingt. Zudem müssen Legacy-Datenquellen integriert werden. Außerdem steigt die Zahl der Arten von Daten, und schließlich wird die Nutzung vielfältiger – wir haben nicht nur mehr Nutzer, sondern auch mehr Nutzungsarten. Nicht vernachlässigt werden dürfen die hohen Erwartungen – nach dem Motto: I want it now!
BI-Spektrum: Datenplattformen wie Data Virtuality meistern diese Herausforderungen?
Golovin: Data Virtuality ist eine Datenintegrationsplattform für sofortigen Datenzugriff, Datenzentralisierung und Data Governance. Der Nutzer muss sich keine Gedanken darüber machen, wo die Daten wirklich liegen. Denn Data Virtuality legt eine virtuelle Schicht über alle Datensilos, sodass diese aufgebrochen und die Daten zusammengeführt werden können. Die Daten werden so aus den Speicherorten abstrahiert.
BI-Spektrum: Und es entsteht eine zentrale Quelle der Wahrheit?
Golovin: Unternehmen sehen in ihren Data Lakes und Data Warehouses zentrale Quellen der Wahrheit. Die Praxis zeigt allerdings, dass dies in den meisten Fällen nicht klappt, da zum einen nicht alle Datenquellen angeschlossen werden können und zum anderen häufig mehr als ein Data Lake / Data Warehouse in einer Organisation bereits existieren. Die Integrationsplattform sorgt nun dafür, dass alle Daten, die bisher unterschiedliche Sprachen gesprochen haben, eine einheitliche Sprache sprechen – nämlich SQL. Sie fungiert als technische Übersetzerin und bietet Schnittstellen zu Systemen wie CRM, ERP und anderen – egal ob lokal gespeichert oder in der Cloud.
BI-Spektrum: Können Sie das anhand eines Use-Case erklären?
Golovin: Ein gutes Beispiel ist eine Bank. Der Finanzsektor steht unter Druck. Die digitale Transformation und die Einhaltung von Compliance-Vorgaben bereiten Probleme wie hohe Kosten und eine hohe Legacy-Rate. Verschiedene Data Warehouses oder Data Marts sind traditionell auf Finanzdaten und Reporting ausgerichtet. Eine neue Generation von Verbrauchern hat indes neue Erwartungen: personalisierte Dienste, die immer und überall verfügbar sind – und beispielsweise finanzielle Vermögenswerte berücksichtigen. Weitere Probleme stellen neue Gesetze und Verordnungen dar. Zu nennen sind hier die Zweite Zahlungsdiensterichtlinie (PSD2): Kunden können verlangen, dass Drittanbieter auf ihre Bankdaten zugreifen dürfen. Dafür müssen Daten kategorisiert, gruppiert und strukturiert werden. Außerdem sind neue Gesetze und Vorgaben wie IFRS9 und DSGVO/GDPR einzuhalten. Aufgrund der Komplexität der bestehenden Datenlandschaften sind das schwierige Aufgaben. Die Modernisierung und der entsprechende Umbau sind teuer und zeitaufwendig. Ein Logical Data Warehouse kann die Probleme lösen – es fasst alle nötigen Daten zusammen.
BI-Spektrum: Wie kann man sich das vorstellen?
Golovin: Das Logical Data Warehouse ist eine andere Form des virtuellen Data Lake. In beiden Fällen gibt es keine zentrale Datenbank. Das Logical Data Warehouse ist ein Ökosystem mehrerer zweckgebundener Datenbanken, Technologien und Tools. Diese arbeiten synergetisch zusammen, um die Datenspeicherung zu verwalten und leistungsfähige Business-Analyse-Funktionen bereitzustellen.
BI-Spektrum: Was passiert in diesem Warehouse?
Golovin: Es arbeitet nach dem „Best-Fit Engineering“-Prin-zip: Jeder Teil der Datenmanagement-Infrastruktur nutzt die am besten geeignete technische Lösung, um seine Aufgabe zu erfüllen. Das gilt auch für das Speichern von Daten, das von den Geschäftsanforderungen oder Service-Verträgen abhängt. Im Gegensatz zu Data Lakes stützt sich diese neue Architektur auf ein verteiltes Konzept und richtet die Datenspeicher-Auswahl an der Datennutzung aus. Sie arbeitet mit mehreren Technologien, die jeweils spezifische Aufgaben erfüllen.
BI-Spektrum: Was ist der Vorteil für den Use-Case Bank?
Golovin: Informationen werden mit einer einzigen Abfragesprache abgerufen, Abfrageergebnisse sind quasi in Echtzeit verfügbar und für spezifische Zwecke erstellte Datenmodelle oder -ansichten lassen sich
zusammenführen. Und das alles, ohne die Daten an einen zentralen Speicherort kopieren oder verschieben zu müssen. Mit Hilfe von Data Lineage – der Rückverfolgbarkeit – werden Transparenz und Revisionssicherheit verbessert, durch Echtzeitanbindung sind die Daten aktuell, und dank über 200 gebrauchsfertiger Konnektoren sind sie vollständig.
BI-Spektrum: Gibt es weitere Beispiele?
Golovin: Im Bereich E-Commerce lässt sich eine Customer Data Platform aufbauen und die Business-Logik verbessern, indem Produkt-, Kunden- und Marketingdaten verbunden werden. Zudem können die Anwender in Echtzeit auf Daten für Live-KPI-Tracking zugreifen.
BI-Spektrum: Was bedeutet das konkret?
Golovin: Es wird die ganze Wertschöpfungskette der Informationen und Zahlen zutage gefördert, die das Management erhält und die es braucht, um erfolgreicher zu arbeiten. Mit wenigen Klicks können sämtliche datengenerierenden und -verarbeitenden Systeme wie ERP- und CRM-Plattformen, Online-Shops, Social-Media-Anwendungen und nahezu jede beliebige SQL- und NoSQL-Datenquelle problemlos angebunden werden – in Echtzeit.
BI-Spektrum: Wo liegt der Unterschied zum traditionellen Data Warehouse?
Golovin: Ein Logical Data Warehouse wie Data Virtuality bietet eine übergeordnete logische Schicht, die die Architektur vereinheitlicht und die Abfragen und Prozesse nach Bedarf auf allen Systemen parallel durchführt. Da die Abfragen im Hintergrund bedarfsweise an die einzelnen Datenspeicher weitergeleitet werden können, kann ein und dieselbe Plattform für viele verschiedene Szenarien genutzt werden – viel mehr, als es beispielsweise bei einem traditionellen Data Warehouse möglich wäre. Auch neue Datenintegrationsansätze sind möglich, sodass sich die Nutzer primär nach den Unternehmensanforderungen ausrichten und die technologische Plattform bei Bedarf anpassen können. Die Nutzer haben nicht nur sofort Zugriff auf die Daten, sondern sie können auch mit diesen Verbindungen experimentieren. Der wesentliche Unterschied zu traditionellen ETL-Lösungen: Beim Logical Data Warehouse müssen die Daten zur Analyse nicht vorab bewegt werden. Das spart Zeit und Geld bei der Entwicklung und der Datenbankstrukturierung. Damit folgt das Logical Data Warehouse einem komplett anderen Datenintegrationsansatz als das relativ unflexible traditionelle Data Warehouse. Eine Bewegung der Daten in eine zentrale Datenspeicherung ist allerdings nach Bedarf möglich, um die Quellsysteme zu entlasten und die Performanz weiter zu steigern.
BI-Spektrum: Wie steht es um die Datenqualität?
Golovin: Schlechte Datenqualität ist weniger ein eigenständiges Problem. Vielmehr handelt es sich um ein Symptom, beispielsweise bei Problemen mit Business-Prozessen. Wir verfolgen dabei einen pragmatischen Ansatz: Die Datenqualitätsprobleme müssen zunächst sichtbar gemacht werden. Dann behandelt man am besten die Ursachen und legt ein Regelwerk darüber. Dieses Framework aus Plausibilitätsregeln kann man mit automatisierten Softwaretests vergleichen, welche die Datenqualität dauerhaft überwachen und verbessern.
BI-Spektrum: Gibt es auch eine „kleine Lösung“ für kleine Unternehmen?
Golovin: Die Nutzung von Daten für geschäftliche Zwecke ist auch für kleinere Unternehmen geschäftskritisch. Sie haben meist auch nur ein kleines BI-Budget und noch keine vollständige Dateninfrastruktur. Für sie haben wir die Cloud-Lösung Data Virtuality Pipes entwickelt. Damit lassen sich Data Pipes aus bereits vorhandenen Datenquellen wie Google Analytics, Salesforce, Facebook oder Amazon MWS erstellen. Die Datenquellen werden in ein Data Warehouse per Snowflake, Amazon Redshift, PostgreSQL oder Google BigQuery eingefügt, anschließend können sie mit BI-Tools wie Looker, Tableau oder Excel analysiert werden. Dieses Angebot lässt sich auch zwei Wochen lang kostenlos testen.
BI-Spektrum: Datenvirtualisierung gibt es seit rund 30 Jahren. Warum ist das Thema jetzt so aktuell?
Golovin: Dafür gibt es verschiedene Gründe: Zum einen ist es die Ernüchterung nach dem Data-Lake- und Data-Warehouse-Hype und die Suche der IT-Verantwortlichen nach zukunftsträchtigen Strategien. Zum anderen geht die ursprüngliche Technologie der Datenvirtualisierung oder Datenföderierung nun als „Enabling Technology“ in das übergreifende Konzept des Logical Data Warehouse auf. Dieses Konzept beantwortet und löst viele Fragen und Bedenken – zum Beispiel rund um die Themen Performance und Belastung der Datenquellen –, die durch die ursprüngliche Technologie nicht beantwortet wurden. In diesem Sinne kann man hier von „Datenvirtualisierung 2.0“ sprechen.
DR. NICK GOLOVIN hat Data Virtuality vor zwölf Jahren in Leipzig gegründet. Zuvor arbeitete der studierte Informatiker sechs Jahre lang als BI-Verantwortlicher für Koch Media. Er erkannte schnell, dass die verfügbaren Datenintegrations- und -management-Tools nicht mit den sich ständig ändernden Geschäftsanforderungen Schritt halten konnten. Das weckte Golovins Unternehmergeist und er entschied sich, seine beruflichen Erfahrungen mit den Erkenntnissen aus acht Jahren universitärer Forschungsarbeit zu kombinieren und die Data-Virtuality-Plattform zu bauen.
Das Interview führte Christoph Witte, Chefredakteur BI-Spektrum.