Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

SIGS DATACOM GmbH

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

„Unternehmen nutzen Kafka als moderne Middleware, die ETL und Messaging über die Zeit ersetzen kann“

BI-Spektrum sprach mit Kay Wähner, Technology Evangelist bei Confluent, der Firma, die von den ursprünglichen Entwicklern von Apache Kafka gegründet wurde. Er sieht Event-Streaming in digitalen Zeiten als eine essenzielle Infrastruktur, die es Unternehmen erst möglich macht, Daten in großem Stil in Echtzeit und über verschiedene Systeme hinweg integriert zu verarbeiten. Darüber hinaus prädestiniert die spezielle Art der Speicherung eventbasierte Datenhaltung für Analytics-Anwendungen.

Author Image
Christoph Witte

Chefredakteur IT Spektrum und BI-Spektrum

Author Image
Kai Waehner

Author


  • 15.10.2020
  • Lesezeit: 10 Minuten
  • 91 Views

BI-Spektrum: Welche Anwenderunternehmen nutzen Data-Streaming oder Event-Streaming und wo wird es in erster Linie eingesetzt? Was sind die Vorteile?

Wähner: Es gibt viele unterschiedliche Use Cases. Das beginnt bei technischer Datenintegration, spezifischer Anwendungsentwicklung bis hin zu Realtime Analytics. Die hinter Data-Streaming liegende Idee ist die Echtzeitverarbeitung von Daten. Historisch ist das bei LinkedIn entstanden, als die mit Hilfe von Kafka eine Pipeline zwischen zahlreichen alten und modernen Systemen gebaut haben, um sehr große Datenmengen in Echtzeit zu verarbeiten. Dazu gehörte die Integration mit klassischen relationalen Datenbanken und Data Warehouses, aber auch Big-Data-Lösungen wie Hadoop. Die Technologie hat sich jedoch deutlich weiterentwickelt und heute setzt man sie auch zur Entwicklung kontextsensitiver Anwendungen ein. Ein Beispiel dafür ist das Projekt „Reisendeninformation“ der Deutschen Bahn. Das hat wahrscheinlich schon jeder erlebt: Ein Zug verspätet sich. Auf der App wird die Verzögerung noch nicht angezeigt, auf dem Anzeigedisplay am Bahnsteig aber schon. Da spielen einige Systeme eine Rolle. Die Bahn benutzt Event-Streaming, um diese verschiedenen Systeme miteinander zu integrieren und zu korrelieren, um dem Nutzer sowohl in der App als auch auf dem Bahnsteig-Display die richtigen Informationen kontextspezifisch richtig zu zeigen. Natürlich gibt es noch weitere Anwendungsfälle, zum Beispiel im Automobilsektor oder auch bei Banken und Versicherungen, im Handel oder im Manufacturing-Bereich.

BI-Spektrum: Braucht Event-Streaming noch Datenbanken oder ersetzt es sie?

Wähner: Event-Streaming mit Kafka ist nicht die Wunderwaffe, die alle Probleme löst, sondern es ist komplementär zu anderen Lösungen. Es ersetzt also beispielsweise keinen Data Lake, den ich immer noch benötige, um Daten abzulegen und analytische Anwendungen anzudocken. Dennoch wird darüber durchaus projektspezifisch diskutiert, weil hinterfragt wird, in welchen Fällen noch eine zusätzliche Datenbank gebraucht wird oder welche Technologien überhaupt kombiniert werden. Schließlich ist Kafka nicht nur ein Messaging-, sondern auch ein Storage-System, das Terabyte- und größere Volumen auch langfristig speichern kann. Wofür Kafka dann letztlich eingesetzt wird, hängt vom jeweiligen Einsatzfall ab.

BI-Spektrum: Was speichert denn Kafka dann? Das Gleiche wie eine Datenbank?

Wähner: Speichern mit Kafka ist eventbasiert. In einer Datenbank oder einem Data Lake werden Daten „at rest“ gespeichert. Das heißt, sie werden abgelegt und es wird später wieder darauf zugegriffen. Kafka ist eventbasiert, das heißt, es wird nichts überschrieben, sondern jedes Event wird angehängt. Bei der Zugverspätung von eben wäre jede Minute, die sich der Zug verspätet, ein neues Event, die ursprüngliche Ankunftszeit wird nicht überschrieben. Der Vorteil dieser Speicherart ist, dass ich nicht nur das aktuelle Datum zur Verfügung habe, sondern die gesamte Veränderungshistorie. Für Analytics-Anwendungen ist das natürlich ein sehr großer Vorteil. Ich kann also in Kafka beides: Ich kann die Daten in Echtzeit verarbeiten, kann aber auch auf den gesamten Zeitstrahl von Events zugreifen, um zu analysieren.

BI-Spektrum: Vergrößert diese Art der Speicherung den Storage-Bedarf nicht sehr schnell und bläst die Systeme enorm auf?

Wähner: Nein, weil die Use-Cases sehr unterschiedliche Speicherbedarfe haben. Manche Daten werden nur kurzfristig gespeichert, weil sie nur kurz relevant sind, andere werden länger gespeichert. Viele Daten zum Beispiel zur Log-File- oder Sensor-Analyse werden nur einige Stunden vorgehalten. Außerdem produzieren einzelne Events, die gespeichert werden, zum Beispiel Transaktionen, sehr geringe Datenmengen, sodass ich sie länger in Kafka speichern und für andere Anwendungen zur Verfügung stellen kann.

BI-Spektrum: Gibt es Branchen oder Use-Cases, die besonders für Event-Streaming geeignet sind?

Wähner: Nein. Digitalisierung passiert überall. Auf der einen Seite bei großen E-Commerce-Unternehmen wie Zalando, die alles eventbasiert speichern, oder Video- und Games-Anbietern, die das ebenfalls so machen. Auf der anderen Seite haben wir aber auch Kunden in den traditionellen Branchen wie Banken, Versicherungen oder Automotive. Bosch zum Beispiel macht sehr viele Kafka-Projekte. Eins davon ist Track and Trace auf Baustellen. Das ist ein Service, bei dem Mitarbeiter auf einer Baustelle erfahren können, wo sich die Maschine befindet, die sie als Nächstes benötigen, oder ob die Maschine demnächst ein Ersatzteil braucht. Das wird ihnen auch als Push-Nachricht mitgeteilt. Aus dem gleichen Service heraus werden unterschiedliche Sichten angeboten. Baustellenleiter können zum Beispiel einen Überblick erhalten, welche ihrer Maschinen einsatzbereit sind und auf welchen Baustellen sich wie viele davon befinden etc. Für solche digitalen Services, die entsprechende IoT-Sensordaten verarbeiten, ist Event-Streaming unerlässlich.

BI-Spektrum: Wenn Sie einem Business-Manager die wichtigsten Vorteile von Event-Streaming erklären müssten, wie würden Sie ihm die nahebringen?

Wähner: Aus der Business-Perspektive kann ich mit Event-Streaming meinen Umsatz steigern, weil ich neue digitale Plattformen anbieten kann, die ein Unternehmen ohne Event-Streaming nicht offerieren könnte. Nicht nur Netflix oder Zalando setzen darauf, sondern auch die Versicherung Generali, die zum Beispiel ihre Telematik-Policen darauf basieren. Neben Umsatzsteigerung geht es aber auch oft um Kostensenkungen – hier kann man Integration oder Ablösung von Altsystemen nennen, zum Beispiel Mainframes. So entlastet die Royal Bank of Canada ihre Mainframes von großen Datenmengen, die sie dann via Kafka den Anwendungen zur Verfügung stellt. Ein weiterer klarer Business-Vorteil ist die Risikominimierung. Im Finanz-Trading zwingt die Regulatorik die Händler, Daten nicht mehr innerhalb von 24 Stunden, sondern im Minutenumfeld zu verarbeiten. Deshalb nutzen Kunden hier auch verstärkt Event-Streaming und keine Batch-Prozesse mehr. Ein weiteres Beispiel ist Betrugserkennung im Payment-Bereich. PayPal läuft komplett auf Kafka. Hier geht es darum, in Millisekunden Millionen von Kundentransaktionen zu bewerten. Parallel zu diesen Use-Cases sehen wir auch den Trend, dass Kunden diese Funktionen immer öfter als Service aus der Cloud verwenden möchten. Wir von Confluent bieten das an: Event-Streaming as a Service mit verbrauchsabhängigen Preisen.

BI-Spektrum: Was macht Confluent besser als andere Streaming-Plattformen?

Wähner: Da muss ich ein bisschen ausholen. Bisher ist es vor allem in Deutschland so, dass die Mehrzahl der Unternehmen noch kein Event-Streaming, sondern nach wie vor ETL- und Batch-Prozesse einsetzt für große Datenmengen oder ein reines Messaging, um die Daten von A nach B zu bringen. Aber das Interesse an Event-Streaming steigt enorm an. Aktuell nutzen 80 Prozent der Fortune-500-Unternehmen Apache Kafka – es hat sich als Industrie-Standard etabliert. Confluent wurde von den Erfindern von Kafka gegründet. Das heißt, die Leute, die diese Technologie vor zehn Jahren bei LinkedIn erfunden und deployed haben, haben die Technologie als Apache-Projekt Open Source gestellt und dann vor sechs Jahren Confluent gegründet. Wir sind nicht nur maßgeblich am Open-Source-Projekt beteiligt, sondern haben auch die Expertise und die Tools, die die Anwenderunternehmen benötigen, um Event-Streaming erfolgreich einsetzen zu können. Eine On-Premises-Plattform sowie eine As-a-Service-Variante in der Cloud stehen für den Unternehmenseinsatz zur Verfügung. Zu uns kommen die Kunden vor allem dann, wenn es um Mission-Critical-Projekte geht, also dann, wenn Datenverluste unbedingt verhindert werden müssen.

BI-Spektrum: Welchen Herausforderungen stehen Ihre Kunden im Streaming-Bereich gegenüber? Was machen die zurzeit mit dieser Technologie?

Wähner: Wir sehen hier drei große Challenges. Event-Streaming ist ein neues Konzept. Die Kunden verwenden SOAP und REST, um von A nach B Anfragen zu stellen und Antworten zu bekommen. Dabei benutzen sie klassische Datenbanken oder Data Lakes im Data-at-Rest-Konzept. Bei Event-Streaming geht es um Data in Motion, also darum, Daten kontinuierlich zu verarbeiten. Das hat von der Architektur und den Best Practices her ganz andere Design-Patterns, die erst einmal gelernt werden müssen. Dabei unterstützen wir unsere Kunden. Die zweite Herausforderung liegt in der Professionalisierung, wie man sie für ein Mission-Critical-Projekt braucht, das 24 x 7 laufen muss. Viele unserer Kunden beginnen mit einem Open-Source-Projekt, wenden sich aber später an uns, wenn die Projekte größer und kritischer werden. Die dritte Challenge liegt in der Integration und Korrelation der Daten und Systeme, damit die Daten zusammengeführt und in Echtzeit verarbeitet werden können. Hier bietet Kafka große Vorteile gegenüber reinem Messaging und traditionellen Lösungen.

BI-Spektrum: Wohin geht die Reise im Bereich Event-Streaming, wo werden Ihre Kunden diese Technologie künftig verstärkt einsetzen?

Wähner: Das Volumen der Daten steigt weiter dramatisch an und es gibt einen immer stärkeren Bedarf, diese Daten in Echtzeit zu verarbeiten – nicht unbedingt immer in Millisekunden, aber doch in Sekunden oder Minuten. In der Integration mit anderen Systemen sehen wir den zweiten großen Trend. Die Kunden bauen nicht nur neue Anwendungen mit Event-Streaming, sondern sie nutzen es auch immer öfter zur Integration mit den Altsystemen. Das können Themen sein wie Mainframes bei Banken oder Versicherungen, das kann aber auch eine traditionelle Middleware sein wie ein ETL-Batch-Prozess oder auch ERP oder CRM-Systeme. Viele Kunden müssen auch ihre SAP-Systeme an Kafka andocken und integrieren, damit sie auch die Daten dieser Systeme nutzen und sie gegebenenfalls dort wieder zurückschreiben können. Darüber hinaus ist der Trend zur Cloud maßgeblich. Die meisten Kunden wollen sich nicht um Infrastrukturthemen kümmern und verfolgen inzwischen eine Cloud-First-Strategie.

BI-Spektrum: Halten Sie die Bezeichnung „Event-Streaming als neue Middleware“ für berechtigt?

Wähner: Nicht nur, aber auch – es ist definitiv eines der Themen, die wir bei vielen Projekten unserer Kunden sehen. Kafka wird als neue, moderne Middleware verwendet. In der Vergangenheit gab es zwei beherrschende Middleware-Thematiken. Zum einen ETL, das es erlaubt, große Datenmengen im Batch-Betrieb zu bearbeiten und zu integrieren. Auf der anderen Seite gab es Realtime-Messaging-Systeme. Da ging es darum, Daten in Echtzeit von A nach B zu schieben, aber eben nicht in ganz großen Volumen. Kafka kombiniert die Skalierbarkeit (für mehrere Millionen Events pro Sekunde) mit Echtzeitverarbeitung und mit der hohen Verfügbarkeit von 24 x 7. Um mal eine Zahl zu nennen: Wir haben in der Confluent-Cloud Kafka-Cluster, die mehr als 10 Gigabit pro Sekunde verarbeiten können. Kunden nutzen Kafka als moderne Middleware, die ETL und Messaging über die Zeit ersetzen kann. Um das zu verdeutlichen, noch eine kurze Business-Case-Betrachtung: Bei Messaging-Systemen können Unternehmen mit Tuning-Aufwand 1000 Transaktionen pro Sekunde und Server bewältigen. Kafka schafft locker 100.000 pro Sekunde pro Server. Allein damit sparen Unternehmen schon erhebliche Server- und Lizenzkosten ein.

KAY WÄHNER arbeitet als Technology Evangelist für Confluent, Anbieter einer Event-Streaming-Plattform, die von den ursprünglichen Kafka-Erfindern gegründet wurde. Wähner entwickelt Mission-Critical Event-Streaming-Infrastrukturen für Unternehmen, darunter sowohl die bekannten Technologie-Giganten als auch Internet-Start-ups und traditionielle Firmen aus diversen Branchen. Er veröffentlicht regelmäßig in Fachpublikationen und Blogs.

. . .

Author Image

Christoph Witte

Chefredakteur IT Spektrum und BI-Spektrum
Zu Inhalten

Christoph Witte ist Gründer der Wittcomm Agentur für IT, Publishing und Kommunikation. Darüber hinaus ist er Chefredakteur von IT Spektrum sowie BI-Spektrum und wirkt zudem bei dem Magazin JavaSPEKTRUM mit.

Author Image

Kai Waehner

Author
Zu Inhalten
Kai Wähner ist als Field CTO bei Confluent tätig. Seine Schwerpunkte liegen in den Bereichen Event-Streaming, Integration, Analytics und Internet of Things. Außerdem hält er Vorträge auf internationalen Konferenzen und berichtet in seinem Blog über neuen Technologien.

Artikel teilen