Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

SIGS DATACOM GmbH

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

NoSQL und Data Science illustriert an einer Volltextsuche

Bisweilen ist es unklar, wie sich die Disziplin Data Science Engineering in BI-Architekturen einbettet. Ein Problem dabei ist, dass Data Engineers häufig komplexe Pipelines – unter anderem zur Industrialisierung von maschinellen Lernverfahren – designen oder auch NoSQL-Datenbanken nutzen. Hier stoßen gängige, SQL-basierte Transformationen, wie man sie aus dem klassischen ETL-Bereich kennt, an Grenzen. In dem Artikel erläutern wir anhand des Beispiels einer Volltextsuche, wie moderne Daten-Pipelines und NoSQL-Technologien in eine BI-Architektur eingebettet werden können. Dabei zeigen wir auf, an welchen Stellen ein Paradigmenwechsel notwendig ist und inwieweit sich die erforderlichen Skills verschieben.

NoSQL-Datenbanken gewinnen im Bereich Data Science und Data Engineering immer stärker an Popularität. Ein Grund dafür ist die Tatsache, dass NoSQL-Datenbanken kein vorab definiertes Schema verlangen. Das ist insbesondere in der Phase des Feature Engineering hilfreich. Beim Feature Engineering werden die Rohdaten transformiert, sodass sie sich als Input für maschinelle Lernverfahren eignen. Die finale Form der Features ist vorab nicht bekannt und das Resultat eines iterativen Prozesses. In diese…