Was ist das?
Die meisten Gegenstände um uns herum waren zu irgendeinem Zeitpunkt in ihrer Entstehung einmal in Daten organisiert. Beispielsweise die Artikelnummern unserer Stühle oder das Kissen, auf dem wir schlafen. Unsere Umwelt kann digital gespiegelt werden, von der Abrechnung der Küchenplatte oder Farbe, die als Eimer im Baumarkt verkauft wurde, bis hin zu den Bauelementen und abrechenbaren Stunden der Bauarbeiter.
Daten als Repräsentation unserer Welt
Genauso wie menschliche Ressourcen organisiert werden müssen, sind auch digitale Ressourcen wichtige Bestandteile eines funktionierenden Unternehmens. Genau hier setzt ein ETL (Extract, Transform, Load) Tool ein. Solch eine Software extrahiert Daten von einer Quelle, transformiert die Daten je nach Anwendungsbedarf und lädt die Daten in eine präferierte Datenbank. Doch um ein besseres Verständnis dafür zu bekommen, wozu ETL Tools verwendet werden können, stelle ich kurz 3 Beispiele vor.
Welche Anwendungsbereiche von ETL-Tools gibt es?
- Data Warehouse: Hierzu zählt die Sammlung unterschiedlicher Daten und Informationen eines Unternehmens innerhalb eines bestimmten Zeitraums (persönlicher Datenpool von Unternehmen, z.B. Transaktionsdaten im Verkaufsbereich).
- Data Migration: Die Wartung, Erneuerung und Anpassung von alten Systemen auf neue.
- Data Integration: Die Integration von bestehenden Daten, die beispielsweise durch Zusammenschlüsse von Unternehmen (Mergers & Acquisitions) oder Datenbereitstellung durch Dritte bedingt wird, beispielsweise ein Marktforschungsinstitut, welches das Kundenverhalten bei einem neuen Produkt untersucht und davon Daten zur Verfügung stellt.
Diese Liste ist durchaus nicht vollständig und soll andeuten, dass es viele wichtige Anwendungsbereiche für ETL gibt. Doch was zeichnet ein gutes ETL Tool aus?
Auf dem Markt sind verschiedene Anbieter tätig, die mit unterschiedlichen Leistungen werben. Beispiele sind hierbei Alteryx, Informatica oder KNIME. Einerseits kostenlos, andererseits hochpreisig und, so möchte man meinen, auch effektiver. Bei der Entscheidung für eine Software gibt es mehrere Punkte zu beachten:
- Datenkonnektivität – inwieweit lässt das Programm Verbindungen zu gewünschten Datenquellen zu?
- Performance – Bewegen und Verändern von großen Datenmengen kann rechenintensiv sein. Die Performance des gewählten Tools muss sicherstellen, dass die Daten rechtzeitig zur Verfügung stehen.
- Transformation – Einen Großteil der Zeit verbringt man damit, die Daten vorzubereiten und wie das T in ETL besagt, zu transformieren. Daten zusammenführen, Ähnlichkeiten finden und Veränderungen durchführen sollte so leicht und übersichtlich gestaltet werden wie möglich.
- Automatismus – Wenn die ETL-Strecke einmal aufgebaut ist, soll diese meist nicht mehr manuell, sondern automatisch ablaufen. Je nach gewünschtem Intervall möglicherweise monatlich, täglich oder stündlich.
- Die Menschliche Komponente – Mit einem einfachen und komfortablen Tool können mehr Anwender in die Lage versetzt werden, Datenprozesse durchzuführen. Das Stichwort hier ist Self-Service Business Intelligence (abgekürzt BI).
Wenn all diese Punkte integriert, bedacht und ausgewertet wurden, fällt die Wahl eines Datenmanagement Programms möglicherweise leichter.
Zusammengefasst:
Die Extraktion in ETL stellt den ersten Schritt des Datenverarbeitungsprozesses dar. In diesem Prozess werden Daten extrahiert, was so viel bedeutet wie herausgezogen. Dieses herausziehen hat den Hintergrund, dass wir die Daten für weitere Prozesse verwenden, alle Daten, die nicht benötigt werden, bleiben im Quellsystem und werden nicht auf eigene Server gezogen.
Der zweite Schritt, die Transformation, dauert erfahrungsgemäß am Längsten. Hier werden beispielsweise die Quelldatentypen in die Spaltentypen der Zieltabellen umgewandelt. Zusätzlich könnte eine inhaltliche Überprüfung der Daten. Duplikate können herausgefiltert werden, die richtigen Datensätze zusammengeführt oder Berechnungen durchgeführt werden.
Letztendlich werden die Daten in ein Zielsystem geladen.
-Maren Ried