Die Automatisierung von immer wiederkehrenden Aufgabenstellungen gehört zu den grundlegendsten Prinzipien der modernen Welt. Bereits Henry Ford erkannte daraus resultierende Vorteile, wie sinkende Fehleranfälligkeit, kürzere Fertigungszyklen und eine gleichbleibende, einheitliche Qualität. Eben diese Vorteile lassen sich bei Data-Warehouse-Initiativen anwenden.
Die Vorteile
Die Speicherung, Pflege und Erweiterung der unternehmensweiten Daten lässt sich mithilfe von Data-Warehouse-Automatisierungs-Werkzeugen (DWA-Tools) in wenigen Klicks realisieren, was zuvor noch einen Großteil der gesamten Entwicklungszeit erfordert hätte. Dabei gehen moderne DWA-Tools noch einen Schritt weiter und bieten tiefgreifende Impact- und Lineage-Funktionalitäten sowie automatisierte Regressions- und Qualitätstests, effiziente Beladungsroutinen, vereinfachte Deployments zwischen Umgebungen und eine weitreichende Generierung von Dokumentation an.
Um die genannten Möglichkeiten umzusetzen, werden die Informationen über Quelldaten, DWH-Strukturen und Beladungsprozesse vom DWA-Tool als Metadaten in einer Datenbank hinterlegt und verwaltet.
In der nachfolgenden Abbildung werden die grundsätzlichen Themenbereiche der Automatisierung noch einmal übersichtlich dargestellt:
Die sechs Facetten der DWH-Automatisierung
DWA-Strömungen
Auf dem Markt haben sich bereits diverse DWA-Tools etabliert. Grundlegend lassen sich zwei Strömungen unterscheiden, nach denen vorgegangen wird (Eckerson, 2015, S. 5 ff): datengetriebene und modellgetriebene Ansätze.
Mithilfe von datengetriebenen DWA-Tools soll die physische Erstellung von Data-Warehouse-Strukturen stark automatisiert werden. Der Entwickler kann sich vereinfacht auf den Daten bewegen und SQL-Statements, Prozeduren, Skripte und sonstige Datenbankstrukturen automatisch generieren lassen. Für Fachbereiche hingegen ist die datennahe Darstellung eher ungeeignet, wodurch die Kommunikation und Abstimmung mit den Entwicklern vor allem über die prototypische Entwicklung von Ergebnismengen realisiert wird:
Datenschnittstelle eines datengesteuertes DWA-Tools (QOSQO quipu)
Die Ergebnismengen können über BI-Tools oder Excel visualisiert werden.
Besonders bei gut strukturierten und leicht zugänglichen Daten können rein datengetriebene DWA-Tools effektiv eingesetzt werden und einen Mehrwert bieten.
Modellgetriebene DWA-Tools hingegen verfolgen das Ziel, komplexe Sachverhalte auf eine höhere Abstraktionsebene zu heben und zu visualisieren. Auf diese Weise sollen sowohl Entwickler als auch Fachbereiche mit den Daten vereinfacht arbeiten können. Mithilfe des bereitgestellten GUI können Datenbewirtschaftungsprozesse intuitiv aufgebaut werden, wobei vorgefertigte Bausteine u. a. für das Erstellen von Dimensionen, Faktentabellen und Hierarchien zur Verfügung stehen.
Entwicklungsschnittstelle eines modellgetriebenen DWA-Tools (Magnitude Kalido)
Neben den rein daten- und modellgetriebenen Ansätzen gibt es weitere hybride DWA-Tools, in denen beide Ansätze unterstützt werden. Der Anbieter WhereScape beispielsweise erlaubt mit RED eine datengetriebene Verwaltung der DWH-Prozesse, bietet jedoch mit 3D zusätzlich eine Modellsicht. In 3D können Verarbeitungsschritte definiert und im Anschluss mit dem RED-Repository synchronisiert werden:
Entwicklungsschnittstelle der Hybrid-DWA-Werkzeuge (Wherescape 3D)
Entwicklungsschnittstelle der Hybrid-DWA-Werkzeuge (Wherescape RED)
Welches DWA-Tool letztendlich das geeignete ist, sollte außer an den beschriebenen konzeptuellen Unterschieden der einzelnen Tools an weiteren Faktoren festgemacht werden. Auf Grundlage der in Abbildung 1 dargestellten Bereiche, bei denen grundsätzlich eine Automatisierung von Nutzen sein kann, werden in kommenden Blogeinträgen weitere Faktoren näher beleuchtet. Ziel dabei ist es, eine Übersicht zu geben, die als Entscheidungshilfe dienen kann.