Zum Hauptinhalt springen

Moderne Datenplattformen müssen sich primär durch die Verfügbarkeit und Sicherheit von Daten sowie die Schnelligkeit ihrer Verarbeitung auszeichnen. Wir beschreiben in diesem Beitrag, wie eine solche Lösung mit den Technologien Exasol und Protegrity aussehen kann, wenn sich effiziente Auswertungen und Sicherheit der Daten im Kontext PCI DSS (Payment Card Industry Data Security Standard) und DSGVO „out of the box“ realisieren lassen. Warum sollte man solche Sicherheitslösungen nicht selbst bauen, bzw. was bedeutet es, wenn man insbesondere Datensicherheit in einer Datenplattform umsetzen möchte?  

Die drei Säulen kurz vorgestellt
 

Verfügbarkeit

Datenverfügbarkeit meint, dass eine Datenplattform so gebaut werden muss, dass die Daten für die Mitarbeiter:innen, Partner, ggf. auch Kunden und Prozesse einfach verfügbar sind bzw. durch einfache Services verfügbar gemacht werden können. Das heißt, neben einer hohen Ausfallsicherheit geht es hier darum, dass Mitarbeiter:innen einfach auf die Daten via z. B. SQL oder ein Reporting-Tool zugreifen können. Folgende Merkmale sind hierbei hervorzuheben: 

  • Zugriff für alle Fachbereiche mit SQL, Python, Excel oder auch einem Reporting-Tool (Power BI, Tableau, …),  

  • Strukturiertheit der Ablage in „einfachen“ relationalen Datenmodellen, idealerweise in einem dimensionalen Modell und letztlich auch  

  • hohe Transparenz, wie die Daten aufbereitet worden sind (z. B. durch den Einsatz von Virtualisierung/Kapselung von Business-Logik in Views).  

Dies bedeutet, dass insbesondere das Thema Verfügbarkeit hohe Anforderungen an Performanz und Sicherheit stellt: User wollen zügige Antworten haben – und aus Datenschutzgründen müssen Daten je nach Nutzergruppen unterschiedlich geschützt werden.  

Performanz

Wir halten hierbei eine hohe Abfrage- und Verarbeitungsperformanz für einen wichtigen Bestandteil des Business Cases einer Datenplattform:  

  • Geschwindigkeit ist kein Selbstzweck, sondern wirkt sich aus unserer Sicht massiv auf die Effizienz der „Knowledge Worker“ aus, die tagtäglich mit Daten der Datenplattform analytisch arbeiten müssen. Es lassen sich hier auch sehr einfach Business Cases für die Investition in bzw. den Betrieb einer Datenplattform rechnen.  

  • Ein paar Rechenbeispiele sollen dies verdeutlichen. Hierbei sind die Annahmen eher moderat; die Skaleneffekte (hohe Anzahl betroffener Mitarbeiter:innen) führen jedoch aus dem Stand zu Einsparungen, die die Kosten einer Datenplattform wettmachen sollten.  

  • Das konkretere „Durchspielen“/Messen der skizzierten Szenarien wird sicherlich auf deutlich höhere Effizienzgewinne hindeuten.  

Sicherheit

Als letzte Säule ist die Sicherheit unserer Daten eine sehr „binäre“ Anforderung. Binär deswegen, weil hier eine fehlende Datensicherheit in Bezug auf DSGVO-/PCI-Anforderungen zur Abschaltung oder zumindest zu massiver Einschränkung der Nutzung der Plattform führen kann. Hierbei ergeben sich die Anforderungen automatisch aus dem Wunsch einer Verfügbarkeit der Daten für alle (Personen und Prozesse): 

  • Ich brauche die zu schützenden Daten in kundenzentrischen Analysen und Prozessen  

  • Ich muss die Daten sicher in die Datenplattform laden, speichern und hierbei abfragbar halten  

  • Im Idealfall basiert eine solche Sicherung nicht auf Insellösungen, sondern auf einer zentralen Lösung  

  • Ein ggf. grundsätzlicher/anfänglicher Verzicht auf PII-Daten führt meist nur dazu, dass hier Sonderwege gebaut und betrieben werden müssen, die letztlich die Kosten nach oben treiben. Beispiele für Sonderwege sind hierbei die Doppelung von Tabellen und Schemata für unterschiedliche Nutzergruppen oder auch eine „händische“ Umsetzung von punktuellen Ent-/Verschlüsselungslogiken zum Schutz von Zugriffspfaden, was zu komplexeren ETL-Prozessen sowie Berechtigungskonzepten führt.  

 

Die Herausforderung ist hierbei, dass gerade bei komplexen Systemlandschaften, wie einer Datenplattform, aktuell sehr selten standardisierte/grundsätzliche Lösungen umgesetzt werden. Vielmehr werden verschiedene Komponenten häufig getrennt behandelt und ebenso getrennt abgesichert, was zu zusätzlichen Aufwänden in der Umsetzung und der Governance führt. 

Betrachtet man die drei Säulen im Detail, erkennt man sehr früh einen Zielkonflikt, bei dem man diese drei Ziele balanciert umsetzen sollte: 

  • Absolute Sicherheit der Daten gibt es nur dann, wenn diese nicht in die Datenplattform geladen werden. Allerdings ist dann die Verfügbarkeit nicht gegeben.  

  • Eine hohe Abfrageperformance kann man dadurch erreichen, dass man die Daten entweder hoch verdichtet oder nur Daten mit sehr konkreter Anforderung an die Verarbeitung verwendet, um so die Menge der zu verarbeitenden Daten zu reduzieren. Aber auch hier wird wieder die Verfügbarkeit der Daten als Anforderung verletzt.  

  • Sehr komplexe Schutzmechanismen sorgen auf der anderen Seite für komplexe Verarbeitungsprozesse, fehlende Verfügbarkeit und damit Einschränkungen in der Performance der Verarbeitung meiner Daten.  

  • Die Bereitstellung von Daten für alle verletzt im Zweifel das Need-to-know-Prinzip des Datenschutzes oder sorgt für Performance-Engpässe in der Verarbeitung der Daten.  

Fazit und Ausblick

Anforderungen an eine Datenplattform betreffen also alle drei Säulen mit gleich hoher Priorität.  

  • Verfügbarkeit, um sichere und zügige Antworten auf analytische Fragestellungen zu haben  

  • Perfomance, weil diese am Ende über die Effizienz der Arbeit mit der Plattform entscheidet  

  • Sicherheit, da sich – ist diese nicht gewährleistet – die Plattform nicht oder nur in Teilen betreiben ließe  

Dem steht häufig die Realisierbarkeit gegenüber. Je mehr Mechanismen und Transformationen implementiert werden sollen, um die entsprechende Sicherheit zu gewährleisten, desto länger dauert es, Daten bereitzustellen oder abzufragen. Die Performance ließe sich in dem Fall nur retten, indem auf Teile der Daten (mindestens auf die PII-Daten) verzichtet wird. Wie so einiges in der BI lässt sich dieses scheinbare Dilemma durch geschickten Einsatz der richtigen Technologie lösen.

 

 

 

 Im zweiten Teil der Blogserie gehen wir darauf ein, wie die Lösung mit den Technologien Exasol und Protegrity aussehen kann und wodurch sich gerade diese Kombination auszeichnet.

 

Hier geht´s zu Teil 2!