So gelingt der Aufbau eines DSGVO-konformen Data Lake – Teil 3

So gelingt der Aufbau eines DSGVO-konformen Data Lake – Teil 3

In Teil 1 & Teil 2 dieser Blogreihe haben wir gezeigt, wie man einen AWS Data Lake aufbaut und Daten in ein Data Lakehouse importiert. Im dritten und letzten Teil erklären wir, wie man in einem Lakehouse das „Recht auf Vergessenwerden“gemäß DSGVO implementiert und durchsetzt. Wir werden sowohl den Data Lake als auch das Date Warehouse, deren Aufbau wir in den vorherigen Blogbeiträgen beschrieben haben, mit der Ausübung dieses Rechts konform machen. Doch zunächst einmal gilt es zu klären, was man überhaupt unter dem Recht auf Vergessenwerden versteht.

Table of Contents

Was bedeutet das Recht auf Vergessenwerden?

Die Bedeutung erklärt sich im Grunde genommen schon aus der Bezeichnung. Auf Grundlage des Rechts auf Vergessenwerden können Nutzer:innen verlangen, dass ihre personenbezogenen Daten aus allen Speichersystemen gelöscht werden. Wer einen Data Lake oder ein Data Warehouse aufbaut, speichert wahrscheinlich auch personenbezogene Daten (PII) von User:innen. Sicher erinnerst Du Dich, dass wir die Daten in Teil 2  in separate Buckets für PII-Daten importiert haben. Diese Buckets können also eine Vielzahl verschiedener PII-Daten eines/einer User:in enthalten. Macht dieser nun von seinem Recht auf Vergessenwerden Gebrauch, müssen alle personenbezogenen Daten dauerhaft gelöscht werden.

Können personenbezogene Daten einfach gelöscht werden?

Wenn es doch so einfach wäre! Zunächst einmal wissen wir nicht, welche Buckets und welche Dateien in diesen Buckets die Daten des/der jeweiligen Nutzer:in enthalten. Ein Data Lake ist immens groß, sodass wir nicht zwingend wissen, in welcher Datei sich die Adresse und in welcher sich die Telefonnummer des/der Nutzer:in befindet. Und: Woher sollen wir überhaupt wissen, dass eine Adresse und eine Telefonnummer demselben/derselben User:in gehören?

Darüber hinaus handelt es sich bei den Dateien in den S3-Buckets um Objekte, die in AWS per se unveränderlich sind. Das Problem ist, dass die Datei, in der die Adressen aller User:innen gespeichert sind, vielleicht 100.000 Einträge umfasst, wir aber nur einen einzigen Eintrag daraus löschen wollen. Tatsächlich können wir auch nicht einfach einen einzelnen Eintrag löschen, sondern müssen die gesamte Datei ersetzen! Was ist, wenn wir den falschen Eintrag löschen oder die falsche Datei ersetzen? Was ist, wenn wir Einträge übersehen? Und schließlich: Wie können wir diesen ganzen Prozess automatisieren? Selbstverständlich ist es unmöglich, jede Datei in jedem Bucket manuell nach den relevanten Daten zu durchsuchen.

Was ist die Lösung?

Wie immer ist es am besten, Schritt für Schritt vorzugehen, und die Aufgabe in drei Schritte einzuteilen:

  • Im ersten Schritt geht es darum, alle relevanten Nutzerdaten zu suchen.
  • Anschließend erstellen wir einen umfassenden, teil- und editierbaren Nutzerdatenbericht.
  • Sobald dieser Bericht geprüft und bewilligt wurde, werden die entsprechenden Nutzerdaten gelöscht.

Um diese drei Aufgaben zu erledigen und das Recht auf Vergessenwerden in einem Data Lakehouse zu implementieren, haben wir mithilfe von AWS Glue ein weitgehend anpassbares, flexibles, automatisiertes und benutzerfreundliches Tool entwickelt. Es nennt sich Forget Me Easy (FME) und nutzt die von AWS Glue Crawlern generierten Metadaten. FME bietet eine komplett automatisierte Lösung, um Nutzerdaten zu suchen, zu berichten und aus einem AWS Data Lake und AWS Redshift zu löschen.

So sieht ein typischer FME-Workflow aus:

Suche nach Nutzerdaten

FME kann mit einem Minimum an Eingabeparametern nach Nutzerdaten suchen. Um den Suchvorgang einzuleiten, ist eine primäre Kennung wie z. B. eine E-Mail-Adresse erforderlich. Es gibt zwei optionale Parameter: Tag Name und Potential Key Candidate. Durch Eingabe eines Tag Name wie  „PII“ wird die Suche auf PII-Buckets begrenzt – ansonsten erfolgt die Suche nach Nutzerdaten in allen Buckets. Der Parameter Potential Key Candidate erwartet Substrings wie „id“ und „key“. So nutzt der Substring „id“ alle Spaltennamen, die das Kürzel ID aufweisen, – z. B. „EMP_ID“ oder „ADDRESS_ID“ – um zwei verschiedene Dateien zusammenzuführen.

Klingt einfach, oder? Doch es geht noch besser. Denn FME bietet ein noch höheres Maß an Flexibilität und Anpassung. Auf Grundlage der Eingabeparameter erstellt das Tool eine editierbare Metadaten Zwischendatei. Diese Datei enthält die Namen aller Buckets, Dateien und Spalten, in denen FME nach Nutzerdaten suchen soll. Die Zwischendatei kann verändert werden, indem weitere Spalten- oder Dateinamen hinzugefügt werden. FME fasst die Suchergebnisse für eine:n bestimmte:n User:in aus dem Data Lake und Redshift in einer HTML-Datei zusammen. Die HTML-Datei enthält alle Suchergebnisse mit Bucket-, Dateiname und Speicherort sowie ein editierbares Feld mit dem Titel „TO_BE_DELETED“.

Prüfung von Nutzerdaten

Der HTML-Bericht, der zu einem/einer spezifischen User:in erstellt wurde, kann nun den/die zuständigen Administrator:innen bereitgestellt werden. Wir haben diesen manuellen Schritt zur Bewilligung des Löschens von Nutzerdaten ergänzt, um Transparenz zu gewährleisten. Sollte der Bericht zu den Nutzerdaten beispielsweise fehlerhaft oder unvollständig sein, kann FME nach Anpassung der Eingabeparameter erneut durchgeführt werden. Nach Bewilligung jedes Eintrags wird die HTML-Datei zurück in FME importiert.

Der HTML-Report enthält sämtliche (PII- und Non-PII-)Daten zu einem/einer Nutzer:in, die in einem Data Lakehouse gespeichert sind. Zu den Non-PII-Daten gehört beispielsweise der Bestell- oder Browser-Verlauf. Der HTML-Report kann auch dem/der User:in selbst vorgelegt werden und bietet so den vollständigen und transparenten Zugriff auf alle relevanten Daten, die von einem Unternehmen oder einer Organisation gespeichert werden.

Lösch mich!

An diesem Punkt haben wir zwei Optionen: Wir können den Dateneintrag entweder verfremden (Data Masking) oder komplett aus dem Data Lake löschen. FME führt den jeweils festgelegten Vorgang durch. Zur Datenverfremdung wird der Eintragswert durch einen Hash-Wert ersetzt. Der FME-Workflow kann anschließend erneut gestartet werden, um sicherzustellen, dass alle relevanten Daten gelöscht bzw. verfremdet wurden.

Warum solltest Du FME vertrauen?

Du musst uns nicht blind vertrauen. Vergleichen wir doch einmal FME mit AWS Macie. AWS Macie ist ein Service, der auf Grundlage des maschinellen Lernens sensible Daten auf Bucket-Ebene erkennt und meldet. Wie in Teil1 beschrieben, kann AWS Macie zur Erkennung von PII-Spalten genutzt werden. FME erkennt die Nutzerdaten in denselben Buckets, Dateien und Spalten, die AWS Macie als Träger sensibler Daten identifiziert. FME kann darüber hinaus jedoch feststellen, ob sich die Adresse in einer Datei eines Buckets einer bestimmten E-Mail-Adresse zuordnen lässt, während AWS Macie lediglich erkennt, ob diese Datei überhaupt Adressen enthält.

FME lässt sich weitgehend an spezifische Anforderungen anpassen und funktioniert sogar dann, wenn ein Data Lakehouse keine bereits bestehenden DSGVO-Maßnahmen umfasst. Ein zweistufiges Verfahren zur Erstellung und Prüfung eines Nutzerdatenberichts sorgt für mehr Transparenz und verhindert Fehler im laufenden Prozess. Die Vorlage eines umfassenden Berichts mit allen Instanzen von Nutzerdaten schafft Vertrauen und minimiert die Wahrscheinlichkeit von DSGVO-Verstößen. Mit einem automatisierten Tool wie FME kann ein Data Lakehouse problemlos in wenigen Schritten DSGVO-konform gemacht werden.

Zukünftig haben wir die Möglichkeit, den gesamten Data Lake mithilfe des AWS-KMS-Schlüssels zu verschlüsseln (verschlüsselte Data Lakes). Das FME-Framework kann problemlos um eine AWS-Lambda-Funktion erweitert werden, um Daten zunächst zu verschlüsseln und anschließend die Daten zu einem/einer bestimmten Nutzer:in zu suchen. Entschlüsselte Nutzerdaten können dann gemeldet und per FME anonymisiert werden, während der übrige Data Lake verschlüsselt und unverändert bleibt.

In unserer dreiteiligen Blogreihe haben wir gezeigt, wie einfach es ist, ein AWS Data Lakehouse aufzubauen, zu unterhalten und DSGVO-konform zu machen. So müssen Kunden ohne bereits vorhandene Infrastruktur und bestehende DSGVO-Maßnahmen nicht zweimal darüber nachdenken, ob sie auf die AWS Cloud zugreifen wollen. Und Kunden, die die Cloud erst seit kurzem nutzen, profitieren von unseren Tools wie FME, um beispielsweise das Recht auf Vergessenwerden zu implementieren.

Du hast Fragen? Kontaktiere uns

Helene Fuchs

Your contact person

Helene Fuchs

Domain Lead Data Platform & Data Management

Pia Ehrnlechner

Your contact person

Pia Ehrnlechner

Domain Lead Data Platform & Data Management

Ähnliche Beiträge

chevron left icon
Vorheriger Beitrag
Nächster Beitrag
chevron right icon

Kein vorheriger Beitrag

Kein nächster Beitrag