Datenanonymisierung made by GSEC in München: Nutzen für alle, Schutz für das Individuum

Datenanonymisierung: Nutzen für alle, Schutz für das Individuum

Aus der Analyse von Informationen können hilfreiche Innovationen entstehen. Damit personenbezogene Daten geschützt bleiben, arbeiten Fachleute im »Google Safety Engineering Center« (GSEC) an Methoden zur Anonymisierung und Verschlüsselung

Zu welcher Uhrzeit ist es in meinem Lieblingspark in der Regel angenehm leer? Welche Auswirkungen hat eine Pandemie auf die Mobilität einer Gesellschaft? Was ist die beste Behandlungsmethode einer bestimmten Krankheit? Wissenschaft, Behörden und Bürgerinnen und Bürger stellen sich tagtäglich Fragen, die sich oftmals besonders gut durch Datenanalyse beantworten lassen. Beispiel Medizin: Wer an Therapieformen für eine seltene Erbkrankheit forscht, kann durch die Analyse Tausender Patientenakten wahrscheinlich aussagekräftigere Ergebnisse erhalten als durch die Erfahrung mit einer Handvoll Patientinnen und Patienten pro Jahr. Doch persönliche Krankengeschichten sind streng vertraulich. Niemand außer dem behandelnden medizinischen Personal darf erfahren, um welchen Menschen es geht.

Um das zu gewährleisten, griffen Forscherinnen und Forscher früher – und tun das oft auch heute noch – zu einem simplen Mittel: Sie entfernten identifizierende Details wie Name, Adresse, Telefonnummer. Schon ist die Person anonym – oder? »So einfach ist es nicht«, sagt Dennis Kraft, Softwareentwickler im Münchner »Google Safety Engineering Center«. Er gehört zu Googles Anonymization Team und erklärt, dass schon wenige Details die Privatsphäre gefährden können: »Eine Studie hat gezeigt, dass allein durch die Kombination von Geschlecht, Geburtsdatum und Postleitzahl 87 Prozent der US-amerikanischen Bevölkerung eindeutig identifizierbar sind«, erklärt Kraft. Er ist spezialisiert auf eine mathematische Methode, die genau das verhindern soll: Differential Privacy.

Differential Privacy: mathematisch beweisbarer Datenschutz

Differential Privacy wurde von der Informatikerin Cynthia Dwork gemeinsam mit anderen Forschern entwickelt und lässt sich anhand eines Beispiels erklären: Angenommen, ein Unternehmen richtet sich mit seinen Produkten an Autofahrerinnen und Autofahrer und möchte mehr über diese Personengruppe wissen. Auf einer Onlineplattform stellen die Verantwortlichen deshalb die Frage: »Haben Sie Punkte in Flensburg?« und verbinden sie mit den Antwortmöglichkeiten »Ja« oder »Nein«. Klickt eine Nutzerin oder ein Nutzer auf Ja, wird die Antwort nicht einfach an das Unternehmen übertragen. Vielmehr wirft ein Algorithmus bildlich gesprochen eine Münze in die Luft. Bei »Kopf« gibt er die korrekte Antwort weiter. Liegt aber »Zahl« oben, wirft er die Münze ein weiteres Mal. Liegt dann »Kopf« oben, gibt der Rechner die korrekte Antwort weiter. Liegt wieder »Zahl« oben, übermittelt er die falsche Antwort. Das Gleiche passiert, wenn der User mit Nein antwortet: Der Algorithmus gibt mit einer gewissen Wahrscheinlichkeit die richtige Antwort weiter, ansonsten zufällig entweder »Ja« oder »Nein«.

Dennis Kraft beschäftigt sich mit der computerunterstützten Verfremdung von Daten.

»Eine Studie hat gezeigt, dass allein durch die Kombination von Geschlecht, Geburtsdatum und Postleitzahl 87 Prozent der US-amerikanischen Bevölkerung eindeutig identifizierbar sind«

Dennis Kraft, Softwareentwickler GSEC

Die Daten aus der Umfrage werden durch dieses Verfahren absichtlich zu einem bestimmten Prozentanteil mit zufälligen Angaben versehen. Es entsteht ein sogenanntes Rauschen im Datensatz, wodurch Rückschlüsse auf bestimmte Identitäten nie mit Sicherheit und nur in streng begrenztem Rahmen möglich sind. Und doch sind die Daten verwendbar: Expertinnen und Experten kennen den Prozentsatz, zu dem die Angaben verfälscht werden. Sie können dadurch das Rauschen in den Daten unterdrücken und die Ergebnisse »berechnen«. So bekommt das Unternehmen trotz der Verfremdung ein nützliches Umfrageergebnis.

Dennis Kraft beschäftigt sich viel mit der computerunterstützten Verfremdung von Daten. Er programmiert unter anderem Algorithmen, die das zufällige Rauschen erzeugen, mit dem persönliche Daten geschützt werden. Seine Arbeit fließt wie die seiner Kolleginnen und Kollegen in die Differential-Privacy-Bibliotheken ein, die Google seit dem Herbst 2019 kostenlos bereitstellt. Entwicklerinnen und Entwickler bekommen dort Software-Bausteine, mit deren Hilfe sie Daten nach dem Prinzip der Differential Privacy analysieren können. »Bei Differential Privacy liegt der Teufel im Detail, weshalb man sehr sorgfältig vorgehen muss«, sagt Kraft. »Aber wenn das gegeben ist, gibt es eine mathematische Garantie, dass Angreifer nicht mehr Informationen zu einer einzelnen Person herausfiltern können, als beim Anonymisieren vorgesehen war.«

Wegen dieser besonderen Eigenschaft sieht Dennis Kraft großes Potenzial in der weiteren Entwicklung von Differential Privacy. Und neben der Wissenschaft interessiert sich auch die Wirtschaft verstärkt dafür. »Durch eine rechtssichere Anonymisierung personenbezogener Daten kann einerseits das enorme Wertschöpfungspotenzial von datenbasierten Geschäftsmodellen generiert und zugleich das hohe Datenschutzniveau in Europa gewahrt werden«, erklärt Dr. Michael Dose, Referent in der Abteilung »Digitalisierung und Innovation« im Bundesverband der Deutschen Industrie (BDI). Weil es derzeit noch an der nötigen Rechtssicherheit fehle, haben wichtige Wirtschaftsverbände wie der Bundesverband Informationswirtschaft, Telekommunikation und neue Medien (Bitkom) oder der BDI sich in einer eigenen Expertengruppe diesem Thema gewidmet, in der Google vor allem zu technischen Anonymisierungsverfahren, insbesondere zu Differential Privacy, mitarbeitete.

Softwareentwicklerin Mihaela Ion arbeitet an der Verschlüsselung von Daten, die dennoch von mehreren Parteien genutzt werden können.

»Mit Private Join and Compute können zwei oder mehr Parteien ihre Daten verschlüsseln und der jeweils anderen für statistische Berechnungen zur Verfügung stellen«

Mihaela Ion, Softwareentwicklerin bei Google in Zürich

Private Join and Compute: Daten sicher kombinieren

Besonders viele Erkenntnisse lassen sich gewinnen, wenn Datensätze verknüpft werden. Angenommen, die Geschäfte eines Stadtviertels werben bei den Verantwortlichen des öffentlichen Nahverkehrs für einen besseren Bus- oder Bahnanschluss, weil sie ihre Umsätze steigern möchten. Dann entstehen Fragen: Wie viele Menschen fahren bislang in dieses Stadtviertel? Wie viel Geld geben sie dort aus? Für die Antworten sind Datenanalysen nötig. Allerdings darf einerseits der ÖPNV-Anbieter das Wissen um Passagierbewegungen grundsätzlich nicht teilen, während andererseits die Geschäfte ihr Wissen zum Konsumverhalten nicht weitergeben dürfen oder möchten.

»Mit Private Join and Compute können zwei oder mehr Parteien ihre Daten verschlüsseln und der jeweils anderen für statistische Berechnungen zur Verfügung stellen«, sagt Mihaela Ion. Die Softwareentwicklerin arbeitet seit mehreren Jahren bei Google in Zürich an Private Join and Compute. Das Programmiergerüst wurde von Google entwickelt und steht inzwischen in Open-Source-Bibliotheken allen Entwicklerinnen und Entwicklern kostenlos zur Verfügung. »Mein Team entwickelt und optimiert kryptografische Protokolle, die statistische Berechnungen wie Summen oder Durchschnittswerte über mehrere verschlüsselte Datensätze hinweg für bestimmte Problemstellungen ermöglichen«, erklärt Ion.

Im Gegensatz zur Differential Privacy, bei der die Daten mit einem Rauschen verfälscht werden, aber dennoch statistisch nutzbare Trends erkennbar bleiben, endet dieses Verfahren in einem exakten Ergebnis. Möchte man zum Beispiel Einkommensunterschiede zwischen Frauen und Männern in unterschiedlichen Firmen und Unternehmensbereichen untersuchen, so wäre die Technologie für die Analyse ein sicheres Verfahren: »Nur das gewünschte Resultat, beispielsweise das Durchschnittseinkommen unterschiedlicher Gruppen von Mitarbeiterinnen und Mitarbeitern zweier getrennter Unternehmen, lässt sich entschlüsseln – alles andere bleibt geschützt«, betont die Kryptografie-Expertin.

Auch Google selbst setzt Private Join and Compute ein, um nützliche Informationen aus der Verbindung verschiedener, verschlüsselter Datensätze zu gewinnen. Ein Beispiel ist der Passwortcheck, mit dem Nutzerinnen und Nutzer prüfen können, ob ihre Passwörter sicher sind. Nach dem Prinzip von Private Join and Compute gleicht das Werkzeug die jeweiligen Zugangsdaten mit umfangreichen Datenbanken von Passwort/Nutzernamen-Kombinationen ab, die gehackt wurden. Dabei bleiben die zu prüfenden Passwörter für Google und die Listen für die User verschlüsselt – doch am Ende steht die Erkenntnis, ob ein Passwort auf einer Liste steht oder nicht.

Softwareentwickler David Marn erkundet für Google, wie Machine Learning bei der Verfremdung von Daten nützlich sein kann.

»TensorFlow Privacy ist ein Open-Source-Baukasten, mit dem Entwickler Machine-Learning-Modelle mithilfe von Differential Privacy verantwortungsbewusst trainieren können«

David Marn, Softwareentwickler GSEC

TensorFlow Privacy: Privatsphäre und maschinelles Lernen

Die Auswertung für Statistiken ist nicht die einzige Möglichkeit, wie sich großer Nutzen aus Daten ziehen lässt. Eine andere ist maschinelles Lernen. Dabei wird ein Computersystem so lange mit bestimmten Daten trainiert, bis es darin Muster erkennt und später mit einer gewissen Wahrscheinlichkeit selbstständig Bewertungen und Vorhersagen abgeben kann. Ein Beispiel wären 100 Bilder von Ziegen mit der Metainformation: Dieses Bild zeigt eine Ziege. Was aber, wenn manche Ziegen Markierungen am Ohr tragen, die auf ihre Herkunft schließen lassen? Oder wenn auf manchen Fotos im Hintergrund Menschen zu sehen sind?

»Das System soll nicht alles wissen, zum Beispiel ob bestimmte Ziegen mir gehören«, sagt David Marn. Der Softwareentwickler gehört ebenfalls zum Anonymization Team des GSEC in München und beschäftigt sich seit einiger Zeit intensiv mit der Privatsphäre beim maschinellen Lernen. Denn auch dafür entwickelt und veröffentlicht Google kostenlos zugängliche Bausteine: »TensorFlow Privacy ist ein Open-Source-Baukasten, mit dem Entwickler Machine-Learning-Modelle mithilfe von Differential Privacy verantwortungsbewusst trainieren können», erklärt er. Dabei wird, wie bei Differential Privacy üblich, ein verfremdendes Rauschen erzeugt und dem Lernprozess hinzugefügt.

»Bei Differential Privacy geht es immer um mathematische Garantien zum Schutz personenbezogener Daten«, sagt Marn. »Hier beziehen sich diese Garantien auf die Vorhersagen eines Machine-Learning-Modells.« Wie wichtig die Privatsphäre dabei ist, macht eines der populärsten Produkte deutlich, bei dem Google Differential Privacy einsetzt: das »Gboard«, die auf den meisten Android-Smartphones vorinstallierte Tastatur. In ihr steckt viel künstliche Intelligenz, die zum Beispiel während des Tippens Möglichkeiten für das nächste Wort vorschlägt. Das funktioniert umso besser, je mehr das System lernt, welche Wörter viele Menschen in welchen Zusammenhängen verwenden. »Mithilfe von Differential Privacy kann die künstliche Intelligenz von allen Nutzerinnen und Nutzern lernen, ohne dass offengelegt wird, welche Wörter die oder der einzelne verwendet«, erklärt Marn.

Genau wie Mihaela Ion und Dennis Kraft ist er überzeugt, dass die unterschiedlichen Anonymisierungsverfahren für Datenanalysen weiter an Bedeutung gewinnen werden. »Ich glaube, dass damit zum Beispiel in der Wissenschaft riesige Potenziale gehoben werden können«, sagt David Marn und verweist auf die medizinische Forschung: »Wie vielen Menschen könnte wohl geholfen werden, wenn Wissenschaftlerinnen und Wissenschaftler dank sicherer Anonymisierung bereits existierende Daten auf unterschiedliche Fragestellungen hin analysieren dürften?«

Fotos: iStock.com, Sima Dehgani (4), Mihaela Ion (2)

Cybersecurity

Google unternimmt vermutlich mehr für die Sicherheit Ihrer Daten im Internet als jedes andere Unternehmen der Welt.

Weitere Informationen