Offener Baukasten: Die Differential Privacy Libraries bieten Datenschutz zum Nachbauen

Offener Baukasten: Datenschutz zum Nachbauen

Ein Team des Münchner Google Safety Engineering Centers (GSEC) entwickelt die „Differential Privacy Libraries“. Mit diesen offen zugänglichen Algorithmen- Bibliotheken lassen sich personenbezogene Datensätze sicher anonymisieren. Davon kann die ganze Welt profitieren, erklärt Miraç Vuslat Başaran, GSEC-Entwickler und Experte für Datenanonymisierung

Rund 60 Teilnehmerinnen und Teilnehmer haben sich an einem sommerlichen Montagabend virtuell versammelt. Während andere Menschen ihren Feierabend genießen, beschäftigen sie sich von ihren Computern aus mit hypothetischen Besucherstatistiken. Genauer gesagt: damit, wie sich beispielsweise Besucherzahlen und Aufenthaltsdauer an einem fiktiven Ort so anonymisieren lassen, dass zwar hilfreiche Verhaltenstrends erkennbar werden, aber Rückschlüsse auf einzelne Personen nur äußerst schwer und in streng begrenztem Rahmen möglich sind. „Wenn der Ort um 1 Uhr leer ist und ein Mensch hinzukommt, würde seine Anwesenheit in der Statistik sichtbar“, erklärt Miraç Vuslat Başaran, der durch diesen, „Codelab“ genannten Online- Kurs führt, und fährt fort: „Das ist nicht gut, denn um die Privatsphäre zu gewährleisten, darf der Einfluss eines Individuums nicht erkennbar sein.“

Başaran ist Software Engineer und unter anderem darauf spezialisiert, personenbezogene Daten zu schützen. Er arbeitet im „Anonymization Team” des GSEC in München und trägt dazu bei, dass sich Statistiken leicht und mit mathematisch beweisbaren Garantien sicher anonymisieren lassen. Das Konzept dahinter heißt Differential Privacy: Dabei werden Daten mit einem „Rauschen“ versehen, das heißt mit zufälligen Verfälschungen der Daten. Das Rauschen ist genau so dosiert, dass sich aus den Daten immer noch nützliche statistische Trends ableiten lassen, aber sich nicht mit Sicherheit sagen lässt, ob eine bestimmte Person darin enthalten ist oder nicht.

„Der Austausch mit der externen Community ist für uns sehr wertvoll und inspirierend und fließt in die weitere Entwicklung der Differential-Privacy-Bibliotheken ein.“

Weil Differential Privacy als Konzept zwar relativ leicht zu verstehen, aber in der Praxis sehr komplex umzusetzen ist, entwickeln Başaran und seine Kolleginnen und Kollegen im Anonymization Team Algorithmen und Werkzeuge, mit denen sich ohne großen Programmieraufwand Datensätze nach dem Prinzip der Differential Privacy analysieren lassen. „Wir stellen Bausteine zur Verfügung“, sagt Başaran mit Blick auf die Inhalte der Differential-Privacy-Lösungen, die Google seit Herbst 2019 bereitstellt. Zuletzt erstellte Google mithilfe dieser Bausteine anonymisierte Mobilitätsberichte, die Bewegungstrends innerhalb der Bevölkerung zeigen, um Gesundheitsbehörden bei kritischen Entscheidungen zur Bekämpfung des Coronavirus zu unterstützen.

Die Differential-Privacy-Bausteine werden in Open-Source-Bibliotheken zur Verfügung gestellt, damit sie nicht nur für Google-Entwicklerinnen und -Entwickler, sondern für alle Interessierten offen und kostenlos zugänglich sind. Oft handelt es sich dabei natürlich um Software-Profis, mitunter aber auch um Wissenschaftlerinnen und Wissenschaftler, die mithilfe von Differential Privacy personenbezogene Daten in ihren Studien schützen wollen. Sie alle können die Bibliotheken nicht nur kostenlos nutzen, sondern im zugehörigen Projektbereich auf der Software-Entwicklungsplattform Github auch kommentieren, Fragen stellen oder Vorschläge machen. „Der Austausch mit der externen Community ist für uns sehr wertvoll und inspirierend und fließt in die weitere Entwicklung der wachsenden Bibliotheken ein“, erklärt Başaran, dessen Team unter anderem mit Entwicklern und Wissenschaftlern der US-Statistikbehörde United States Census Bureau und der Mozilla Foundation Gespräche über Differential Privacy führte.

„Privatsphäre ist wichtig für alle Menschen. Deshalb wollen wir mit den Differential-Privacy-Bibliotheken Entwickler, Forscher, Unternehmen und Organisationen dabei unterstützen, Daten verantwortungsbewusst zu nutzen, indem personenbezogene Informationen geschützt werden.“

Bislang sind Algorithmen für die Programmiersprachen C++, Java und Go verfügbar. Außerdem enthalten die Bibliotheken verschiedene Tools und Komplettlösungen: Ein „Stochastic Tester“ dient zur Vergewisserung, dass bei den Differential-Privacy-Algorithmen keine Fehler gemacht wurden. Mit Werkzeugen zur „Privatsphäre-Buchhaltung“ lassen sich graduelle Verluste an Privatsphäre ermitteln, wenn mit Differential Privacy geschützte Daten mehrmals in unterschiedlichen Analysen veröffentlicht werden. Ebenfalls Teil der Bibliotheken ist Miraç Başarans persönlicher Favorit: Privacy on Beam. Bei dieser Entwicklung des Anonymization-Teams handelt es sich um Googles erste Open-Source-Komplettlösung für Differential Privacy. Entwicklerinnen und Entwickler können damit unabhängig von ihren Vorkenntnissen anonymisierte Statistiken erstellen, die personenbezogene Daten schützen.

„Ähnlich wie bei Kryptographie ist es meist keine gute Idee, Differential Privacy selbst zu programmieren, weil dabei viele unerwartete Feinheiten zu berücksichtigen sind“, sagt Başaran an jenem Montagabend im virtuellen Codelab. „Verwendet dafür lieber Privacy on Beam.“ Anhand der hypothetischen Besucherstatistiken erklärt er den Teilnehmerinnen und Teilnehmern aus unterschiedlichsten Teilen der Welt von München aus, wie sich Differential Privacy mithilfe von Privacy on Beam leicht implementieren lässt. Mit dem Codelab, dessen Inhalte hier nachzulesen sind, möchte er sein Wissen weitergeben – und damit zu mehr digitalem Datenschutz beitragen: „Privatsphäre ist wichtig für alle Menschen“, ist der Entwickler überzeugt. „Deshalb wollen wir mit den Differential-Privacy-Bibliotheken Entwickler, Forscher, Unternehmen und Organisationen dabei unterstützen, Daten verantwortungsbewusst zu nutzen, indem personenbezogene Informationen geschützt werden.“

Fotos: Sima Dehgani

Cybersecurity

Google unternimmt vermutlich mehr für die Sicherheit Ihrer Daten im Internet als jedes andere Unternehmen der Welt.

Weitere Informationen