Open Source im professionellen Einsatz

© kamirika, photocase.com

Internet-Nutzerprofile deanonymisieren

Eben enttarnt

Schützen Pseudonyme im Internet vor Entdeckung? Nein - hat die Wissenschaft herausgefunden. Wer mehrmals mit einem Pseudonym abgestimmt oder Sachen im Internet bewertet hat, lässt sich mit sehr hoher Wahrscheinlichkeit deanonymisieren. Dank der allgegenwärtigen Webservices kann das fast jeder.

Wohl jeder, der im Internet Produkte bestellt, hat schon einmal eine Nutzerbewertung abgegeben. Egal ob Buchkritiken im Online-Buchversand oder bei den Käufer-Ratings für einen Ebay-Händler. Stets veröffentlicht der Besucher die für alle Internetbesucher sichtbaren Informationen wissentlich und freiwillig. Niemand sieht eine Gefahr für seine Privatsphäre, wenn er seine Wertungen unter einem Pseudonym abgibt.

Kaum jemand rechnet damit, dass die Daten aus unterschiedlichen Portalen unter jeweils neuen Pseudonymen dazu beitragen können, die wahre Identität des Teilnehmers aufzudecken - und doch funktioniert genau dies.

Match-Making

Der erste Schritt einer Deanonymisierung ist nicht das Aufdecken der Identität. Zunächst geht es darum, die unterschiedlichen Beiträge einer Person auf den verschiedenen Portalen einander zuzuordnen. Ist die Zuordnung gelungen, bleibt das so erstellte Nutzerprofil weiterhin anonym - allerdings nur so lange, bis der Internetteilnehmer irgendwann einen zuzuordnenden, namentlichen Beitrag veröffentlicht. Dann lassen sich all seine anonymen Meinungsäußerungen direkt mit seinem Namen in Verbindung bringen. Dies gilt auch für zukünftige, dann nur noch vermeintlich anonyme Veröffentlichungen.

Die wissenschaftliche Forschung hat ergeben, dass die Zuordnung von anonymen Äußerungen im Internet in der Praxis erstaunlich gut funktioniert. Die gängigen Anonymisierungsverfahren, zum Beispiel das Entfernen von identifizierenden Attributen wie Name, Sozialversicherungsnummer oder Adresse, erwiesen sich als unzureichend. Latanya Sweeney zeigte in seiner bereits im Jahr 2000 erschienenen Veröffentlichung [1], dass sich allein aus der Kombination der Attribute Postleitzahl des Wohnorts, Geschlecht und Geburtsdatum bereits etwa 87 Prozent der US-amerikanischen Bevölkerung eindeutig identifizieren lassen, obwohl jedes dieser Attribute für sich genommen den Personenkreis kaum einschränkt.

Meinungsäußerung

Ein alarmierendes Beispiel für Deanonymisierung stellten Narayanan und Shmatikov [2] im Rahmen eines Wettbewerbs vor, den der DVD-Verleiher Netflix [3] ausgeschrieben hatte: Basierend auf anonymisierten Filmbewertungen der Jahre 1999 bis 2005 sollten die Votings künftiger Filme vorhergesagt werden. Netflix versprach dem Entwickler, der das firmeneigene Prognosesystem an Genauigkeit um 10 Prozent übertrifft, ein Preisgeld von einer Million US-Dollar.

Narayanan und Shmatikov benutzten die Filmbewertungen einzelner, oft unter ihrem realen Namen angemeldeter Nutzer der Internet-Film-Datenbank IMDb [4], um die Filmbewertungen aus der anonymisierten Netflix-Datenbank zu deanonymisieren. Ihr Ziel war es, zu einem namentlich bekannten Nutzer der IMDb eine nach Ähnlichkeit geordnete Liste der anonymen Netflix-Nutzer zu erzeugen.

Platz eins belegte dabei die Zuordnung mit der höchsten Wahrscheinlichkeit, dass es sich dabei um dieselbe Person handelt. Eine Scoring-Funktion liefert Werte zwischen null und eins zurück. Null bedeutet, dass beide Profile keine übereinstimmenden Bewertungen besitzen, während eins anzeigt, dass alle Bewertungen übereinstimmen und zusätzliche Parameter, zum Beispiel die Zeit, in der die Bewertung entstand, innerhalb gewisser Grenzwerte liegen: Als ähnlich gelten in diesem Fall die Einstufungen mit vielen Übereinstimmungen, die innerhalb von drei Tagen entstanden.

Um die Zuordnung robuster zu machen, gestand der Algorithmus seltenen Filmen einen größeren Einfluss zu als denen, die in jener Zeit unter den Top 100 der Kino-Charts standen und über die daher viele Besucher abgestimmt haben. Damit die Korrelation auf Platz eins mit einer gewissen Wahrscheinlichkeit als gesichert gelten kann, sollte außerdem der Abstand zum zweiten Platz möglichst groß sein. Falls nicht, ist es sinnvoll, das anonyme Rating als nicht identifiziert zu werten. So ergibt sich eine niedrige Rate an False Positives.

Diesen Artikel als PDF kaufen

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook