Internet-Nutzerprofile deanonymisieren

Schützen Pseudonyme im Internet vor Entdeckung? Nein – hat die Wissenschaft herausgefunden. Wer mehrmals mit einem Pseudonym abgestimmt oder Sachen im Internet bewertet hat, lässt sich mit sehr hoher Wahrscheinlichkeit deanonymisieren. Dank der allgegenwärtigen Webservices kann das fast jeder.

Wohl jeder, der im Internet Produkte bestellt, hat schon einmal eine Nutzerbewertung abgegeben. Egal ob Buchkritiken im Online-Buchversand oder bei den Käufer-Ratings für einen Ebay-Händler. Stets veröffentlicht der Besucher die für alle Internetbesucher sichtbaren Informationen wissentlich und freiwillig. Niemand sieht eine Gefahr für seine Privatsphäre, wenn er seine Wertungen unter einem Pseudonym abgibt.

Kaum jemand rechnet damit, dass die Daten aus unterschiedlichen Portalen unter jeweils neuen Pseudonymen dazu beitragen können, die wahre Identität des Teilnehmers aufzudecken – und doch funktioniert genau dies.

Match-Making

Der erste Schritt einer Deanonymisierung ist nicht das Aufdecken der Identität. Zunächst geht es darum, die unterschiedlichen Beiträge einer Person auf den verschiedenen Portalen einander zuzuordnen. Ist die Zuordnung gelungen, bleibt das so erstellte Nutzerprofil weiterhin anonym – allerdings nur so lange, bis der Internetteilnehmer irgendwann einen zuzuordnenden, namentlichen Beitrag veröffentlicht. Dann lassen sich all seine anonymen Meinungsäußerungen direkt mit seinem Namen in Verbindung bringen. Dies gilt auch für zukünftige, dann nur noch vermeintlich anonyme Veröffentlichungen.

Die wissenschaftliche Forschung hat ergeben, dass die Zuordnung von anonymen Äußerungen im Internet in der Praxis erstaunlich gut funktioniert. Die gängigen Anonymisierungsverfahren, zum Beispiel das Entfernen von identifizierenden Attributen wie Name, Sozialversicherungsnummer oder Adresse, erwiesen sich als unzureichend. Latanya Sweeney zeigte in seiner bereits im Jahr 2000 erschienenen Veröffentlichung [1], dass sich allein aus der Kombination der Attribute Postleitzahl des Wohnorts, Geschlecht und Geburtsdatum bereits etwa 87 Prozent der US-amerikanischen Bevölkerung eindeutig identifizieren lassen, obwohl jedes dieser Attribute für sich genommen den Personenkreis kaum einschränkt.

Meinungsäußerung

Ein alarmierendes Beispiel für Deanonymisierung stellten Narayanan und Shmatikov [2] im Rahmen eines Wettbewerbs vor, den der DVD-Verleiher Netflix [3] ausgeschrieben hatte: Basierend auf anonymisierten Filmbewertungen der Jahre 1999 bis 2005 sollten die Votings künftiger Filme vorhergesagt werden. Netflix versprach dem Entwickler, der das firmeneigene Prognosesystem an Genauigkeit um 10 Prozent übertrifft, ein Preisgeld von einer Million US-Dollar.

Narayanan und Shmatikov benutzten die Filmbewertungen einzelner, oft unter ihrem realen Namen angemeldeter Nutzer der Internet-Film-Datenbank IMDb [4], um die Filmbewertungen aus der anonymisierten Netflix-Datenbank zu deanonymisieren. Ihr Ziel war es, zu einem namentlich bekannten Nutzer der IMDb eine nach Ähnlichkeit geordnete Liste der anonymen Netflix-Nutzer zu erzeugen.

Platz eins belegte dabei die Zuordnung mit der höchsten Wahrscheinlichkeit, dass es sich dabei um dieselbe Person handelt. Eine Scoring-Funktion liefert Werte zwischen null und eins zurück. Null bedeutet, dass beide Profile keine übereinstimmenden Bewertungen besitzen, während eins anzeigt, dass alle Bewertungen übereinstimmen und zusätzliche Parameter, zum Beispiel die Zeit, in der die Bewertung entstand, innerhalb gewisser Grenzwerte liegen: Als ähnlich gelten in diesem Fall die Einstufungen mit vielen Übereinstimmungen, die innerhalb von drei Tagen entstanden.

Um die Zuordnung robuster zu machen, gestand der Algorithmus seltenen Filmen einen größeren Einfluss zu als denen, die in jener Zeit unter den Top 100 der Kino-Charts standen und über die daher viele Besucher abgestimmt haben. Damit die Korrelation auf Platz eins mit einer gewissen Wahrscheinlichkeit als gesichert gelten kann, sollte außerdem der Abstand zum zweiten Platz möglichst groß sein. Falls nicht, ist es sinnvoll, das anonyme Rating als nicht identifiziert zu werten. So ergibt sich eine niedrige Rate an False Positives.

Erstaunlich scharfsichtig

Es war überraschend, wie wenig Hintergrundinformationen, in diesem Fall also Votings aus der IMDb (Abbildung 1), erforderlich waren, um ihnen die anonymen Netflix-User zuzuordnen. Hatte ein Benutzer acht Filmwertungen abgegeben, lag die Trefferquote bei 99 Prozent. Selbst bei nur zwei Wertungen stimmte die Zuordnung immer noch bei 68 Prozent aller Fälle. Mit anderen Worten: Hatte eine Person im IMDb-System über acht Filme abgestimmt, konnten die Wissenschaftler – vorausgesetzt es gab genügend Überlappungen zwischen den bewerteten Filmen – mit 99-prozentiger Wahrscheinlichkeit deren Netflix-Account identifizieren.

Abbildung 1: Allein auf Basis der Votings, die ein Benutzer in der IMDb abgibt, lässt sich sein Benutzername oft eindeutig mit Profilen matchen, die er auf anderen Filmportalen unterhält.

Dabei ging es lediglich um Einstufungen eines Films auf einer Punkteskala. Die Reviewer haben keine Textbeiträge eingereicht. Wären Schreibstil und Wortwahl längerer Filmkritiken eingeflossen, wäre vermutlich eine noch wesentlich treffsicherere Zuordnung möglich. Systeme zur Schreibstilanalyse existieren bereits. Sie sind hauptsächlich beim Aufdecken von Plagiaten in wissenschaftlichen Aufsätzen im Einsatz.

Das den Zuordnungen der Nutzerprofile zugrunde liegende Verfahren heißt Collaborative Filtering. Es lässt sich auch dazu benutzen, um das zukünftige Verhalten eines Nutzers zu prognostizieren. Eine bekanntes Beispiel hierfür ist die Vorschlagsfunktion im Onlineshop von Amazon [5], die Buchvorschläge auf Basis aufgezeichneter Verhaltensmuster von Besuchern mit einer ähnlichen Kaufhistorie anzeigt. Die Zuverlässigkeit der Vorhersage steht und fällt mit der Güte der Hintergrundinformationen, die zur Verfügung stehen.

Käuflich

Fast jedes größere Internetportal stellt heute Mechanismen bereit, um anonymisierte Informationen zu beziehen. Eingeschränkte Nutzerprofile von Facebook inklusive Informationen darüber, welchen Themengruppen der Nutzer angehört, sind ebenso erhältlich wie Informationen über die Galerien von Flickr-Nutzern. Powerseller bei Ebay können ebenfalls nicht nur automatisiert Auktionen einstellen oder Gebote abgeben, ihnen sind auch viele Daten über Mitbieter zugänglich. Weitere bekannte Anbieter von Nutzerprofilen sind die Bookmarkverwaltung Delicious [6] und das Blog-Portal Blogger.com [7].

Diese Seiten bieten Webservices an, die Daten in maschinenlesbarer Form bereitstellen. Wo es solche nicht gibt, liefern Robots, die viele Seiten durchkämmen, ähnliche Informationen. Wie umfassend die so entstanden Profile ausfallen können, zeigen erste existierende Webportale zur Personensuche wie Yasni.de [8], 123people.com [9] oder Spock.com [10], die Ergebnisse verschiedener Suchmaschinen zusammenführen. Spock.com verfügt selbst über eine Webservice-Schnittstelle, die die gesammelten Daten aufliefert. (pkr)

Infos
[1] Latanya Sweeney, “Uniqueness of Simple Demographics in the U.S. Population”: Carnegie Mellon University, Laboratory for International Data Privacy, 2000 [2] Arvind Narayanan and Vitaly Shmatikov, “Robust De-anonymization of LargeSparse Datasets”: to appear in Proc. of 29th IEEE Symposium on Security and Privacy, 2008 [3] Netflix: [http://www.netflix.com] [4] IMDb: [http://www.imdb.com] [5] Amazon: [http://www.amazon.de] [6] Delicious: [http://del.icio.us] [7] Blogger: [http://www.blogger.com] [8] Yasni.de: [http://www.yasni.de] [9] 123people.com: [http://123people.com] [10] Spock.com: [http://www.spock.com]

Infos

[1] Latanya Sweeney, “Uniqueness of Simple Demographics in the U.S. Population”: Carnegie Mellon University, Laboratory for International Data Privacy, 2000

[2] Arvind Narayanan and Vitaly Shmatikov, “Robust De-anonymization of LargeSparse Datasets”: to appear in Proc. of 29th IEEE Symposium on Security and Privacy, 2008

[3] Netflix: [http://www.netflix.com]

[4] IMDb: [http://www.imdb.com]

[5] Amazon: [http://www.amazon.de]

[6] Delicious: [http://del.icio.us]

[7] Blogger: [http://www.blogger.com]

[8] Yasni.de: [http://www.yasni.de]

[9] 123people.com: [http://123people.com]

[10] Spock.com: [http://www.spock.com]