Das neue Motto von AOL könnte einfach nur "oh shit" lauten. Während Google vor Gericht gegen die amerikanische Regierung erkämpft, keinerlei Suchanfragen herausgeben zu müssen, macht AOL das freiwillig und
stellt ein 460 MB großes Archiv mit Suchanfragen von ausgewählten 658.000 Benutzern (herzlichen Glückwunsch!) der englischsprachigen AOL-Suche zwischen März und Mai 2006 ins Netz, mit der
Bitte, bei Gebrauch die Herren G. Pass, A. Chowdhury und C. Torgeson mit ihrer Arbeit "A Picture of Search" zu zitieren. Diese Herren dürften sich mit der Aktion allerdings jetzt relativ unbeliebt gemacht haben. Während AOL den Download inzwischen vom Netz genommen hat, gibt es bei
Google Cache noch eine Sicherheitskopie der Webseite (oh, the irony). Die Daten selbst sind dort nicht mehr erhältlich, aber wie das mit dem Internet so ist: Überall sonst schon.
Die 500.000 unfreiwilligen Teilnehmer sind übrigens anonymisiert. Bei AOL bedeutet das, jeder ist durch eine eindeutig zugeordnete Zahl ersetzt worden. Wenn ich mal Zeit habe, suche ich mir die Leute raus, die sich selbst gesucht haben.
Obwohl AOL die Daten vom Netz genommen hat, ist das selbe kräftig damit beschäftigt, sie zu analysieren. So gibt es offenbar unter den Benutzern von AOL durchaus
Leute mit unlauteren Motiven, die nach Dingen suchen wie "how to kill your wife". Das klingt interessant, da guck ich auch mal rein.
$ zcat ∗gz | wc -l
36389577 (Anzahl der Zeilen insgesamt)
$ zcat ∗gz | grep -ci "child porn"
827 (Anzahl der Zeilen mit dem exakten Suchbegriff)
$ zcat ∗gz | grep -ci "dog sex"
935 (Offenbar ist das Tabu hier nicht so stark verwurzelt)
Ich dachte mir schon immer, dass es Leute gibt, die nach ihrer Kreditkartennummer suchen, um festzustellen, ob sie im Internet zu finden ist:
$ zcat ∗gz | perl cc-validate.pl
+++ 37XXXXXXXXXX014 American Express (Ich anonymisier das besser mal, will ja nicht wie AOL enden.)
+++ 471XXXXXXX292 Visa
... snip ...
+++ 544XXXXXXXXXX235 MasterCard
+++ 510XXXXXXXXXX691 MasterCard
... snip ...
+++ 601XXXXXXXXX226 Discover/Novus
... snip ...
Herausfinden wollen, ob die eigene Kreditkartennummer im Netz steht und diese dann von AOL ins Netz gestellt bekommen: Priceless.
Insgesamt finde ich 30 Visa-Nummern, 4 mal die MasterCard, 3 mal American Express und 2 mal Discover/Novus.
Nett ist auch, dass die angeklickten URLs auch enthalten sind. Richtig cool dagegen ist aber, dass einige Leute offenbar aus Versehen nach URLs suchen. Da sind zwar dann alle Sonderzeichen sorgfältig entfernt, aber man hat ja Zeit. Zum Abschluss noch ein paar Leute, die E-Mails kopieren oder an der falschen Stelle eingeben:
$ zcat ∗gz | grep -i "^[0-9]∗.dear .∗ this"
1118834 dear workerbee you have requested to reset your password on frugal's forums
because you have forgotten your password. if you did not request this please ignore it. it
will expire and become useless in 24 hours time.to reset your password please visit th 2006-03-23 03:43:53
... snip ...
10237534 dear johnny wooten this email was sent automatically by the paypal server
and is part of the change password request process. this is done for your protection --- only
you the recipient of this email can take the next step in the password change process. 2006-04-07
... snip ...
181017 dear gary house this email was sent automatically by ebay in response to your
request to recover your password. this is done for your protection; only you the recipient
of this email can take the next step in the password recover process.to reset your pa 2006-04-23 22:08:11
... snip ...
1409307 dear rebbitzen aronovitch i am somewhat confused about ms. adams. her
father became very ill and had to be hospitalized. this cut into any plans for us to see
each other as his condition was serious to the point that her entire family came in to see 2006-05-01 17:08:29
... snip ...
Weitere Artikel zum Thema:
Greg Sadetsky,
Techcrunch,
Adam D'Angelo,
pl0g.de.
Update: Während AOL sich an mehreren Stellen
öffentlich entschuldigt, gibt es
hier immer noch ganz ähnliche Daten, wenn auch in sehr viel geringerem Umfang und besser anonymisiert.
... nicht einmal die Suchverläufe von mehr als 500.000 seiner Kunden. Die wurden vorsätzlich online gestellt — anscheinend, um statistische Studien mit realistischem Datenmaterial zu unterstützen. Allerdings besteht die einzige Anonymisierung der Da
Aufgenommen: Aug 07, 23:33
Während AOL sich selbst über den letzten Faux Pas aufregt und sich dafür entschuldigt und ich außerdem ganz sicher weiß, welchen Online-Speicherplatz ich nie benutzen werde, deutet sich nach meinen ersten Untersuchungen der veröffentlichten Daten an
Aufgenommen: Aug 08, 21:03
Die New York Times hat den ersten AOL-User aus den von AOL veröffentlichten Suchanfragen identifiziert. User 4417749 ist Thelma Arnold aus Lilburn, Georgia. Zu befürchten hat sie aber nichts. Sie hat nach nichts gesucht, das man nicht auch so erraten
Aufgenommen: Aug 09, 17:25