Der nächste Wettlauf um die Anonymität im Netz
Auch wer ohne Namensnennung oder Pseudonym im Netz veröffentlicht – etwa auf der Enthüllungsplattform Wikileaks, soll durch Algorithmen erkannt werden können. So zumindest verspricht es die Stilometrie, die Untersuchungen zum Sprachstil mit Mitteln der Statistik durchführt. Doch nicht nur Erkennungssysteme machen Fortschritte: auch das erste Anonymisierungsprogramm wurde jetzt veröffentlicht.
Tausende oder nur zwei Autoren?
Hunderte Mitarbeiter, gar tausende freiwillige Helfer sollten es sein, die hinter der Wikileaks-Plattform stehen – so zumindest präsentierte sich das Projekt der Öffentlichkeit. Inzwischen ist bekannt, dass hinter dem vermeintlichen Großprojekt im Wesentlichen zwei Macher steckten – Julian Assange und Daniel Domscheit-Berg. Hätte man das erkennen können? Einen Hinweis liefert Domscheit-Berg in seinem Buch “Inside Wikileaks”. Er beschreibt darin, wie Assange und er einen Vortrag über Autorenerkennung durch Software hörten:
“Ich stupste Julian mit dem Fuß an. Wir guckten einander an und mussten beide laut loslachen. Hätte jemand unsere Dokumente mit einem solchen Programm analysiert, hätte er festgestellt, dass hinter der Vielzahl von Pressemeldungen, Dokumenten-Analysen und Korrespondenzen oft die gleichen Leute standen, die sich mit einem bunten Strauß an Identitäten schmückten.”
Das war Ende 2009. Zwei Jahre später ist die damals angekündigte Software erhältlich – und das Gegenwerkzeug gleich mit. Michael Brennan – jener Forscher, der Assange und Domscheit-Berg damals zum Lachen brachte – und seine Kollegen von der Drexel University haben auf dem 28. Chaos Communication Congress die Software JStylo vorgestellt – wenn auch noch in einer frühen Alpha-Version. Ähnliche Programme, etwa Signature oder JGAAP, sind schon länger erhältlich. Was sie versprechen: Mit den Mitteln der Statistik sollen sie erkennen oder zumindest eingrenzen, wer Urheber eines Textes ist.
Texte vermessen
All diese Programme arbeiten mit Methoden der sogenannten Stilometrie, bei denen Texte auf bestimmte statistische Eigenschaften untersucht werden. Je nach Modell werden verschiedene Kennzahlen verwendet: Zum Beispiel, aus wie vielen Wörtern ein Satz besteht. Oder: Welche Zeichensetzung verwendet wird und wie oft welche Präpositionen vorkommen. Alle möglichen Merkmale sind denkbar, die mehr oder weniger mit dem zu tun haben, was einem Autor als “Stil” bewusst ist – es reicht zunächst, dass sie sich in numerischen Werten ausdrücken lassen. Linguisten entwickeln daraus Modelle, deren Grundidee ist, dass sich der individuelle Stil eines Autors durch eine Kombination vieler solcher Kennzahlen ausdrücken lässt.
Das ist der Idee nach gar nicht neu: Wissenschaftler haben solche stilistischen Untersuchungen schon verwendet, um die Schriften Platons in eine Chronologie zu bringen oder die Urheberschaft der Federalist Papers zu untersuchen – nur eben analog. Auch in der Strafverfolgung werden die Methoden eingesetzt, dort fallen sie in den Bereich der forensischen Linguistik. Das Bundeskriminalamt etwa unterhält eine eigene Abteilung, in der Erpressertexte, Bekennerschreiben und andere Schriften mit der “Kiste“, dem “Kriminaltechnischen Informations-System Texte”, digital gesammelt und ausgewertet werden.
Stilometrie kann keine Wunder vollbringen
Wie aber lässt sich mit statistischen Methoden auf Urheber schließen? Zwei Herangehensweisen gibt es: Liegen schon Texte von Autoren vor, die als Urheber infrage kommen, vergleicht das Programm sie. Der fragliche Text lässt sich dann umso besser finden, je weniger Kandidaten dabei sind und je mehr Vergleichsmaterial vorliegt. Ist gar nichts über potenzielle Urheber bekannt, kann auch die Stilometrie keine Wunder vollbringen. Dennoch: Hat man einen Stapel anonymer Texte, so lassen sich immer noch Autorenprofile für Unbekannte erstellen, was Hinweise auf die Anzahl der Autoren erlaubt und die Suche weiter eingrenzen kann.
Doch auch wenn die Stilometrie Fortschritte macht: es bleibt ein Fortschritt bei statistischen Werten, also bei einem ausgefeilten Maß für die Ähnlichkeit von Texten – nicht mehr, aber auch nicht weniger. Annahmen wie die eines “writeprints“, einer Art individuellem Fingerabdruck beim Schreiben, gelten einigen Experten mittlerweile als überholt. “Einen sprachlichen Fingerabdruck gibt es nicht”, meint etwa der Linguistik-Professor Joachim Scharloth von der Uni Tokio in seinem Blog “Security Informatics”. Hier liege die falsche Vorstellung eines festen, individuell unveränderlichen Musters beim Schreiben zugrunde.
Werkzeug und Gegenwerkzeug
Was Brennan und seine Kollegen auch gezeigt haben: Erkennungssysteme lassen sich leichter hinters Licht führen lassen als gedacht. Wer seine Texte etwas verfremdet, geht den Systemen durch die Lappen; wer andere Autoren imitiert, noch leichter. Das passende Werkzeug dafür haben die Forscher der Drexel University auch gleich mitgeliefert: die Software “Anonymouth“, die Texte für eben jene Erkennungssysteme unsichtbar machen soll, indem sie – wiederum durch Vergleich mit anderen Texten desselben Autors – charakteristische Spuren verwischt.
So sehen Autoren wie BoingBoing-Blogger Cory Doctorow in der Stilometrie und ihren Umgehungsmöglichkeiten schon den nächsten Schauplatz im Kampf um Anonymität im Netz aufziehen: Zwischen Dissidenten und autoritären Regimen, zwischen Whistleblowern und ihren Vorgesetzten oder zwischen Trollen und Forenmoderatoren. Ob es soweit kommt? Indem sie beide Werkzeuge – Erkennung und Unkenntlichmachung – zur freien Verfügung gestellt haben, haben Brennan und Co. zumindest dafür gesorgt, dass die Startbedingungen beim nächsten Wettlauf vergleichbar sind.
(Das ZDF ist für den Inhalt externer Internetseiten nicht verantwortlich)
3 Kommentare | 10. Januar 2012 | 15:16 Uhr |
|

Also das trollen in Foren kenne ich zumindest , dass andere sich erst schäbig benehmen und dann einen Rausschmiss kriegen und dann wieder kommen als jemand anderes und versuchen sich etwas zu verstellen.
Aber auch ich möchte manchmal unerkannt bleiben vor der gefährlichen Öffentlichkeit, und verwende zwar in verschiedenen Blogs verschiedene Namen, aber habe immer die Befürchtung jemand könne es entlarven anhand dessen, was ich schreibe.
Die Angst vor anderen Menschen führt mich dazu und die bestätigende Erfahrung, dass es immer einen Verrückten im Netz gibt, der zwischen Stalking und Rache schwelgt und einen regelrecht auf den Kicker haben kann.
Anonymität kann auch sinnvoll sein-
Auf den Punkt gebracht: Wer mit einer Technik umzugehen vermag, der kann sie nutzen – wer sie auch noch versteht, der kann sie austricksen.
Klingt banal, WÄRE aber DAS Killerargument gegen die Forderung nach immer mehr Dankenbanken und Überwachung. Denn WÜRDEN ja nur die Informationen von Dummköpfen speichern. Und die sind eher eine Gefahr für sich als für andere.
Ich sagte WÄRE, wenn der Trend nicht dahin ginge, ANDERE (vornehmlich Vertrauenspersonen oder Aufsichtsorgane) über einen denunzieren zu lassen. Das ist der Todesstoß der informationellen Selbstbestimmung.
Dass man nun am Schreibstil einer Person etwas erkennen kann, ist insofern müßig, als
a) Dieses noch das kleinste Problem ist.
b) Ein Anonymus immerhin ein Anonymus bleibt, ganz gleich wer unter seinem Namen schreibt.
Bliebe unter dem Strich zu hoffen, dass die ständig gefräßiger werdenden Daten-, Analyse-, und Scoring-Kraken irgendwann einmal so fett werden, dass sie nicht mehr durch das Kellerfenster passen. Bei exponentiellem Wachstum von Usern und Usage ist das nur eine Frage der Zeit.
Von da an ist Privates dann zwar immer noch Privat (etwa auch Namen und Zuordnungen), nur kann man Spreu und Weizen nicht mehr voneinander trennen. Die Kritischen Dimensionen sind dann:
- Raum
- Zeit
- Individuen
- Alias oder nicht
- …
Leider bleibt zu befürchten, dass man den Instrumenten, die man bezahlt, auch trauen möchte. Und dann wird es echt gefährlich.
Merke: Privatheit und Anonymität haben eine objektive Qualität und Bedeutung. Wer das ignoriert, schafft sie nicht ab sondern erntet komplementäre Probleme. Das liegt im Wesentlichen daran, dass der persönliche Bereich schwieriger und komplexer ist, als es Maschinen verstehen.
Merke: Privatheit und Anonymität haben eine objektive Qualität und Bedeutung. Wer das ignoriert, schafft sie nicht ab sondern erntet komplementäre Probleme. Das liegt im Wesentlichen daran, dass der persönliche Bereich schwieriger und komplexer ist, als es Maschinen verstehen.HJGH