404 Not Found: Die verlorenen Inhalte des Internets

Als Archiv der Menschheit taugt das Internet nur sehr bedingt. (Foto: dolescum, CC BY-NC-SA 2.0)

Als Archiv der Menschheit taugt das Internet nur sehr bedingt. (Foto: dolescum, CC BY-NC-SA 2.0)

Das Netz vergisst nie: Ein gern gesagter und oft gehörter Satz über das Internet. Vor allem im Zusammenhang mit Datenschutz in sozialen Netzwerken, Partyfotos und Bewerbungen wird das Elefantengedächtnis des World Wide Web immer wieder benannt. Doch das Netz vergisst – und zwar nicht gerade wenig.

Wer nicht erst seit gestern bei Twitter aktiv ist und sich darauf verlässt, dass auch weit zurück liegende Wortmeldung nach wenigen Mausklicks dem Vergessen entrissen werden können, sollte einmal einen Selbstversuch unternehmen. Er wird in aller Regel nicht in der Lage sein, seine ersten Beiträge zum sozialen Netzwerk zu rekonstruieren.

Denn die zugängliche Timeline reicht nur rund drei Jahre zurück, ältere Tweets sind nicht mehr zugänglich. Es sei denn, man ist bereit, Geld zu investieren: Die Firma Gnip verspricht einen Zugriff auf alle jemals der Öffentlichkeit zugänglich gemachten Tweets und Statusmeldungen anderer sozialer Netzwerk. Der kostenpflichtige Dienst ist allerdings nicht für Privatpersonen gedacht. Gnip liefert interessierten Unternehmen Daten, die diese etwa für die Analyse von Trends bei bestimmten Produkten benutzen können.

Löchriges Gedächtnis

Es gibt einen triftigen Grund dafür, dass der Service gerade für soziale Netzwerke angeboten wird. Denn einer jüngst veröffentlichten Studie zufolge, ist hier das Vergessen besonders stark und besonders gut zu messen.

Die Wissenschaftler Hany Salah Eldeen und Michael L. Nelson von der Old Dominion Universität in den USA, haben sechs wichtige historische Ereignisse der letzten Jahre wie etwa die H1N1-Epidemie oder den Tod von Michael Jackson bei Twitter untersucht und analysiert, ob die Quellen die dort verlinkt wurden, noch zugänglich waren.

Das Ergebnis war erschreckend: Mehr als 11 Prozent der Inhalte, die von Twitter-Usern erwähnt wurden, waren nach nur einem Jahr nicht mehr online, nach zweieinhalb Jahren fehlten bereits über 20 Prozent (PDF). Das bedeutet grob geschätzt, dass wir jeden Tag rund 0,02 Prozent aller Inhalte im Netz verlieren.

Wie viele Inhalte aus den Anfangsjahren des Netzes für immer verloren sind, wird wohl nie herauszufinden sein. Viele Usenets oder Bulletin Boards, die großen historischen Wert für das Netzwerk besitzen, das heute das Leben so vieler Menschen bestimmt und verbindet, werden nie mehr zugänglich sein. Wie durch das Feuer in der Bibliothek von Alexandria sind große Mengen von Wissen und Daten unwiderruflich zerstört.

Das dunkle Zeitalter

Dabei ist das Internet und die damit verbundene, weltweite Vernetzung von Menschen die vielleicht wichtigste Quelle, um soziale, politische und historische Entwicklungen zu beobachten und zu analysieren.

Wir halten unsere Daten für sicher, und doch ist die Gefahr für ein neues dunkles Zeitalter sehr hoch. Nicht nur, weil viele Inhalte ganz einfach gelöscht werden, sondern weil viele Dokumente und Dateien in Formaten vorliegen, die schon 20 oder 30 Jahre später nicht mehr verarbeitet werden können.

Vor einem kommenden Digital dark age wurde schon 1997 gewarnt,  erst 10 Jahre später rief Microsoft zusammen mit den Nationalarchiv der USA ein Projekt ins Leben, um Daten auch in Zukunft zugänglich und lesbar zu machen.

Das Archiv des Internet

Die Gründer des nichtkommerziellen Internet Archive versuchen schon seit 1996 das Internet für die Nachwelt zu erhalten und es seit 2001 durch ihre Wayback-Machine zugänglich zu machen. Aber auch hier ist nur ein Teil des großen Ganzen gespeichert. Gemessen an der immensen Datenmenge liefert das Archiv nur eine Handvoll Stichproben.

Um seine seine Daten, seine Geschichte und seinen Anteil am World Wide Web sicher zu speichern, müsste jeder Privatperson selbst alles auf eigenen Servern speichern – in offenen Formaten natürlich, damit sie in Zukunft lesbar bleiben. Denn sonst wird es in Zukunft immer öfter heißen “404 Not Found“.

(Das ZDF ist für den Inhalt externer Internetseiten nicht verantwortlich)

Autor: Jochen Dreier

Autorenbild

Jochen Dreier arbeitet vorrangig als "Skypereisender" für das Deutschlandradio. Kunst, Kultur, Games, Netzpolitik und Verbraucherschutz - dass diese Themen im Netz nicht mehr trennbar sind, schreibt er auch hier auf Hyperland.
Alle Beiträge von Jochen Dreier anzeigen