404 Not Found: Die verlorenen Inhalte des Internets

Als Archiv der Menschheit taugt das Internet nur sehr bedingt. (Foto: dolescum, CC BY-NC-SA 2.0)

Als Archiv der Menschheit taugt das Internet nur sehr bedingt. (Foto: dolescum, CC BY-NC-SA 2.0)

Das Netz vergisst nie: Ein gern gesagter und oft gehörter Satz über das Internet. Vor allem im Zusammenhang mit Datenschutz in sozialen Netzwerken, Partyfotos und Bewerbungen wird das Elefantengedächtnis des World Wide Web immer wieder benannt. Doch das Netz vergisst – und zwar nicht gerade wenig.

Wer nicht erst seit gestern bei Twitter aktiv ist und sich darauf verlässt, dass auch weit zurück liegende Wortmeldung nach wenigen Mausklicks dem Vergessen entrissen werden können, sollte einmal einen Selbstversuch unternehmen. Er wird in aller Regel nicht in der Lage sein, seine ersten Beiträge zum sozialen Netzwerk zu rekonstruieren.

Denn die zugängliche Timeline reicht nur rund drei Jahre zurück, ältere Tweets sind nicht mehr zugänglich. Es sei denn, man ist bereit, Geld zu investieren: Die Firma Gnip verspricht einen Zugriff auf alle jemals der Öffentlichkeit zugänglich gemachten Tweets und Statusmeldungen anderer sozialer Netzwerk. Der kostenpflichtige Dienst ist allerdings nicht für Privatpersonen gedacht. Gnip liefert interessierten Unternehmen Daten, die diese etwa für die Analyse von Trends bei bestimmten Produkten benutzen können.

Löchriges Gedächtnis

Es gibt einen triftigen Grund dafür, dass der Service gerade für soziale Netzwerke angeboten wird. Denn einer jüngst veröffentlichten Studie zufolge, ist hier das Vergessen besonders stark und besonders gut zu messen.

Die Wissenschaftler Hany Salah Eldeen und Michael L. Nelson von der Old Dominion Universität in den USA, haben sechs wichtige historische Ereignisse der letzten Jahre wie etwa die H1N1-Epidemie oder den Tod von Michael Jackson bei Twitter untersucht und analysiert, ob die Quellen die dort verlinkt wurden, noch zugänglich waren.

Das Ergebnis war erschreckend: Mehr als 11 Prozent der Inhalte, die von Twitter-Usern erwähnt wurden, waren nach nur einem Jahr nicht mehr online, nach zweieinhalb Jahren fehlten bereits über 20 Prozent (PDF). Das bedeutet grob geschätzt, dass wir jeden Tag rund 0,02 Prozent aller Inhalte im Netz verlieren.

Wie viele Inhalte aus den Anfangsjahren des Netzes für immer verloren sind, wird wohl nie herauszufinden sein. Viele Usenets oder Bulletin Boards, die großen historischen Wert für das Netzwerk besitzen, das heute das Leben so vieler Menschen bestimmt und verbindet, werden nie mehr zugänglich sein. Wie durch das Feuer in der Bibliothek von Alexandria sind große Mengen von Wissen und Daten unwiderruflich zerstört.

Das dunkle Zeitalter

Dabei ist das Internet und die damit verbundene, weltweite Vernetzung von Menschen die vielleicht wichtigste Quelle, um soziale, politische und historische Entwicklungen zu beobachten und zu analysieren.

Wir halten unsere Daten für sicher, und doch ist die Gefahr für ein neues dunkles Zeitalter sehr hoch. Nicht nur, weil viele Inhalte ganz einfach gelöscht werden, sondern weil viele Dokumente und Dateien in Formaten vorliegen, die schon 20 oder 30 Jahre später nicht mehr verarbeitet werden können.

Vor einem kommenden Digital dark age wurde schon 1997 gewarnt,  erst 10 Jahre später rief Microsoft zusammen mit den Nationalarchiv der USA ein Projekt ins Leben, um Daten auch in Zukunft zugänglich und lesbar zu machen.

Das Archiv des Internet

Die Gründer des nichtkommerziellen Internet Archive versuchen schon seit 1996 das Internet für die Nachwelt zu erhalten und es seit 2001 durch ihre Wayback-Machine zugänglich zu machen. Aber auch hier ist nur ein Teil des großen Ganzen gespeichert. Gemessen an der immensen Datenmenge liefert das Archiv nur eine Handvoll Stichproben.

Um seine seine Daten, seine Geschichte und seinen Anteil am World Wide Web sicher zu speichern, müsste jeder Privatperson selbst alles auf eigenen Servern speichern – in offenen Formaten natürlich, damit sie in Zukunft lesbar bleiben. Denn sonst wird es in Zukunft immer öfter heißen “404 Not Found“.

(Das ZDF ist für den Inhalt externer Internetseiten nicht verantwortlich)

Autor: Jochen Dreier

Autorenbild

Jochen Dreier arbeitet vorrangig als "Skypereisender" für das Deutschlandradio. Kunst, Kultur, Games, Netzpolitik und Verbraucherschutz - dass diese Themen im Netz nicht mehr trennbar sind, schreibt er auch hier auf Hyperland.
Alle Beiträge von Jochen Dreier anzeigen

11 Kommentare

  • Georg
    09.12.2012, 11:44 Uhr.

    Auch die klassischen Papierarchive sammeln nur einen Bruchteil des jemals erzeugten Schriftgutes.

    Ich kann nur bestätigen, dass die meisten Links “verschwinden”. Über Google findet man oft einen interessanten Newsgroup Eintrag zu einem Thema das einen interessiert aber die Links darin sind sehr oft nicht mehr verfügbar.

    Auch private Webseiten Anbieter verlieren nach einiger Zeit das Interesse an dem Thema und löschen die Daten wieder. Geht einem ja selbst so.

  • Linuxhelfer
    09.12.2012, 12:17 Uhr.

    Leute, diese sogenannten “Error 404″ sind auf fehlerhafte Symlinks zurückzuführen. Denn meistens finde ich dann genau diese Inhalte oft über andere Quellen wieder. Wenn sie in Google nicht mehr drin sind, dann sind die meistens über andere Quellen wie etwa duckduckgo oder über ixquick oder über solche Suchmaschinen leicht wiederzufinden.

    Von daher: diese Seiten sind sehr wohl noch da, nur sind eben die sogenannten Symlinks gelöscht, so dass der Eindruck entstehen soll, diese Seiten seien verschwunden. Aber in Wirklichkeit existieren sie noch.

    Wenn man dann sogar noch mit VPN ins Netz geht, findet man diese Seiten ganz schnell. Das zeigt: das ist nichts weiter als Zensur.

    Gruß
    Linuxhelfer

    • Gedichte-Gedichte
      09.12.2012, 12:54 Uhr.

      Good Lord! Fehlende Symlinks und Zensur … Gute Frau, bei Ihren Kommentaren klappen einem bisweilen die Zehennägel hoch.

      Wenn Webseitenbetreiber Seiten irgendwann dauerhaft entfernen, aus welchen Gründen auch immer, und korrekte 404- oder noch besser 410-HTTP-Header senden, dann werden diese Inhalte von Google sehr rasch aus dem Index genommen. Das Problem sind aber meist selbstgestrickte “404-Seiten”, die als Statuscode einen 200er senden, so dass für Google kein Anlaß zum Handeln besteht.

  • Georg
    09.12.2012, 12:29 Uhr.

    Vielfach lande ich bei alten Links auch bei einem Registrierungsanbieter.

    Der alte Eigentümer hat die Domain nicht mehr bezahlt und verfallen lassen. Dann hilft nur noch die Wayback machine.

  • jochen steudneri
    09.12.2012, 12:43 Uhr.

    deshalb ist es für webmaster auch ratsam alle 404 seiten via 301 auf bestehende inhalte umzuleiten. somit vermeidet man unter anderem, dass 404 seiten in den suchergebnissen auftauchen.

  • Georg
    09.12.2012, 14:43 Uhr.

    Allerdings ist die Seite dann endgültig “weg”. Einen alten Link kann man in der wayback machine dagegen nochmal suchen. Allerdings – so weit mir bekannt – kann man mit der wayback machine nur etwas anfangen, wenn man einen Link hat. Nach Stichworten erlaubt die wayback machine nicht zu suchen, man will Google & Co keine Konkurrenz machen.

  • observer
    09.12.2012, 21:46 Uhr.

    Gerade beim verbreiteten HTML und PDF ist wohl kaum zu befürchten dass die Lesbarkeit der Daten künftig eingeschränkt sein könnte. Dafür sind diese Standards viel zu weit verbreitet. Vgl. z.B. http://de.wikipedia.org/wiki/PDF/A

    Was Plattformen wie Twitter betrifft so bleibt die Differenzierung auf der Strecke ob Daten wirklich gelöscht werden oder bloß in der Web-Oberfläche nicht mehr einsehbar sind. Womöglich sind ältere Beiträge nach wie vor gespeichert und über die APIs abrufbar. Es gibt eben einen Unterschied zwischen “Daten löschen” und “Daten auf einem bestimmten Kanal nicht mehr zur Verfügung stellen”.

    Problematischer dürfte sein, wenn eines Tages ein beliebter Service wie bit.ly oder goo.gl seine Verkürzungsdienste einstellt. Die Zahl der dann defekter Linkverweise würde in die Abermillionen gehen. Das Web lebt nun mal von seinen Querverweisen zwischen den Inhalten.

  • Matthias
    10.12.2012, 00:40 Uhr.

    Ich hab auch nicht jede Zeitung die ich je gelesen habe aufgehoben – und die waren journalistisch und zeitgeschichtlich sicher wertvollrer als meine “Tweets” und “Posts”.

    Es ist ein ganz natürlicher Vorgang. Neues entsteht, altes vergeht. Oder leben Sie noch bei Ihren Eltern im Kinderzimmer, oder mit den Möbeln aus dieser Zeit ? Eben.

  • Viva
    10.12.2012, 11:19 Uhr.

    Nun ja……….
    Das Inhalte aus dem Netz “verschwinden” liegt in der Natur der Dinge.
    Mich würde allerdings interessieren wieviele Informationen der täglichen 0,2% Datenverlust sich auf dem Nivaeu mancher Twittermeldung ala ” es ist 8 00 Morgens und ich war grad unter der Dusche und Zähneputzen” bewegen, und damit wirklich keinen erwähnenswerten Verlust an Information darstellen.
    In diesem Sine: Danke liebes Internet für das Verschwinden dieser “Daten”!

    • fancyPT
      12.12.2012, 00:32 Uhr.

      Banale DInge sind Teil der menschlichen Kultur. Nicht jeder Beitrag muss ein kultureller Hochgenuss sein. Und wer weiß schon, mit welchen analytischen Ansätzen und Methoden später mal jemand an die Daten rangeht. Um mit Augenzwinkern beim Beispiel zu bleiben – vielleicht analysiert jemand in 30 Jahren die statistische Verteilung von Zahnputzmeldungen und bringt sie in Relation zur Entwicklung der Zahngesundheit bestimmter Gesellschaften. Das ist jetzt ein relativ dämliches Beispiel, aber derlei Ansätze gibt es viele. Z.B.: http://www.google.org/flutrends/intl/de/de/#DE

  • fancyPT
    12.12.2012, 00:26 Uhr.

    Ein interessantes und auch wichtiges Thema. Leider reicht manchmal bereits ein banaler Grund wie die Umstellung des CMS/Blogsystems, um alte Inhalte großflächig zu entwerten. Selbst wenn diese Informationen noch auf einer Site verfügbar sind, führen interne Links plötzlich ins Leere, die seiteninterne Suchmaschine findet die Inhalte nicht mehr u.ä. Ursache dafür dürfte u.a. sein, dass eine Portierung von Inhalten zwischen Systemen und Formaten leider immer Arbeit bedeutet und ein Autor oft unterschätzt, wie sinnvoll auch alte Beiträge für den Nutzer sein können.

    Ein Ansatz könnte eine alternative Verwaltung von Inhalten jenseits der seiteninternen Zugriffsmechanismen (Navigation…) sein. Letztlich liefe das in Richtung semantisches Netz und „open, linked data“ (https://www.youtube.com/watch?v=OM6XIICm_qo&feature=relmfu) auf das wir leider alle schon eine Weile warten.

    Nicht zu vergessen ist der Aspekt der Lizenzen. Frei kopierbare und wiederveröffentliche Daten haben ja zumindest den Vorteil, dass sie durch Kopieren und weiterverbreiten an verschiedenen Quellen wiederauffindbar sind. In einem idealen Netz wäre das natürlich auch mit Zitaten und Hyperlinks möglich. Aber: siehe oben.

Kommentare geschlossen

Dieser Beitrag kann nicht länger kommentiert werden.