WordPress: Broken Link Checker — oder wie vergeßlich ist das Internet?

Zur Pflege einer Website gehört auch die Überprüfung auf Fehler wie beispielsweise Broken Links. Viele “broken links” entdeckt man bereits kurz nachdem man einen Beitrag veröffentlicht hat: Tippfehler in einer URL oder ein versehentlich verschobenes Bild. Anschließend sollte alles “auf ewig” in Ordnung sein.

Süddeutsche Zeitung

Typische Meldung, hier bei “Süddeutsche Zeitung”
(hier: Link auf Süddeutsche Zeitung)

Doch immer öfter wird der Spruch “das Internetvergißtnichts” zum Mythos: Viele wichtige Informationen sind oft schon nach wenigen Jahren nicht mehr auffindbar, übrig bleiben wohl nur peinliche Fotos oder unerwünschte Datensammlungen. — Kann man das systematisch überprüfen?


Wie äußern sich “Broken Links” im Alltag?

  • Zensurbestrebungen gibt es nicht nur in Bananenrepubliken, auch in Deutschland verschwinden Inhalte: Lobbygruppen, “Leistungsschutzrecht”, #Zensursula, aber auch das systematische “Depublizieren” durch GEZ-Gebühren vom Bürger bezahlte Inhalte.
  • Firmenpleiten wie beispielsweise der Financial Times Deutschland, die am 7. Dezember 2012 letztmalig erscheint. Wie lange die Website noch erreichbar ist, bleibt ungewiß. Da ja auch Server Geld kosten, ist mit dem (kurzsichtigen) Verschwinden sämtlicher Inhalte zu rechnen.
  • Technische Probleme nach Umstellung auf ein neues CMS oder schlecht erreichbare Server mit “Timeout”. Private Webseiten verwaisen, weil sie keiner pflegt, die Accountdaten verloren gegangen sind oder der Webspace an einen Telefonanbieter gekoppelt war.

Im Laufe der Jahre haben sich auch bei Oberlehrer einige Tausend Links angesammelt, da die Vernetzung — insbesondere bei Blogs — Prinzip und Lebensader sind. Bei Veröffentlichung haben garantiert alle funktioniert, leider stoße ich bei der Recherche zufällig auf broken links. Was kann man dagegen tun?

Broken Link Checker

Eine Möglichkeit ist das Plugin “Broken Link Checker“, das aus der Datenbank die Links sammelt (Hyperlinks, Videos und Bilder) und anschließend einzeln abklappert. Anschließend findet man Informationen an mehreren Stellen im Backend von WordPress:

  • unter “Settings | Link Checker” für sehr umfangreiche Einstellungen
  • sowie bei “Tools” mit dem eigenen Menüpunkt “Broken Links” für die Auswertung
  • und eine Status-Übersicht als Widget auf “Home”

Einmal angestoßen läuft die Überprüfung im Hintergrund weiter — zum Glück, Überporüfung der Linksdenn bei Oberlehrer haben sich inzwischen einige Tausend Links angesammelt.

Übersicht der Links als Widget im Backend

Dabei handelt es sich nicht um Klickstrecken, sondern von Hand eingepflegte Verweise auf Quellen oder weiterführende Informationen. Ich vermute, daß die hohe Zahl der angezeigten Links allerdings z. T. auch die interne Verlinkung berücksichtigt, die bei WordPress durch entsprechende Mechanismen hoch ist (Übersichtsseiten, Archivseiten, Leseempfehlung beliebter Artikel usw.).

Nach ein paar Minuten erscheinen erste Ergebnisse, die gesamte Überprüfung läuft bei einer umfangreichen Website allerdings über mehrere Stunden. — Beliebte Fehler sind:

  • 404 not found
  • server not found
  • video removed
  • 403 forbidden
  • connection failed
  • 400 bad request
  • timeout

 

Bericht von Broken Link Checker.

Bericht von “Broken Link Checker”.

Bei der Überprüfung stoße ich auf eine Menge 404-Seiten — leider besonders häufig bei Zeitungen und anderen Nachrichtenquellen. Auch bei verlinkten oder eingebetteten Youtube-Videos sind einige plötzlich “privat”, viele aus “Urheberrechtsgründen” gelöscht oder weil das Benutzerkonto nicht mehr existiert. Ein Teil fehlerhafter Links geht auch auf Fake-Angaben bei den Kontaktdaten im Kommentar-Formular zurück, weshalb man in den Settings/Options die Überprüfung “Look for Links in … Comments” auslassen sollte. Bei manchen Websites kommt es schlicht zum “timeout”, wobei dies nicht unbedingt die privaten Seiten bei Billighostern sind.

Als Abhilfe kann man Links löschen (unlink), bearbeiten (edit), manuell als funktionierend einstufen (not broken) oder von der weiteren Untersuchung ausnehmen.

Fehlerhafte Links können im Beitrag markiert werden

Fehlerhafte Links können im Beitrag markiert werden
(hier durch Durchstreichen)

Fehlerhafte Links können außerdem im Beitrag automatisch markiert werden. So ist der Leser “gewarnt”, aber auch als Autor wird man so auf Probleme aufmerksam gemacht, ohne extra im Backend nachsehen zu müssen. Umgekehrt kann man leider auch nicht davon ausgehen, daß dort nicht aufgeführte Links einwandfrei funktionieren. Immerhin zeigen viele Webseiten bei fehlenden Beiträgen stattdessen eine Fehlerseite oder bieten eine Suchfunktion. Darüber hinaus stelle ich aber auch einige fehlerhafte Links fest, die so nicht im Original-Beitrag auftauchen, wo bei Broken Link Checker z. B. Link und Überschrift vermischt werden.

Alternativ kann man Online-Checker ausprobieren oder Desktop-Tools, die dann auch nicht an WordPress gebunden sind. Doch auch dort gelten prinzipiell dieselben Einschränkungen. Nach meiner Erfahrung haben fast alle Tools Probleme, wenn man wirklich viele Verlinkungen hat (über die Grenze kann man nur spekulieren, aber bei < 100 sollte es keine Probleme geben, > 1.000 schon eher).

 

Tipp: Leser, denen fehlerhafte Links auffallen, können statt einer Fehlermeldung (aka “Rumgenörgele”) in den Kommentaren stattdessen einen aktualisierten Link posten. Das hat auch den Vorteil, daß die zeitaufwendige Überprüfung nur bei wirklich gelesenen Beiträgen notwendig wird.

Comments

comments

Leave a Reply

Your email address will not be published.