Canonical URL und Duplicate Content (auch als doppelter Inhalt und "double content" bekannt)

Canonical URL, Duplicate Content ... handelt es sich hierbei um einen Zungenbrecher für IT-begeisterte Nerds? Nun, schaffen wir zunächst einmal Klarheit bezüglich der Fachterminologie:

URL ist die Abkürzung von "Uniform Resource Locator" (zu Deutsch: "einheitlicher Quellanzeiger") = Internetadresse einer Website
Content (in diesem Zusammenhang) bezieht sich auf Textinhalte von Internetseiten
Canonical bedeutet in diesem Zusammenhang in etwa "original" oder "ursprünglich"


Wenn man die Bedeutung der Worte erkannt hat, wird einem der Bezug zur Suchmaschinenoptimierung viel deutlicher: In wenigen Worten lässt sich das Problem mit dem doppeltem Content folgendermaßen beschreiben: Suchmaschinen wie MSN, Yahoo und Google sind, wie der Name schon sagt, im Grunde automatisch ablaufende Programme, also "Maschinen".

Damit ein Computerprogramm einwandfrei funktioniert, benötigt es feste Regeln und genaue Anweisungen (Algorithmen). Diese Anweisungen (Befehle) sind zum einen im Programm selbst enthalten (per Programmiersprache) und zum anderen können sie dem Programm auch von außen, während der Laufzeit eingegeben werden. Das Programm interagiert (und reagiert) dann anhand fester Regeln mit den eingegebenen Anweisungen.

Und da wären wir auch schon beim Kern des Problems angelangt: Findet eine Suchmaschine mehrmals, auf unterschiedlichen Seiten einer Domain - oder viel schlimmer, auf zwei unterschiedlichen Domains den gleichen Textinhalt (Content) - hat das Programm natürlich seine Schwierigkeiten damit, den wahren Urheber des Textes (Content) herauszufinden. Die Suchmaschine ist von sich aus nicht in der Lage zu entscheiden, welches nun die richtige Quelle des Textes ist bzw. welche Website die originale, ursprüngliche ist und braucht daher folgende Information: "Zu welcher Website gehört der Text nun wirklich?"

Um den Suchmaschinen die Zuordnung "Text <--> Website" zu erleichtern, haben Microsoft (MSN), Yahoo und Google eine HTML-Anweisung formuliert, die den Suchmaschinen genau diese Zuordnung ermöglicht: <link rel="canonical" href="http://www.beispiel.de/" />

Diese Anweisung besagt in etwa folgendes:
"Liebe Suchmaschine, die HTML-Seite, von der dieser Inhalt stammt, ist die Seite "http://www.beispiel.de". Sei also beruhigt Suchmaschine, es handelt sich nicht um ein Plagiat oder Fehler. Du kannst den Text ruhig der Originaladresse zuordnen und deine Nerven ..äh, Datenbankressourcen schonen ..."

Canonical Tag nur innerhalb Domain bzw. Domain und Subdomain einsetzen!

Diese Anweisung funktioniert jedoch nur innerhalb einer Domain bzw. Domain und zugehöriger Subdomain.
Beispiel:
Auf Ihrer Website "www.meine-website.de" haben Sie eine Hauptseite (Index oder auch Homepage genannt) und mehrere Unterseiten. Falls Sie auf verschiedenen Unterseiten einen gleichlautenden Text haben, können Sie der Suchmaschine mittels oben genanntem Befehl die Zuordnung ermöglichen. Dies funktioniert auch zwischen Hauptdomain und Subdomain (subdomain.meine-website.de). Jedoch nicht domainübergreifend ("www.homepage-nr1.de" und "www.homepage-nr2.de").

Canonical Tag domainübergreifend? Lieber nicht ...

Sollten Sie jedoch auf zwei unterschiedlichen Domains gleichlautende Textinhalte haben, könnte zumindest eine Ihrer Websites von den Suchmaschinen herabgestuft werden - mit dem Resultat, dass Ihre Website in den Trefferlisten weit nach unten rutscht und der Pagerank sinkt. Um dies zu vermeiden, können Sie auf eine der beiden Domains eine sogenannte permanente Umleitung (Serverseitig: 301) einrichten. Somit wird beim Aufruf einer Seite mit doppeltem Inhalt automatisch zur Originaldomain umgeroutet - und die Suchmaschine hat kein Problem mehr damit.

Angabe der Canonical-URL mittels .htaccess

Wenn Sie stolzer Besitzer einer eigenen Website sind, probieren Sie mal folgendes aus:

  1. Geben Sie zunächst Ihre komplette URL in das Adressfeld des Browsers ein (z. B. www.meine-homepage.de)
  2. Und nun geben Sie Ihre URL ohne "www" ein ...

Ihre Homepage sollte nun trotzdem aufgerufen werden ... und genau das ist für manche Suchmaschinen ein Problem: Sie sehen "www.meine-homepage.de" und "meine-homepage.de" nicht als ein und dieselbe Adresse (URL) an - womit wir wieder beim Thema doppelter Content wären ...

Um den Suchmaschinen nun wirklich ein für alle mal beizubringen, welche Adresse nun die Richtige ist, gibt es einen kleinen Trick / Befehl, den Sie in die .htaccess-Datei im Root-Verzeichnis Ihres Servers eintragen können. Der Befehlssatz lautet:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^ihredomain\.de$ [NC]
RewriteRule ^(.*)$ http://www.ihredomain.de/$1 [R=301,L]

Achtung: Manipulationen an der .htaccess-Datei und sonstige serverseitige Einstellungen bitte nur durchführen, wenn Sie fachkundig sind. Ansonsten kann es zu Problemen mit Ihrem Server / Ihrer Website kommen.

Somit geschieht dann folgendes: Sollte eine Suchmaschine über die URL "ohne www." auf Ihre Website kommen, erhält sie vom Server TROTZDEM die vollständige Adresse (mit "www" am Anfang) vorgesetzt - und somit wäre alles wieder im grünen Bereich.