Google hat seine robots.txt-Politik geändert und ist nicht völlig blind geworden

Vor kurzem hatte ein Content-Dieb aktuellnews.de u.a. meine Beiträge je nach dem in welcher Länge sie auf der Startseite angezeigt wurden - von angeteasert bis komplett - geklaut und Google hatte diesen Dieb alleine mit meinen Artikeln gelistet.

Mir war das lange Zeit nicht aufgefallen, da ich kein regelmäßiger Nutzer von Webstatistiken bin und auch nicht regelmäßig nachschaue, wo und wie ich bei Google gelistet bin.

Na wie auch immer: Nur der Dieb und nicht ich selbst bei Google gelistet? Google völlig blind geworden?

Nein.

Es kahmen zwei von einander unabhängige Umstände zusammen:

1. Der Content-Diebstahl.

2. Google hat seine robots.txt-Politik geändert.

Für Suchmaschinen wie Google gibt es die Möglichkeit - was in der Regel auch fast alle haben - eine sogenannte robots.txt-Datei auf seinem Webspace / Webserver anzulegen.

In dieser robots.txt-Datei kann man Google und anderen angeben, welche Verzeichnisse des Webspaces besucht werden dürfen und welche nicht.

Ich hatte keine robots.txt angelegt.

Die Suchmaschinen wie Google haben sie zwar immer vermisst und einen 404-Fehler - “nicht vorhanden” - erzeugt. Aber gut, ging ja auch immer so.

Vor ein paar Monaten allerdings muss es bei Google eine Änderung der hauseigenen Poltitik bezüglich dieser robots.txt-Dateien gegeben haben: Wenn keine robots.txt vorhanden ist, die Google sagt was nicht besucht, gegrawlt werden darf, wird einfach gar nichts mehr besucht.

Also, wenn Google nicht explizit gesagt wird, was verboten ist zu besuchen, geht Google offenbar neuerdings davon aus, dass alles verboten ist.

Diese Erkenntnis habe ich zumindest aus den Google-Webmaster-Tools gewonnen. Dort wurde mir angezeigt, dass über 500 Seiten von mir für Google nicht erreichbar seien. Unter Details wurde zu den einzelnen Seiten folgender Fehler angegeben: “robots.txt ist nicht erreichbar”.

Fazit:

Da Google keine robots.txt bei mir finden konnte und offenbar seit ein paar Monaten auf die Existenz der robots.txt besteht, konnten die in den letzten Monaten veröffentlichten Artikel von Google nicht gegrawlt und indiziert werden. Demzufolge wurde nur die gestohlene Kopie im Google-Index gelistet.

Wenn Sie ebenfalls mal nicht - z.b. aktuellen Artikeln - bei Google gelistet werden, überprüfen Sie, ob Sie eine robots.txt-Datei haben. Der Inhalt ist ganz einfach - z.b.:

User-agent: *
Disallow: /verbotenes-verzeichnis/
Disallow: /verbotenes-verzeichnis2/

Unter verbotenes-verzeichnis geben Sie einfach das oder auch mehrere Verzeichnisse an, auf die Google und andere Suchmaschinen keinen Zugriff haben sollen. Speichern Sie das ganze mit einem Texteditor als “robots.txt” ab und legen es per FTP in das Hauptverzeichnis Ihres Webauftrittes ab.

Oder wenn Sie gar kein Verzeichnis haben, dass Suchmaschinen nicht besuchen dürfen:

User-agent: *
Allow:

Damit erlauben Sie explizit allen Suchmaschinen und anderen User-Agents den Besuch, das Crawlen, Ihres kompletten Webspace.

Abgelegt unter: Intern, WebWork     7. September 2007 12:58

Diese Artikel könnten Sie auch interessieren:

aktuellnews.de Content-Dieb und Google ist völlig blind geworden

Feedburner und Nicht-Indizierung bei Google-Blogsearch

Google-Blogsearch-Technik in Google-Suche: Sexualtrieb und Rottkäpchen

Google Secure Access - Schutz für WLAN-Verbindungen

2 Kommentare

  • Ingo aus Nestrelitz  |  8. September 2007 16:32

    Etwas merkwürdig ist die Interpretation der robots.txt sowieso. Ich lese bei mir immer wieder von Fehlern, daß Google die Seite xy nicht besuchen konnte, obwohl sie mit Sicherheit nicht von einem disallow abgedeckt wird.

  • Manuel Götz  |  9. September 2007 11:27

    Ich glaube das nicht. Dies würde gegen die Aussagen von Google sprechen. Man soll Internetseiten nicht für Google optimieren, dann wird eine Seite erfolgreich. Wenn man aber die robots bearbeitet, dann tut man das. Von dem her… Ist die Frage ob ich dem glauben schenken soll oder nicht ;)

Kommentare geschlossen.

Aktuelle Artikel

Kategorien

Blogroll

Archiv