google ignoriert robots.txt ?

sommer · Beitrag von **sommer** » 26.11.2005 00:20

Kann es sein, dass google die robots.txt ignoriert?

Ich hab unter einer neuen Domain eine Seite aufgezogen und google bzw. allen Suchmaschinen nicht erlaubt drei Ordner zu durchsuchen und nu finde ich den kompletten Inhalt mit google!

Was läuft da denn schief?

Die komplette Domain (für ein Ordner) lautet: www.diedomain.de/ordner1/ordner1/

In der robots.txt steht für die drei Ordner:

User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/

Xwitz · Beitrag von **Xwitz** » 26.11.2005 01:05

Bei mir ist es ähnlich, ich habe ein paar .htm ausgeschlossen (mit noindex und robots.txt), das hat auch über Monate funktioniert.

Seit kurzem aber werden die gefunden. Nicht direkt der Inhalt, sondern wenn ich nach meinem domainnamen suche und auf "weitere..." klicke werden die aufgeführt. Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...

Beitrag von **Pyramide** » 26.11.2005 16:57

Habt ihr die robots.txt denn ins root Verzeichnis gelegt? Wenn die Datei in einem Unterverzeichnis liegt, funktioniert es nicht.

IPB_Flüchtling · Beitrag von **IPB_Flüchtling** » 26.11.2005 20:24

Hallo sommer,

hast Du in Deiner robots.txt einen eigenen Eintrag für den Googlebot?

Also z.B.:

User-agent: Googlebot
Disallow: /nichtlesen.html

User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/

Falls ja, wäre es empfehlenswert, für den Googlebot die obigen drei Disallow-Zeilen noch einmal extra anzuführen, also so:

User-agent: Googlebot
Disallow: /nichtlesen.html
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/

LG, IPB_Flüchtling

tost · Beitrag von **tost** » 26.11.2005 22:32

Also ein * schließt eigtl. alle Crawler aus und ist auch üblich..

Aber natürlich kann man den Google-Eintrag davor schreiben und es mal weiter beobachten

tost

IPB_Flüchtling · Beitrag von **IPB_Flüchtling** » 26.11.2005 23:18

@tost:

Das Problem ist, wenn bereits eigene Regeln für Google existieren, diese aber nicht

Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/

enthalten. Sobald ein User-agent: Googlebot in der robots.txt enthalten ist, kann es passieren, dass nur die unter User-agent: Googlebot angegebenen Regeln beachtet und die unter User-agent: * angegebenen Disallow-Regeln ignoriert werden.

(Deshalb sollten auch die Einträge zum Blockieren von Spambots etc. vor User-agent: * angeführt werden, weil sobald User-agent: * gefunden wird, viele Bots gar nicht mehr weitersuchen, ob für sie eigene Regeln existieren.)

LG, IPB_Flüchtling

Xwitz · Beitrag von **Xwitz** » 29.11.2005 18:30

Pyramide hat geschrieben:Habt ihr die robots.txt denn ins root Verzeichnis gelegt?

Ich ja.
Aussehn tut sie wie folgt.

Code: Alles auswählen

User-agent: *

Disallow: /Bilder/
...
Disallow: /kontakt.htm
...
Disallow: /anbieter.htm

Und das sind auch die richtigen Namen inklusive Großschreibung. Hat ja auch über drei - vier Monate funktioniert, obwohl der google-bot regelmäßig kam.

Allerdings sehe ich gerade, daß eine der Dateien die ich ausschließe nicht mehr existiert, ist das der Grund?

IPB_Flüchtling · Beitrag von **IPB_Flüchtling** » 29.11.2005 18:42

Xwitz hat geschrieben:Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...

Hallo Xwitz,

es ist ein alter Hut, dass über die site-Abfrage von Google auch Seiten gelistet werden, die per robots.txt gesperrt sind. Diese Seiten tauchen dann halt als "URL-Skelette", also ohne Description, im Google-Index auf. Das bedeutet, dass Google um die Existenz diseer Seiten weiß - bei echten Suchabfragen werden die Inhalte dieser gesperrten Seiten aber nicht berücksichtigt. Mach Dir deshalb also keine Sorgen.

Übrigens: Auch wenn Du nicht mehr existente Seiten mal über das Google-Removal-Tool löschen solltest, werden die Seiten nach ein paar Monaten wieder über die site-Abfrage sichtbar werden.

LG, IPB_Flüchtling

Xwitz · Beitrag von **Xwitz** » 29.11.2005 19:16

@ IPB_Flüchtling, danke für die Auskunft. Ich hatte mir auch nur Sorgen gemacht, ob eventuell was schief läuft und in Zukunft doch auch noch Inhalte gefunden werden.

IPB_Flüchtling · Beitrag von **IPB_Flüchtling** » 06.12.2005 15:35

Neues zum Thema Googlebot und robots.txt: http://www.abakus-internet-marketing.de ... 21291.html

LG, IPB_Flüchtling