google ignoriert robots.txt ?
google ignoriert robots.txt ?
Kann es sein, dass google die robots.txt ignoriert?
Ich hab unter einer neuen Domain eine Seite aufgezogen und google bzw. allen Suchmaschinen nicht erlaubt drei Ordner zu durchsuchen und nu finde ich den kompletten Inhalt mit google!
Was läuft da denn schief?
Die komplette Domain (für ein Ordner) lautet: www.diedomain.de/ordner1/ordner1/
In der robots.txt steht für die drei Ordner:
User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
Ich hab unter einer neuen Domain eine Seite aufgezogen und google bzw. allen Suchmaschinen nicht erlaubt drei Ordner zu durchsuchen und nu finde ich den kompletten Inhalt mit google!
Was läuft da denn schief?
Die komplette Domain (für ein Ordner) lautet: www.diedomain.de/ordner1/ordner1/
In der robots.txt steht für die drei Ordner:
User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
Bei mir ist es ähnlich, ich habe ein paar .htm ausgeschlossen (mit noindex und robots.txt), das hat auch über Monate funktioniert.
Seit kurzem aber werden die gefunden. Nicht direkt der Inhalt, sondern wenn ich nach meinem domainnamen suche und auf "weitere..." klicke werden die aufgeführt. Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...
Seit kurzem aber werden die gefunden. Nicht direkt der Inhalt, sondern wenn ich nach meinem domainnamen suche und auf "weitere..." klicke werden die aufgeführt. Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...
-
- Mitglied
- Beiträge: 1862
- Registriert: 23.12.2004 22:46
Hallo sommer,
hast Du in Deiner robots.txt einen eigenen Eintrag für den Googlebot?
Also z.B.:
User-agent: Googlebot
Disallow: /nichtlesen.html
User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
Falls ja, wäre es empfehlenswert, für den Googlebot die obigen drei Disallow-Zeilen noch einmal extra anzuführen, also so:
User-agent: Googlebot
Disallow: /nichtlesen.html
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
LG, IPB_Flüchtling
hast Du in Deiner robots.txt einen eigenen Eintrag für den Googlebot?
Also z.B.:
User-agent: Googlebot
Disallow: /nichtlesen.html
User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
Falls ja, wäre es empfehlenswert, für den Googlebot die obigen drei Disallow-Zeilen noch einmal extra anzuführen, also so:
User-agent: Googlebot
Disallow: /nichtlesen.html
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
LG, IPB_Flüchtling
-
- Mitglied
- Beiträge: 1862
- Registriert: 23.12.2004 22:46
@tost:
Das Problem ist, wenn bereits eigene Regeln für Google existieren, diese aber nicht
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
enthalten. Sobald ein User-agent: Googlebot in der robots.txt enthalten ist, kann es passieren, dass nur die unter User-agent: Googlebot angegebenen Regeln beachtet und die unter User-agent: * angegebenen Disallow-Regeln ignoriert werden.
(Deshalb sollten auch die Einträge zum Blockieren von Spambots etc. vor User-agent: * angeführt werden, weil sobald User-agent: * gefunden wird, viele Bots gar nicht mehr weitersuchen, ob für sie eigene Regeln existieren.)
LG, IPB_Flüchtling
Das Problem ist, wenn bereits eigene Regeln für Google existieren, diese aber nicht
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
enthalten. Sobald ein User-agent: Googlebot in der robots.txt enthalten ist, kann es passieren, dass nur die unter User-agent: Googlebot angegebenen Regeln beachtet und die unter User-agent: * angegebenen Disallow-Regeln ignoriert werden.
(Deshalb sollten auch die Einträge zum Blockieren von Spambots etc. vor User-agent: * angeführt werden, weil sobald User-agent: * gefunden wird, viele Bots gar nicht mehr weitersuchen, ob für sie eigene Regeln existieren.)
LG, IPB_Flüchtling
Ich ja.Pyramide hat geschrieben:Habt ihr die robots.txt denn ins root Verzeichnis gelegt?
Aussehn tut sie wie folgt.
Code: Alles auswählen
User-agent: *
Disallow: /Bilder/
...
Disallow: /kontakt.htm
...
Disallow: /anbieter.htm
Allerdings sehe ich gerade, daß eine der Dateien die ich ausschließe nicht mehr existiert, ist das der Grund?
-
- Mitglied
- Beiträge: 1862
- Registriert: 23.12.2004 22:46
Hallo Xwitz,Xwitz hat geschrieben:Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...
es ist ein alter Hut, dass über die site-Abfrage von Google auch Seiten gelistet werden, die per robots.txt gesperrt sind. Diese Seiten tauchen dann halt als "URL-Skelette", also ohne Description, im Google-Index auf. Das bedeutet, dass Google um die Existenz diseer Seiten weiß - bei echten Suchabfragen werden die Inhalte dieser gesperrten Seiten aber nicht berücksichtigt. Mach Dir deshalb also keine Sorgen.
Übrigens: Auch wenn Du nicht mehr existente Seiten mal über das Google-Removal-Tool löschen solltest, werden die Seiten nach ein paar Monaten wieder über die site-Abfrage sichtbar werden.
LG, IPB_Flüchtling
-
- Mitglied
- Beiträge: 1862
- Registriert: 23.12.2004 22:46
Neues zum Thema Googlebot und robots.txt: http://www.abakus-internet-marketing.de ... 21291.html
LG, IPB_Flüchtling
LG, IPB_Flüchtling