google ignoriert robots.txt ?

Fragen zu allen Themen rund ums Programmieren außerhalb von phpBB können hier gestellt werden - auch zu anderen Programmiersprachen oder Software wie Webservern und Editoren.
Antworten
Benutzeravatar
sommer
Mitglied
Beiträge: 344
Registriert: 05.01.2004 12:05

google ignoriert robots.txt ?

Beitrag von sommer »

Kann es sein, dass google die robots.txt ignoriert?

Ich hab unter einer neuen Domain eine Seite aufgezogen und google bzw. allen Suchmaschinen nicht erlaubt drei Ordner zu durchsuchen und nu finde ich den kompletten Inhalt mit google!

Was läuft da denn schief?

Die komplette Domain (für ein Ordner) lautet: www.diedomain.de/ordner1/ordner1/

In der robots.txt steht für die drei Ordner:

User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/
Xwitz
Mitglied
Beiträge: 1104
Registriert: 21.06.2005 21:41

Beitrag von Xwitz »

Bei mir ist es ähnlich, ich habe ein paar .htm ausgeschlossen (mit noindex und robots.txt), das hat auch über Monate funktioniert.

Seit kurzem aber werden die gefunden. Nicht direkt der Inhalt, sondern wenn ich nach meinem domainnamen suche und auf "weitere..." klicke werden die aufgeführt. Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...
Benutzeravatar
Pyramide
Ehrenadmin
Beiträge: 12734
Registriert: 19.04.2001 02:00
Wohnort: Meschede

Beitrag von Pyramide »

Habt ihr die robots.txt denn ins root Verzeichnis gelegt? Wenn die Datei in einem Unterverzeichnis liegt, funktioniert es nicht.
KB:knigge
IPB_Flüchtling
Mitglied
Beiträge: 1862
Registriert: 23.12.2004 22:46

Beitrag von IPB_Flüchtling »

Hallo sommer,

hast Du in Deiner robots.txt einen eigenen Eintrag für den Googlebot?

Also z.B.:

User-agent: Googlebot
Disallow: /nichtlesen.html

User-agent: *
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/

Falls ja, wäre es empfehlenswert, für den Googlebot die obigen drei Disallow-Zeilen noch einmal extra anzuführen, also so:

User-agent: Googlebot
Disallow: /nichtlesen.html
Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/
Disallow: /ordner3/ordner3/

LG, IPB_Flüchtling
Benutzeravatar
tost
Mitglied
Beiträge: 915
Registriert: 25.02.2005 18:14
Kontaktdaten:

Beitrag von tost »

Also ein * schließt eigtl. alle Crawler aus und ist auch üblich..

Aber natürlich kann man den Google-Eintrag davor schreiben und es mal weiter beobachten

tost
IPB_Flüchtling
Mitglied
Beiträge: 1862
Registriert: 23.12.2004 22:46

Beitrag von IPB_Flüchtling »

@tost:

Das Problem ist, wenn bereits eigene Regeln für Google existieren, diese aber nicht

Disallow: /ordner1/ordner1/
Disallow: /ordner2/ordner2/

enthalten. Sobald ein User-agent: Googlebot in der robots.txt enthalten ist, kann es passieren, dass nur die unter User-agent: Googlebot angegebenen Regeln beachtet und die unter User-agent: * angegebenen Disallow-Regeln ignoriert werden.

(Deshalb sollten auch die Einträge zum Blockieren von Spambots etc. vor User-agent: * angeführt werden, weil sobald User-agent: * gefunden wird, viele Bots gar nicht mehr weitersuchen, ob für sie eigene Regeln existieren.)

LG, IPB_Flüchtling
Xwitz
Mitglied
Beiträge: 1104
Registriert: 21.06.2005 21:41

Beitrag von Xwitz »

Pyramide hat geschrieben:Habt ihr die robots.txt denn ins root Verzeichnis gelegt?
Ich ja.
Aussehn tut sie wie folgt.

Code: Alles auswählen

User-agent: *

Disallow: /Bilder/
...
Disallow: /kontakt.htm
...
Disallow: /anbieter.htm
Und das sind auch die richtigen Namen inklusive Großschreibung. Hat ja auch über drei - vier Monate funktioniert, obwohl der google-bot regelmäßig kam.

Allerdings sehe ich gerade, daß eine der Dateien die ich ausschließe nicht mehr existiert, ist das der Grund?
IPB_Flüchtling
Mitglied
Beiträge: 1862
Registriert: 23.12.2004 22:46

Beitrag von IPB_Flüchtling »

Xwitz hat geschrieben:Es wird zwar kein Auszug aus dem Inhalt angezeigt und es wird auch nichts über den Inhalt gefunden, ist aber trotzdem nicht so toll. Wenn sich noch nicht mal die "guten" daran halten...
Hallo Xwitz,

es ist ein alter Hut, dass über die site-Abfrage von Google auch Seiten gelistet werden, die per robots.txt gesperrt sind. Diese Seiten tauchen dann halt als "URL-Skelette", also ohne Description, im Google-Index auf. Das bedeutet, dass Google um die Existenz diseer Seiten weiß - bei echten Suchabfragen werden die Inhalte dieser gesperrten Seiten aber nicht berücksichtigt. Mach Dir deshalb also keine Sorgen.

Übrigens: Auch wenn Du nicht mehr existente Seiten mal über das Google-Removal-Tool löschen solltest, werden die Seiten nach ein paar Monaten wieder über die site-Abfrage sichtbar werden.

LG, IPB_Flüchtling
Xwitz
Mitglied
Beiträge: 1104
Registriert: 21.06.2005 21:41

Beitrag von Xwitz »

@ IPB_Flüchtling, danke für die Auskunft. Ich hatte mir auch nur Sorgen gemacht, ob eventuell was schief läuft und in Zukunft doch auch noch Inhalte gefunden werden.
IPB_Flüchtling
Mitglied
Beiträge: 1862
Registriert: 23.12.2004 22:46

Beitrag von IPB_Flüchtling »

Neues zum Thema Googlebot und robots.txt: http://www.abakus-internet-marketing.de ... 21291.html

LG, IPB_Flüchtling
Antworten

Zurück zu „Coding & Technik“