GoogleBot einbremsen bzw. Uhrzeit regeln
- Gumfuzi
- Ehemaliges Teammitglied
- Beiträge: 2454
- Registriert: 26.03.2004 22:25
- Wohnort: Linz, AT
- Kontaktdaten:
GoogleBot einbremsen bzw. Uhrzeit regeln
Hallo Leute,
bei mir ist Google mit ca. 80-180 Instanzen fast permanent unterwegs. Da mir das zuviel ist (der Server lahmt dadurch) wollte ich mal fragen, ob man in der Robots.txt auch Zeiten festlegen kann, sodaß der Bot nur zB. in der Nacht vorbeischauen darf.
Falls das nicht mit der robots.txt funzt, dann habe ich mir gedacht, es via Cronjobs zu machen, wobei in den Cronjobs jeweils eine der zwei verschiedenen robots.txt (eine wo der Bot darf und eine wo er nicht spidern darf) ins root kopiert wird.
Kann das so funzen?
Wie schnell reagiert der Bot da drauf?, d.h. wenn ein Bot schon vor dem kopieren auf meiner Seite ist, bleibt er dann auch nach dem kopieren dort? oder liest sich der Bot die robots.txt jedesmal durch?
Danke für eure Hilfe!
bei mir ist Google mit ca. 80-180 Instanzen fast permanent unterwegs. Da mir das zuviel ist (der Server lahmt dadurch) wollte ich mal fragen, ob man in der Robots.txt auch Zeiten festlegen kann, sodaß der Bot nur zB. in der Nacht vorbeischauen darf.
Falls das nicht mit der robots.txt funzt, dann habe ich mir gedacht, es via Cronjobs zu machen, wobei in den Cronjobs jeweils eine der zwei verschiedenen robots.txt (eine wo der Bot darf und eine wo er nicht spidern darf) ins root kopiert wird.
Kann das so funzen?
Wie schnell reagiert der Bot da drauf?, d.h. wenn ein Bot schon vor dem kopieren auf meiner Seite ist, bleibt er dann auch nach dem kopieren dort? oder liest sich der Bot die robots.txt jedesmal durch?
Danke für eure Hilfe!
- larsneo
- Mitglied
- Beiträge: 2622
- Registriert: 07.03.2002 15:23
- Wohnort: schwäbisch gmünd
- Kontaktdaten:
den googlebot kannst du nicht via robots.txt einbremsen - und auch der zeitweilige ausschluss des useragents ist keine gute idee.
einzige mir bekannte möglichkeit (die ich bei einem webprojekt auch shcon einmal genutzt habe): google informieren [1], auszüge vom logfile beilegen und um reduzierung der spideraktivität bitten.
unter umständen kostet dich das allerdings platzierungen in den suchergebnisseiten
[1] http://www.google.com/support/bin/request.py?form_type=webmaster...
einzige mir bekannte möglichkeit (die ich bei einem webprojekt auch shcon einmal genutzt habe): google informieren [1], auszüge vom logfile beilegen und um reduzierung der spideraktivität bitten.
unter umständen kostet dich das allerdings platzierungen in den suchergebnisseiten

[1] http://www.google.com/support/bin/request.py?form_type=webmaster...
Evtl. hilft es, wenn du über Google Sitemaps die "changefreq" änderst, so daß Googlebot nicht mehr ganz so häufig vorbeischaut (oder die Priorität von statischen Seiten höher als die von PHP-generierten setzt).
PS: @larsneo, hab mal den Text deiner URL gekürzt, die verursacht bei niedrigen Auflösungen sonst einen Horizontalen Scrollbalken.
PS: @larsneo, hab mal den Text deiner URL gekürzt, die verursacht bei niedrigen Auflösungen sonst einen Horizontalen Scrollbalken.
KB:knigge
- larsneo
- Mitglied
- Beiträge: 2622
- Registriert: 07.03.2002 15:23
- Wohnort: schwäbisch gmünd
- Kontaktdaten:
sowohl einschränkungen in der robots.txt als auch insbesondere ausschlüsse in der .htaccess können dazu führen, dass einzelne datacenter von google die seite komplett ignorieren - mit der folge, dass die fundstellen in den ergebnisseiten nach hinten durchgereicht werden.
google bietet wie o.a. für diesen zweck von daher die 'meldungsoption'.
btw: die robots.txt wird (zumindestens von tante-g) in aller regel einmal täglich gelesen und danach(!) ausgewertet - auf die eigentliche spider-aktivität hat sie darüberhinaus auch kaum einfluss - sie wirkt erst in bezug auf die aufnahme in den suchindex (via robots.txt nicht zu indexierende seiten finden sich aus diesem grund u.u. in einer site-abfrage ohne textsnippet)
google bietet wie o.a. für diesen zweck von daher die 'meldungsoption'.
btw: die robots.txt wird (zumindestens von tante-g) in aller regel einmal täglich gelesen und danach(!) ausgewertet - auf die eigentliche spider-aktivität hat sie darüberhinaus auch kaum einfluss - sie wirkt erst in bezug auf die aufnahme in den suchindex (via robots.txt nicht zu indexierende seiten finden sich aus diesem grund u.u. in einer site-abfrage ohne textsnippet)
- Gumfuzi
- Ehemaliges Teammitglied
- Beiträge: 2454
- Registriert: 26.03.2004 22:25
- Wohnort: Linz, AT
- Kontaktdaten:
Aha, danke.
Habe mich einstweilen auch bei google sitemap angemeldet und schon einiges gelesen (noch nicht alles; ist ja sehr umfangreich).
Was bedeutet dieser tag in Bezug auf eine dynamische Seite (wie mein Forum)?
http://www.robotstxt.org/wc/meta-user.html
Bewirkt das, daß von einer Seite (zB. Index) nicht direkt auf die Unterforen, User, etc. gespidert wird, sondern nur die Seite ohne die Links - und daß die ganzen Threads aber trotzdem gespidert werden?
Ich meine, daß dann ev. keine "Endlosschleifen" (auf die ev. sich gegenseitig verlinkenden Seiten) mehr entstehen - oder verstehe ich das falsch?
Wird mit diesem Tag dann trotzdem der ganzen Foreninhalt gespidert oder nur mehr der Index, weil von dort aus der Bot nicht mehr "weiter" darf? (unbeachtet jetzt mal von ev. Einschränkungen in der robots.txt)
Wenn ja, dann würde dadurch ja der Bot-Traffic eingeschränkt werden...
Wie komme ich bei allinkl. (managed server) an die logfiles? *edit* gefunden!
Habe mich einstweilen auch bei google sitemap angemeldet und schon einiges gelesen (noch nicht alles; ist ja sehr umfangreich).
Was bedeutet dieser tag in Bezug auf eine dynamische Seite (wie mein Forum)?
http://www.robotstxt.org/wc/meta-user.html
Code: Alles auswählen
<META NAME="Googlebot" CONTENT="nofollow">
Ich meine, daß dann ev. keine "Endlosschleifen" (auf die ev. sich gegenseitig verlinkenden Seiten) mehr entstehen - oder verstehe ich das falsch?
Wird mit diesem Tag dann trotzdem der ganzen Foreninhalt gespidert oder nur mehr der Index, weil von dort aus der Bot nicht mehr "weiter" darf? (unbeachtet jetzt mal von ev. Einschränkungen in der robots.txt)
Wenn ja, dann würde dadurch ja der Bot-Traffic eingeschränkt werden...
Wie komme ich bei allinkl. (managed server) an die logfiles? *edit* gefunden!