Seite 1 von 2
GoogleBot einbremsen bzw. Uhrzeit regeln
Verfasst: 13.02.2006 11:40
von Gumfuzi
Hallo Leute,
bei mir ist Google mit ca. 80-180 Instanzen fast permanent unterwegs. Da mir das zuviel ist (der Server lahmt dadurch) wollte ich mal fragen, ob man in der Robots.txt auch Zeiten festlegen kann, sodaß der Bot nur zB. in der Nacht vorbeischauen darf.
Falls das nicht mit der robots.txt funzt, dann habe ich mir gedacht, es via Cronjobs zu machen, wobei in den Cronjobs jeweils eine der zwei verschiedenen robots.txt (eine wo der Bot darf und eine wo er nicht spidern darf) ins root kopiert wird.
Kann das so funzen?
Wie schnell reagiert der Bot da drauf?, d.h. wenn ein Bot schon vor dem kopieren auf meiner Seite ist, bleibt er dann auch nach dem kopieren dort? oder liest sich der Bot die robots.txt jedesmal durch?
Danke für eure Hilfe!
Verfasst: 13.02.2006 11:47
von larsneo
den googlebot kannst du nicht via robots.txt einbremsen - und auch der zeitweilige ausschluss des useragents ist keine gute idee.
einzige mir bekannte möglichkeit (die ich bei einem webprojekt auch shcon einmal genutzt habe): google informieren [1], auszüge vom logfile beilegen und um reduzierung der spideraktivität bitten.
unter umständen kostet dich das allerdings platzierungen in den suchergebnisseiten
[1]
http://www.google.com/support/bin/request.py?form_type=webmaster...
Verfasst: 13.02.2006 12:07
von Dr.Death
Oder einen CRON Job erstellen, der verschiedene .htaccess Files austauscht.
In einer .htaccess wird der Zugang per DENY FROM blockiert, in der anderen zugelassen.
Verfasst: 13.02.2006 12:18
von Gumfuzi
warum ist der zeitweilige Ausschluß keine gute Idee? Was für Nachteile habe ich (ausser ev. die geringere Platzierung)
via .htacces ist es besser als via robots.txt?
Verfasst: 13.02.2006 12:28
von Pyramide
Evtl. hilft es, wenn du über
Google Sitemaps die "changefreq" änderst, so daß Googlebot nicht mehr ganz so häufig vorbeischaut (oder die Priorität von statischen Seiten höher als die von PHP-generierten setzt).
PS: @larsneo, hab mal den Text deiner URL gekürzt, die verursacht bei niedrigen Auflösungen sonst einen Horizontalen Scrollbalken.
Verfasst: 13.02.2006 13:09
von larsneo
sowohl einschränkungen in der robots.txt als auch insbesondere ausschlüsse in der .htaccess können dazu führen, dass einzelne datacenter von google die seite komplett ignorieren - mit der folge, dass die fundstellen in den ergebnisseiten nach hinten durchgereicht werden.
google bietet wie o.a. für diesen zweck von daher die 'meldungsoption'.
btw: die robots.txt wird (zumindestens von tante-g) in aller regel einmal täglich gelesen und danach(!) ausgewertet - auf die eigentliche spider-aktivität hat sie darüberhinaus auch kaum einfluss - sie wirkt erst in bezug auf die aufnahme in den suchindex (via robots.txt nicht zu indexierende seiten finden sich aus diesem grund u.u. in einer site-abfrage ohne textsnippet)
Verfasst: 13.02.2006 13:30
von Gumfuzi
Aha, danke.
Habe mich einstweilen auch bei google sitemap angemeldet und schon einiges gelesen (noch nicht alles; ist ja sehr umfangreich).
Was bedeutet dieser tag in Bezug auf eine dynamische Seite (wie mein Forum)?
http://www.robotstxt.org/wc/meta-user.html
Bewirkt das, daß von einer Seite (zB. Index) nicht direkt auf die Unterforen, User, etc. gespidert wird, sondern nur die Seite ohne die Links - und daß die ganzen Threads aber trotzdem gespidert werden?
Ich meine, daß dann ev. keine "Endlosschleifen" (auf die ev. sich gegenseitig verlinkenden Seiten) mehr entstehen - oder verstehe ich das falsch?
Wird mit diesem Tag dann trotzdem der ganzen Foreninhalt gespidert oder nur mehr der Index, weil von dort aus der Bot nicht mehr "weiter" darf? (unbeachtet jetzt mal von ev. Einschränkungen in der robots.txt)
Wenn ja, dann würde dadurch ja der Bot-Traffic eingeschränkt werden...
Wie komme ich bei allinkl. (managed server) an die logfiles? *edit* gefunden!
Verfasst: 13.02.2006 19:38
von Gumfuzi
Blöde frage, aber wie sende ich Google mein Logfile (komprimiert ca. 2,7 MB)?
Auf der o.a. Seite finde ich kein Feld, wo man einen Anhang mitschicken kann...
@Pyramide:
ich finde das "changefreq" nicht

Verfasst: 13.02.2006 20:11
von larsneo
du musst nicht das komplette log, sondern nur auszüge aus denen die belastung durch den googlebot hervorgeht, einschicken

Verfasst: 13.02.2006 20:16
von Gumfuzi
Hmm, naja, der Bot war zB. 26.200 mal an dem Tag hier (Hits)
Soll ich da nur in deren "Nachrichtenbox" ein paar der Zeilen reinkopieren?