GoogleBot einbremsen bzw. Uhrzeit regeln

Beitrag von **Gumfuzi** » 13.02.2006 11:40

Hallo Leute,

bei mir ist Google mit ca. 80-180 Instanzen fast permanent unterwegs. Da mir das zuviel ist (der Server lahmt dadurch) wollte ich mal fragen, ob man in der Robots.txt auch Zeiten festlegen kann, sodaß der Bot nur zB. in der Nacht vorbeischauen darf.

Falls das nicht mit der robots.txt funzt, dann habe ich mir gedacht, es via Cronjobs zu machen, wobei in den Cronjobs jeweils eine der zwei verschiedenen robots.txt (eine wo der Bot darf und eine wo er nicht spidern darf) ins root kopiert wird.

Kann das so funzen?

Wie schnell reagiert der Bot da drauf?, d.h. wenn ein Bot schon vor dem kopieren auf meiner Seite ist, bleibt er dann auch nach dem kopieren dort? oder liest sich der Bot die robots.txt jedesmal durch?

Danke für eure Hilfe!

larsneo · Beitrag von **larsneo** » 13.02.2006 11:47

den googlebot kannst du nicht via robots.txt einbremsen - und auch der zeitweilige ausschluss des useragents ist keine gute idee.
einzige mir bekannte möglichkeit (die ich bei einem webprojekt auch shcon einmal genutzt habe): google informieren [1], auszüge vom logfile beilegen und um reduzierung der spideraktivität bitten.
unter umständen kostet dich das allerdings platzierungen in den suchergebnisseiten

[1] http://www.google.com/support/bin/request.py?form_type=webmaster...

Beitrag von **Dr.Death** » 13.02.2006 12:07

Oder einen CRON Job erstellen, der verschiedene .htaccess Files austauscht.

In einer .htaccess wird der Zugang per DENY FROM blockiert, in der anderen zugelassen.

Beitrag von **Gumfuzi** » 13.02.2006 12:18

warum ist der zeitweilige Ausschluß keine gute Idee? Was für Nachteile habe ich (ausser ev. die geringere Platzierung)

via .htacces ist es besser als via robots.txt?

Beitrag von **Pyramide** » 13.02.2006 12:28

Evtl. hilft es, wenn du über Google Sitemaps die "changefreq" änderst, so daß Googlebot nicht mehr ganz so häufig vorbeischaut (oder die Priorität von statischen Seiten höher als die von PHP-generierten setzt).

PS: @larsneo, hab mal den Text deiner URL gekürzt, die verursacht bei niedrigen Auflösungen sonst einen Horizontalen Scrollbalken.

larsneo · Beitrag von **larsneo** » 13.02.2006 13:09

sowohl einschränkungen in der robots.txt als auch insbesondere ausschlüsse in der .htaccess können dazu führen, dass einzelne datacenter von google die seite komplett ignorieren - mit der folge, dass die fundstellen in den ergebnisseiten nach hinten durchgereicht werden.
google bietet wie o.a. für diesen zweck von daher die 'meldungsoption'.

btw: die robots.txt wird (zumindestens von tante-g) in aller regel einmal täglich gelesen und danach(!) ausgewertet - auf die eigentliche spider-aktivität hat sie darüberhinaus auch kaum einfluss - sie wirkt erst in bezug auf die aufnahme in den suchindex (via robots.txt nicht zu indexierende seiten finden sich aus diesem grund u.u. in einer site-abfrage ohne textsnippet)

Beitrag von **Gumfuzi** » 13.02.2006 13:30

Aha, danke.

Habe mich einstweilen auch bei google sitemap angemeldet und schon einiges gelesen (noch nicht alles; ist ja sehr umfangreich).
Was bedeutet dieser tag in Bezug auf eine dynamische Seite (wie mein Forum)?
http://www.robotstxt.org/wc/meta-user.html

Code: Alles auswählen

<META NAME="Googlebot" CONTENT="nofollow">

Bewirkt das, daß von einer Seite (zB. Index) nicht direkt auf die Unterforen, User, etc. gespidert wird, sondern nur die Seite ohne die Links - und daß die ganzen Threads aber trotzdem gespidert werden?
Ich meine, daß dann ev. keine "Endlosschleifen" (auf die ev. sich gegenseitig verlinkenden Seiten) mehr entstehen - oder verstehe ich das falsch?
Wird mit diesem Tag dann trotzdem der ganzen Foreninhalt gespidert oder nur mehr der Index, weil von dort aus der Bot nicht mehr "weiter" darf? (unbeachtet jetzt mal von ev. Einschränkungen in der robots.txt)
Wenn ja, dann würde dadurch ja der Bot-Traffic eingeschränkt werden...

Wie komme ich bei allinkl. (managed server) an die logfiles? *edit* gefunden!

Beitrag von **Gumfuzi** » 13.02.2006 19:38

Blöde frage, aber wie sende ich Google mein Logfile (komprimiert ca. 2,7 MB)?
Auf der o.a. Seite finde ich kein Feld, wo man einen Anhang mitschicken kann...

@Pyramide:
ich finde das "changefreq" nicht

larsneo · Beitrag von **larsneo** » 13.02.2006 20:11

du musst nicht das komplette log, sondern nur auszüge aus denen die belastung durch den googlebot hervorgeht, einschicken

Beitrag von **Gumfuzi** » 13.02.2006 20:16

Hmm, naja, der Bot war zB. 26.200 mal an dem Tag hier (Hits)

Soll ich da nur in deren "Nachrichtenbox" ein paar der Zeilen reinkopieren?