GoogleBot einbremsen bzw. Uhrzeit regeln

Fragen zu allen Themen rund ums Programmieren außerhalb von phpBB können hier gestellt werden - auch zu anderen Programmiersprachen oder Software wie Webservern und Editoren.
Benutzeravatar
Gumfuzi
Ehemaliges Teammitglied
Beiträge: 2454
Registriert: 26.03.2004 22:25
Wohnort: Linz, AT
Kontaktdaten:

GoogleBot einbremsen bzw. Uhrzeit regeln

Beitrag von Gumfuzi »

Hallo Leute,

bei mir ist Google mit ca. 80-180 Instanzen fast permanent unterwegs. Da mir das zuviel ist (der Server lahmt dadurch) wollte ich mal fragen, ob man in der Robots.txt auch Zeiten festlegen kann, sodaß der Bot nur zB. in der Nacht vorbeischauen darf.

Falls das nicht mit der robots.txt funzt, dann habe ich mir gedacht, es via Cronjobs zu machen, wobei in den Cronjobs jeweils eine der zwei verschiedenen robots.txt (eine wo der Bot darf und eine wo er nicht spidern darf) ins root kopiert wird.

Kann das so funzen?

Wie schnell reagiert der Bot da drauf?, d.h. wenn ein Bot schon vor dem kopieren auf meiner Seite ist, bleibt er dann auch nach dem kopieren dort? oder liest sich der Bot die robots.txt jedesmal durch?

Danke für eure Hilfe!
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

den googlebot kannst du nicht via robots.txt einbremsen - und auch der zeitweilige ausschluss des useragents ist keine gute idee.
einzige mir bekannte möglichkeit (die ich bei einem webprojekt auch shcon einmal genutzt habe): google informieren [1], auszüge vom logfile beilegen und um reduzierung der spideraktivität bitten.
unter umständen kostet dich das allerdings platzierungen in den suchergebnisseiten :roll:

[1] http://www.google.com/support/bin/request.py?form_type=webmaster...
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
Dr.Death
Moderator
Moderator
Beiträge: 17476
Registriert: 23.04.2003 08:22
Wohnort: Xanten
Kontaktdaten:

Beitrag von Dr.Death »

Oder einen CRON Job erstellen, der verschiedene .htaccess Files austauscht.

In einer .htaccess wird der Zugang per DENY FROM blockiert, in der anderen zugelassen.
Benutzeravatar
Gumfuzi
Ehemaliges Teammitglied
Beiträge: 2454
Registriert: 26.03.2004 22:25
Wohnort: Linz, AT
Kontaktdaten:

Beitrag von Gumfuzi »

warum ist der zeitweilige Ausschluß keine gute Idee? Was für Nachteile habe ich (ausser ev. die geringere Platzierung)

via .htacces ist es besser als via robots.txt?
Benutzeravatar
Pyramide
Ehrenadmin
Beiträge: 12734
Registriert: 19.04.2001 02:00
Wohnort: Meschede

Beitrag von Pyramide »

Evtl. hilft es, wenn du über Google Sitemaps die "changefreq" änderst, so daß Googlebot nicht mehr ganz so häufig vorbeischaut (oder die Priorität von statischen Seiten höher als die von PHP-generierten setzt).

PS: @larsneo, hab mal den Text deiner URL gekürzt, die verursacht bei niedrigen Auflösungen sonst einen Horizontalen Scrollbalken.
KB:knigge
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

sowohl einschränkungen in der robots.txt als auch insbesondere ausschlüsse in der .htaccess können dazu führen, dass einzelne datacenter von google die seite komplett ignorieren - mit der folge, dass die fundstellen in den ergebnisseiten nach hinten durchgereicht werden.
google bietet wie o.a. für diesen zweck von daher die 'meldungsoption'.

btw: die robots.txt wird (zumindestens von tante-g) in aller regel einmal täglich gelesen und danach(!) ausgewertet - auf die eigentliche spider-aktivität hat sie darüberhinaus auch kaum einfluss - sie wirkt erst in bezug auf die aufnahme in den suchindex (via robots.txt nicht zu indexierende seiten finden sich aus diesem grund u.u. in einer site-abfrage ohne textsnippet)
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
Gumfuzi
Ehemaliges Teammitglied
Beiträge: 2454
Registriert: 26.03.2004 22:25
Wohnort: Linz, AT
Kontaktdaten:

Beitrag von Gumfuzi »

Aha, danke.

Habe mich einstweilen auch bei google sitemap angemeldet und schon einiges gelesen (noch nicht alles; ist ja sehr umfangreich).
Was bedeutet dieser tag in Bezug auf eine dynamische Seite (wie mein Forum)?
http://www.robotstxt.org/wc/meta-user.html

Code: Alles auswählen

<META NAME="Googlebot" CONTENT="nofollow">
Bewirkt das, daß von einer Seite (zB. Index) nicht direkt auf die Unterforen, User, etc. gespidert wird, sondern nur die Seite ohne die Links - und daß die ganzen Threads aber trotzdem gespidert werden?
Ich meine, daß dann ev. keine "Endlosschleifen" (auf die ev. sich gegenseitig verlinkenden Seiten) mehr entstehen - oder verstehe ich das falsch?
Wird mit diesem Tag dann trotzdem der ganzen Foreninhalt gespidert oder nur mehr der Index, weil von dort aus der Bot nicht mehr "weiter" darf? (unbeachtet jetzt mal von ev. Einschränkungen in der robots.txt)
Wenn ja, dann würde dadurch ja der Bot-Traffic eingeschränkt werden...

Wie komme ich bei allinkl. (managed server) an die logfiles? *edit* gefunden!
Benutzeravatar
Gumfuzi
Ehemaliges Teammitglied
Beiträge: 2454
Registriert: 26.03.2004 22:25
Wohnort: Linz, AT
Kontaktdaten:

Beitrag von Gumfuzi »

Blöde frage, aber wie sende ich Google mein Logfile (komprimiert ca. 2,7 MB)?
Auf der o.a. Seite finde ich kein Feld, wo man einen Anhang mitschicken kann...

@Pyramide:
ich finde das "changefreq" nicht :(
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

du musst nicht das komplette log, sondern nur auszüge aus denen die belastung durch den googlebot hervorgeht, einschicken ;-)
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
Gumfuzi
Ehemaliges Teammitglied
Beiträge: 2454
Registriert: 26.03.2004 22:25
Wohnort: Linz, AT
Kontaktdaten:

Beitrag von Gumfuzi »

Hmm, naja, der Bot war zB. 26.200 mal an dem Tag hier (Hits)

Soll ich da nur in deren "Nachrichtenbox" ein paar der Zeilen reinkopieren?
Antworten

Zurück zu „Coding & Technik“