Google Bot verursacht extrem viel Traffic?

Fragen zu allen Themen rund ums Programmieren außerhalb von phpBB können hier gestellt werden - auch zu anderen Programmiersprachen oder Software wie Webservern und Editoren.
Benutzeravatar
Pyramide
Ehrenadmin
Beiträge: 12734
Registriert: 19.04.2001 02:00
Wohnort: Meschede

Beitrag von Pyramide »

Der IP-Bereich 66.249.64.0/19 gehört Google, also handelt es sich um den echten Googlebot.

Eine Google-Abfrage mit site: ergibt, dass du die Karte offenbar erst vor kurzem auf "nur registrierte" umgestellt hast und sich im Google-Cache noch tausende URLs befinden, die früher mal zugänglich waren. Vermutlich klappert der Googlebot jetzt alle darin enthaltenen Links ab, wird dann jedesmal auf login.php weitergeleitet und merkt aufgrund der Session-ID nicht, dass es jedesmal die selbe login.php ist.

Abhilfe schaffen sollte ein Eintrag in robots.txt für map.php und login.php (sowie alle anderen Seiten, die man nur als angemeldeter Benutzer sehen kann).
KB:knigge
Benutzeravatar
MartectX
Ehemaliger Übersetzer
Beiträge: 648
Registriert: 10.05.2008 17:08
Wohnort: Marienplatz

Beitrag von MartectX »

Pyramide hat geschrieben:Vermutlich klappert der Googlebot jetzt alle darin enthaltenen Links ab, wird dann jedesmal auf login.php weitergeleitet und merkt aufgrund der Session-ID nicht, dass es jedesmal die selbe login.php ist.
Soweit ich weiß (wobei ich nicht absolutes Wissen beanspruche) kümmert sich Google Bot nicht um Session IDs, was ein "wegmodden" derselben auch überflüssig macht.
Benutzeravatar
igorw
Mitglied
Beiträge: 107
Registriert: 02.08.2008 13:04
Wohnort: Winterthur

Beitrag von igorw »

Da würd' ich mich nicht drauf verlassen, so egal ist es unserem lieben bot dann eben doch wieder nicht:

http://www.google.de/search?hl=de&q=%22 ... uche&meta=
Benutzeravatar
oxpus
Ehemaliges Teammitglied
Beiträge: 5390
Registriert: 03.02.2003 12:33
Wohnort: Bad Wildungen
Kontaktdaten:

Beitrag von oxpus »

eviL<3 hat geschrieben:Da würd' ich mich nicht drauf verlassen, so egal ist es unserem lieben bot dann eben doch wieder nicht:

http://www.google.de/search?hl=de&q=%22 ... uche&meta=
Was soll dieser Link beweisen?
Dem Googlebot sind Session IDs wirklich egal, sie wird nur gelegentlich in den Suchergebnissen mit aufgenommen, mehr aber auch nicht.

Ein Bot bewegt sich in der Regel in einem Forum auch immer als Gast, da er sich weder am Forum registriert noch anmeldet. Daher ist eigentlich auch jeglicher SEO-Code eben komplett überflüssig.

Anders herum sind SEO-MODs sogar u. U. schädlich für die Aufnahme in die Indizes der Suchmaschinen: Auch Google schickt mittlerweile Bots ohne spezielle Kennungen los, um möglichst als "echte" Gäste aufzutreten, damit die Seiteninhalte verglichen werden können.
Und ich kann mir gut vorstellen, daß auch Google bald solche Seiten mit unterschiedlichen Inhalten, wie sie "echten" Gästen und Bots präsentiert werden, nicht mehr wirklich lange im Index behält, um eben Manipulationen nicht länger aufzusitzen ;)
Grüße
OXPUS
Kein Support bei unaufgeforderten PNs, E-Mails oder auf anderem Weg!!
Benutzeravatar
Pyramide
Ehrenadmin
Beiträge: 12734
Registriert: 19.04.2001 02:00
Wohnort: Meschede

Beitrag von Pyramide »

Abgesehen von euren theoretischen überlegungen sieht man in der von leopittoni geposteten Logdatei aber, dass Google aufgrund der angehängten Session-ID die login.php immer und immer wieder aufruft - hier mal ein Ausschnitt:
leopittoni hat geschrieben:66.249.71.237 - - [31/Jul/2008:05:00:15 +0200] "GET /login.php?redirect=map.php&sid=440d4b1b5fffcf94008ea28ae2eecba3 HTTP/1.1"
66.249.71.237 - - [31/Jul/2008:05:00:16 +0200] "GET /login.php?redirect=map.php&sid=5b0508ced286ecf09647557217c9b835 HTTP/1.1"
66.249.71.237 - - [31/Jul/2008:05:00:16 +0200] "GET /login.php?redirect=map.php&sid=b42ba3ab3c1a4ad5349ad0044593ad5a HTTP/1.1"
Mit einem Mod, welcher die Session-ID für bots entfernt (so wie es auch bei phpBB3 der Fall ist), hätte der Googlebot also beim zweiten Aufruf gemerkt, dass er login.php?redirect=map.php bereits indiziert hat.
KB:knigge
Benutzeravatar
schnagga
Mitglied
Beiträge: 887
Registriert: 10.03.2006 18:26
Wohnort: Verden

Beitrag von schnagga »

Warum denn nicht einfach die login.php in einer robots.txt sperren?
Es gibt da übrigens noch ein paar Sachen die man auch noch getrost sperren kann (für SEO-phpBB2 !):

Code: Alles auswählen

User-agent: *
Disallow: /viewonline.php
Disallow: /posting.php
Disallow: /search.php
Disallow: /viewforum.php
Disallow: /profile.php
Disallow: /viewtopic.php
Disallow: /faq.php
Disallow: /admin/
Disallow: /login.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /privmsg.php
Für böse Bots dann noch Spider Trap drauf und gut.
Benutzeravatar
7emper5i
Ehemaliger Übersetzer
Beiträge: 1473
Registriert: 11.04.2009 13:31
Wohnort: Köln
Kontaktdaten:

Re: Google Bot verursacht extrem viel Traffic?

Beitrag von 7emper5i »

Hallo zusammen,

in den letzten 1,5 Monaten konnten wir einen massiven Anstieg des Traffics durch den GoogleBot verzeichnen.

Im letzten Monat hat der Bot alleine eine Trafficlast von knapp 28 GB verursacht.

Ist euch ähnliches aufgefallen?


Ich nutze die Version 3.0.8.
Interessant kann in diesem Zusammenhang sein, dass ich vor einiger Zeit (evtl deckungsgleich mit dem Trafficanstieg!) Googleanalytics von meinem Board entfernt habe.
Allerdings entfernte ich nur den Codeblock aus dem footer und löschte nicht auch mein Konto bei google.

Komischerweise war der Traffic vorher mit dem GA aber im normalen Bereich.
Die Deutsche Rechtschreibung ist Freeware, sprich, du kannst sie kostenlos nutzen. Allerdings ist sie nicht Open Source, d.h. du darfst sie nicht verändern oder in veränderter Form veröffentlichen.
modernist
Ehemaliges Teammitglied
Beiträge: 2202
Registriert: 12.01.2009 10:44

Re: Google Bot verursacht extrem viel Traffic?

Beitrag von modernist »

Ich habe bei mir keinen exorbitanten Trafficanstieg (insgesamt bzw. durch einzelne Bots) bemerkt.
7emper5i hat geschrieben:Im letzten Monat hat der Bot alleine eine Trafficlast von knapp 28 GB verursacht.
Das dürfte wohl auch mit der Größe des Forums bzw. der Anzahl der Themen und Beiträge zusammenhängen.
Wenn du Google-Webmastertools nutzt, dann kannst du auch sehen, wie viele Seiten täglich (als Graphik) bzw. durchschnittlich (plus Maximal- und Minimalwerte) gecrawlt werden inklusive Datenmenge.

Neben Vorgaben in der robots.txt kann man bei Google sonst auch in den Webmastertools die Crawlrate selbst festlegen.
Benutzeravatar
7emper5i
Ehemaliger Übersetzer
Beiträge: 1473
Registriert: 11.04.2009 13:31
Wohnort: Köln
Kontaktdaten:

Re: Google Bot verursacht extrem viel Traffic?

Beitrag von 7emper5i »

Die Benutzergröße ist beispielsweise aber nicht von heute auf morgen um das 8fache gestiegen .. ;) schön wärs .. :)

Es handelt sich tatsächlich nur um den googlebot.

Ich habe zzgl im webmasterbereich von google die Thematik auch angestoßen und versuche da ein wenig Licht reinzubekommen.

Ins Leere verweisende URLs wurden als potentielle Störquelle auch angegeben.
Ich für meinen Teil meine aber, dass der Zeitraum des Anstiegs annähernd mit der Deaktivierung der Google Analytics und dem Umstieg auf PIWIK passt.
Evtl. sucht google nun einfach nur andauernd...



Das Problem ist, das monatlich zwischen 5000 und 6000 Suchanfragen und die damit einhergehenden Redirects von google kommen.
Diese möchten wir durch einen Ausschluss von dem googlebot natürlich auch nicht verlieren.

"Da steh ich nun ich armer Thor und bin so schlau als wie zuvor..."
Die Deutsche Rechtschreibung ist Freeware, sprich, du kannst sie kostenlos nutzen. Allerdings ist sie nicht Open Source, d.h. du darfst sie nicht verändern oder in veränderter Form veröffentlichen.
modernist
Ehemaliges Teammitglied
Beiträge: 2202
Registriert: 12.01.2009 10:44

Re: Google Bot verursacht extrem viel Traffic?

Beitrag von modernist »

7emper5i hat geschrieben:Die Benutzergröße ist beispielsweise aber nicht von heute auf morgen um das 8fache gestiegen .. ;) schön wärs .. :)
Da habe ich mich vielleicht etwas mißverständlich ausgedrückt. Ich meinte hier den Zusammenhang: viele Nutzer -> viele neue Beiträge und Themen -> Suchmaschinenbots schauen öfters vorbei und verursachen mehr Traffic.
7emper5i hat geschrieben:Diese möchten wir durch einen Ausschluss von dem googlebot natürlich auch nicht verlieren.
Du sollst ihn ja auch nicht aussperren, sondern nur die Crawlrate selbst festlegen auf einen Wert, der dir angemessen scheint und eben nicht so viel Traffic verursacht wie im Moment.
Irgendwelche umfangreichen PDF-, Word- oder andere Dateien, die der Bot auch abruft, können aber nicht mitschuldig am Trafficzuwachs sein?
Die IP ist auch wirklich die vom Googlebot? Nicht, daß nur jemand den Useragent gefakt hat.
Antworten

Zurück zu „Coding & Technik“