Seite 2 von 2
Verfasst: 31.07.2008 20:32
von Pyramide
Der IP-Bereich 66.249.64.0/19 gehört Google, also handelt es sich um den echten Googlebot.
Eine
Google-Abfrage mit site: ergibt, dass du die Karte offenbar erst vor kurzem auf "nur registrierte" umgestellt hast und sich im Google-Cache noch tausende URLs befinden, die früher mal zugänglich waren. Vermutlich klappert der Googlebot jetzt alle darin enthaltenen Links ab, wird dann jedesmal auf login.php weitergeleitet und merkt aufgrund der Session-ID nicht, dass es jedesmal die selbe login.php ist.
Abhilfe schaffen sollte ein Eintrag in robots.txt für map.php und login.php (sowie alle anderen Seiten, die man nur als angemeldeter Benutzer sehen kann).
Verfasst: 02.08.2008 01:17
von MartectX
Pyramide hat geschrieben:Vermutlich klappert der Googlebot jetzt alle darin enthaltenen Links ab, wird dann jedesmal auf login.php weitergeleitet und merkt aufgrund der Session-ID nicht, dass es jedesmal die selbe login.php ist.
Soweit ich weiß (wobei ich nicht absolutes Wissen beanspruche) kümmert sich Google Bot nicht um Session IDs, was ein "wegmodden" derselben auch überflüssig macht.
Verfasst: 02.08.2008 13:16
von igorw
Da würd' ich mich nicht drauf verlassen, so egal ist es unserem lieben bot dann eben doch wieder nicht:
http://www.google.de/search?hl=de&q=%22 ... uche&meta=
Verfasst: 02.08.2008 13:38
von oxpus
Was soll dieser Link beweisen?
Dem Googlebot sind Session IDs wirklich egal, sie wird nur gelegentlich in den Suchergebnissen mit aufgenommen, mehr aber auch nicht.
Ein Bot bewegt sich in der Regel in einem Forum auch immer als Gast, da er sich weder am Forum registriert noch anmeldet. Daher ist eigentlich auch jeglicher SEO-Code eben komplett überflüssig.
Anders herum sind SEO-MODs sogar u. U. schädlich für die Aufnahme in die Indizes der Suchmaschinen: Auch Google schickt mittlerweile Bots ohne spezielle Kennungen los, um möglichst als "echte" Gäste aufzutreten, damit die Seiteninhalte verglichen werden können.
Und ich kann mir gut vorstellen, daß auch Google bald solche Seiten mit unterschiedlichen Inhalten, wie sie "echten" Gästen und Bots präsentiert werden, nicht mehr wirklich lange im Index behält, um eben Manipulationen nicht länger aufzusitzen

Verfasst: 02.08.2008 14:04
von Pyramide
Abgesehen von euren theoretischen überlegungen sieht man in der von leopittoni geposteten Logdatei aber, dass Google aufgrund der angehängten Session-ID die login.php immer und immer wieder aufruft - hier mal ein Ausschnitt:
leopittoni hat geschrieben:66.249.71.237 - - [31/Jul/2008:05:00:15 +0200] "GET /login.php?redirect=map.php&sid=440d4b1b5fffcf94008ea28ae2eecba3 HTTP/1.1"
66.249.71.237 - - [31/Jul/2008:05:00:16 +0200] "GET /login.php?redirect=map.php&sid=5b0508ced286ecf09647557217c9b835 HTTP/1.1"
66.249.71.237 - - [31/Jul/2008:05:00:16 +0200] "GET /login.php?redirect=map.php&sid=b42ba3ab3c1a4ad5349ad0044593ad5a HTTP/1.1"
Mit einem Mod, welcher die Session-ID für bots entfernt (so wie es auch bei phpBB3 der Fall ist), hätte der Googlebot also beim zweiten Aufruf gemerkt, dass er
login.php?redirect=map.php bereits indiziert hat.
Verfasst: 02.08.2008 14:38
von schnagga
Warum denn nicht einfach die login.php in einer robots.txt sperren?
Es gibt da übrigens noch ein paar Sachen die man auch noch getrost sperren kann (für SEO-phpBB2 !):
Code: Alles auswählen
User-agent: *
Disallow: /viewonline.php
Disallow: /posting.php
Disallow: /search.php
Disallow: /viewforum.php
Disallow: /profile.php
Disallow: /viewtopic.php
Disallow: /faq.php
Disallow: /admin/
Disallow: /login.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /privmsg.php
Für böse Bots dann noch
Spider Trap drauf und gut.
Re: Google Bot verursacht extrem viel Traffic?
Verfasst: 07.06.2011 15:58
von 7emper5i
Hallo zusammen,
in den letzten 1,5 Monaten konnten wir einen massiven Anstieg des Traffics durch den GoogleBot verzeichnen.
Im letzten Monat hat der Bot alleine eine Trafficlast von knapp 28 GB verursacht.
Ist euch ähnliches aufgefallen?
Ich nutze die Version 3.0.8.
Interessant kann in diesem Zusammenhang sein, dass ich vor einiger Zeit (evtl deckungsgleich mit dem Trafficanstieg!) Googleanalytics von meinem Board entfernt habe.
Allerdings entfernte ich nur den Codeblock aus dem footer und löschte nicht auch mein Konto bei google.
Komischerweise war der Traffic vorher mit dem GA aber im normalen Bereich.
Re: Google Bot verursacht extrem viel Traffic?
Verfasst: 08.06.2011 10:34
von modernist
Ich habe bei mir keinen exorbitanten Trafficanstieg (insgesamt bzw. durch einzelne Bots) bemerkt.
7emper5i hat geschrieben:Im letzten Monat hat der Bot alleine eine Trafficlast von knapp 28 GB verursacht.
Das dürfte wohl auch mit der Größe des Forums bzw. der Anzahl der Themen und Beiträge zusammenhängen.
Wenn du
Google-Webmastertools nutzt, dann kannst du auch sehen, wie viele Seiten täglich (als Graphik) bzw. durchschnittlich (plus Maximal- und Minimalwerte) gecrawlt werden inklusive Datenmenge.
Neben Vorgaben in der robots.txt kann man bei Google sonst auch in den Webmastertools die Crawlrate selbst festlegen.
Re: Google Bot verursacht extrem viel Traffic?
Verfasst: 08.06.2011 16:14
von 7emper5i
Die Benutzergröße ist beispielsweise aber nicht von heute auf morgen um das 8fache gestiegen ..

schön wärs ..
Es handelt sich tatsächlich nur um den googlebot.
Ich habe zzgl im webmasterbereich von google die Thematik auch angestoßen und versuche da ein wenig Licht reinzubekommen.
Ins Leere verweisende URLs wurden als potentielle Störquelle auch angegeben.
Ich für meinen Teil meine aber, dass der Zeitraum des Anstiegs annähernd mit der Deaktivierung der Google Analytics und dem Umstieg auf PIWIK passt.
Evtl. sucht google nun einfach nur andauernd...
Das Problem ist, das monatlich zwischen 5000 und 6000 Suchanfragen und die damit einhergehenden Redirects von google kommen.
Diese möchten wir durch einen Ausschluss von dem googlebot natürlich auch nicht verlieren.
"Da steh ich nun ich armer Thor und bin so schlau als wie zuvor..."
Re: Google Bot verursacht extrem viel Traffic?
Verfasst: 10.06.2011 10:50
von modernist
7emper5i hat geschrieben:Die Benutzergröße ist beispielsweise aber nicht von heute auf morgen um das 8fache gestiegen ..

schön wärs ..

Da habe ich mich vielleicht etwas mißverständlich ausgedrückt. Ich meinte hier den Zusammenhang: viele Nutzer -> viele neue Beiträge und Themen -> Suchmaschinenbots schauen öfters vorbei und verursachen mehr Traffic.
7emper5i hat geschrieben:Diese möchten wir durch einen Ausschluss von dem googlebot natürlich auch nicht verlieren.
Du sollst ihn ja auch nicht aussperren, sondern nur die Crawlrate selbst festlegen auf einen Wert, der dir angemessen scheint und eben nicht so viel Traffic verursacht wie im Moment.
Irgendwelche umfangreichen PDF-, Word- oder andere Dateien, die der Bot auch abruft, können aber nicht mitschuldig am Trafficzuwachs sein?
Die IP ist auch wirklich die vom Googlebot? Nicht, daß nur jemand den Useragent gefakt hat.