Seite 1 von 3

Die definitive Antwort zu Googlebot, Spidern und Session-ID

Verfasst: 11.01.2005 15:03
von KarinX
Nach längerer Suche habe ich nur widersprüchliche Aussagen zur Suchmaschinen-Kompatibiltät von phpbb 2.0.11 gefunden.

Es ist plausibel, dass eine Session-ID Suchmaschinen-Spider behindern könnte, aber warum finden sich dann mit der Google-Suche nach allinurl: sid phpbb jede Menge Hits mit Session IDs?

Dann habe ich gesehen, dass es Mods gibt, um die Session-ID bei nicht eingeloggten Usern (also auch bei bots) abzuschalten.

Prima Idee, nur bei meinem phpbb 2.0.11 IP-Security-Forum zeigt der Browser im ausgeloggten Zustand überhaupt keine SID an!!?? Ich habe keine SID-Mods installiert und in der Datei Sessions.php steht unverändert die Zeile $SID = 'sid=' . $session_id;

Andererseits hängt Google seit drei Wochen an der Forum-Index-Seite und geht nicht tiefer. Normale HTML-Seiten der Mutter-Domain http://meineipadresse.de/ werden dagegen spätestens nach 4 Tagen von Google indiziert.

Ich habe das Gefühl, dass zu diesem Thema nur Gerüchte vom Hörensagen verbreitet werden, vielleicht kann aber doch mal ein Guru sich dazu herablassen, uns zu erleuchten!? :grin:

KarinX
http://meineipadresse.de/forum/

Verfasst: 11.01.2005 15:10
von itst
Schonmal gesucht?

phpBB hängt die SID nur dann an URLs an, wenn es keine Cookies setzen darf.

Schaltest Du die SID aus, erhöhst Du die Wahrscheinlichkeit, das die Forenseiten in Google landen.

Je höher der PR, desto eher nimmt Google auch Seiten mit Parametern auf. Siehe phpBB.de.

Mit dem Short URL 'MOD' (siehe Suche) erzeugst Du für alle wichtigen Foren-Dateien URLs die nach statischen Seiten aussehen und erhöhst somit wieder die Wahrscheinlichkeit, das Google Deine Seiten aufnimmt.

Achja: egal was Du tuts, es gibt keine Garantie für die Wirksamkeit all dieser Maßnahmen, nur Erfahrungswerte. YMMV.

Verfasst: 11.01.2005 15:26
von BraveEagle
itst hat geschrieben: Mit dem Short URL 'MOD' (siehe Suche) erzeugst Du für alle wichtigen Foren-Dateien URLs die nach statischen Seiten aussehen und erhöhst somit wieder die Wahrscheinlichkeit, das Google Deine Seiten aufnimmt.
meinst du das da : http://www.phpbb.de/viewtopic.php?t=44090&start=0

??

Greetz BE

Verfasst: 11.01.2005 16:04
von KarinX
itst hat geschrieben:phpBB hängt die SID nur dann an URLs an, wenn es keine Cookies setzen darf
Das kann nicht der Grund sein, warum im ausgeloggten Zustand bei mir keine Session-ID angezeigt wird. Ich erlaube bei meinem Browser Cookies, habe auch soeben noch mal verifiziert, dass das Cookie tatsächlich gesetzt wird, und wenn ich mich am Forum anmelde, erscheint ja auch eine SID.

KarinX
IP-Security-Forum

Verfasst: 11.01.2005 16:11
von larsneo
yep.
zusätzlich - und da habe ich gerade meine ursprüngliche meinung revidiert - scheint eine sitemap (inzwischen?) ein durchaus brauchbares mittel zu sein, content in google & co. zu platzieren.

nach dem jüngst erfolgten umzug des nuForum auf eine neue domain (altanfragen werden natürlich mit einem korrekten '301 moved permanent' quittiert) habe ich neben den erweiterten short urls auch mehr oder weniger als POC ein archiv aktiviert - und google spidert selbst bei fehlendem pagerank munter vor sich hin *klick für archiv* / *klack für forumpostings*. bei sogenannten schnitzelmitkartoffelsalat-begriffen wird im ergebnis nun das archiv vor dem forum in den suchergebnissen gelistet: *klock für 'Phorumsstruktur'*.

letztendlich bedeutet aber suchmaschinenoptimierung _viel_ mehr als nur die frage nach der SID - eine korrekte semantische auszeichnung ('h1' für überschriften etc.), valides HTML, eine reduzierung der teilweise unnötigen links sowie eine vermeidung von 'double content' sind beispielsweise nur ein paar der interessanten punkte...

btw: wenn http://meineipadresse.de/forum/ down ist, wird auch der googlebot nicht viel spidern :roll:

Verfasst: 11.01.2005 16:36
von KarinX
"btw: wenn http://meineipadresse.de/forum/ down ist wird auch der googlebot nicht viel indexieren :roll:
Wieso Down?? http://webperf.org/breakdown.html zeigt mir 4s Ladezeit bis zum letzten Pixel an, das ist doch O.K., oder?

Verfasst: 11.01.2005 16:48
von larsneo
komisch - für mich ist die seite nicht aufrufbar :roll:
anyway: der *poodle predictor* kann dir einen ersten anhaltspunkt geben, wie google deine seiten sieht - und bei seiten mit geringem PR mag big-g dynamische seiten in aller regel gar nicht...

Verfasst: 11.01.2005 17:27
von KarinX
Danke für den Poodle Link, ein klasse Tool!!!!

Dort sieht man übrigens, dass die Unterseiten mit SID gespidert werden, so als würde sich der Spider anmelden. Sehr merkwürdig...

Richtig beunruhigend finde ich aber, dass du meine Site nicht erreichen kannst, sie ist bei QSC in Bremen gehostet. Ist denn deren geshareter (welch ein Wort!!) Server http://www07.bre.qsc.de/ oder http://meineipadresse.de/ erreichbar? Verrätst du mir, bei welchem Provider du bist, damit ich ggf. nachforschen kann? Das würde mir sehr helfen!

KarinX

Verfasst: 16.01.2005 18:00
von KarinX
Zwischenbericht:

Ich habe am 12.1.2005 ganz konservativ nur die Session-IDs für Spider ausgeschaltet (eine Zeile in sessions.php ersetzt nach Vorschlag von Kratzer54847 hier, ) und sieheda, schon nach zwei Tagen fing Google an tiefer zu steigen, und hat heute auch endlich damit angefangen, Forenbeiträge zu indizieren!

Da ich sonst keine weiteren Suchmaschinen-Mods eingespielt habe, hat alleine das Ausblenden der Session-ID für Spider ausgereicht, um von Google indiziert zu werden!

KarinX
IP-Security-Forum

Verfasst: 16.01.2005 19:35
von larsneo
KarinX hat geschrieben:Da ich sonst keine weiteren Suchmaschinen-Mods eingespielt habe, hat alleine das Ausblenden der Session-ID für Spider ausgereicht, um von Google indiziert zu werden!


yep - die ausblendung der session-id ist in aller regel voraussetzung dafür, das google auch dynamische seiten indziert - ansonsten wäre ja auch die gefahr einer spidertrap gegeben, dass heisst das ein und dieselbe unter verschiedenen urls (die sich nur in der SID unterscheiden) abrufbar wäre.
alles weitere (statische urls, semantisch korrekte auszeichnung, vermeidung von double content, sitemap etc) kan darüberhinaus allerdings sowohl quanität als auch vor allen dingen die qualität der indexierten seiten erhöhen.