Die definitive Antwort zu Googlebot, Spidern und Session-ID

Probleme bei der regulären Arbeiten mit phpBB, Fragen zu Vorgehensweisen oder Funktionsweise sowie sonstige Fragen zu phpBB im Allgemeinen.
Forumsregeln
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.1, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
KarinX
Mitglied
Beiträge: 9
Registriert: 11.01.2005 14:34

Die definitive Antwort zu Googlebot, Spidern und Session-ID

Beitrag von KarinX »

Nach längerer Suche habe ich nur widersprüchliche Aussagen zur Suchmaschinen-Kompatibiltät von phpbb 2.0.11 gefunden.

Es ist plausibel, dass eine Session-ID Suchmaschinen-Spider behindern könnte, aber warum finden sich dann mit der Google-Suche nach allinurl: sid phpbb jede Menge Hits mit Session IDs?

Dann habe ich gesehen, dass es Mods gibt, um die Session-ID bei nicht eingeloggten Usern (also auch bei bots) abzuschalten.

Prima Idee, nur bei meinem phpbb 2.0.11 IP-Security-Forum zeigt der Browser im ausgeloggten Zustand überhaupt keine SID an!!?? Ich habe keine SID-Mods installiert und in der Datei Sessions.php steht unverändert die Zeile $SID = 'sid=' . $session_id;

Andererseits hängt Google seit drei Wochen an der Forum-Index-Seite und geht nicht tiefer. Normale HTML-Seiten der Mutter-Domain http://meineipadresse.de/ werden dagegen spätestens nach 4 Tagen von Google indiziert.

Ich habe das Gefühl, dass zu diesem Thema nur Gerüchte vom Hörensagen verbreitet werden, vielleicht kann aber doch mal ein Guru sich dazu herablassen, uns zu erleuchten!? :grin:

KarinX
http://meineipadresse.de/forum/
Benutzeravatar
itst
Ehrenadmin
Beiträge: 7418
Registriert: 21.08.2001 02:00
Wohnort: Büttelborn bei Darmstadt
Kontaktdaten:

Beitrag von itst »

Schonmal gesucht?

phpBB hängt die SID nur dann an URLs an, wenn es keine Cookies setzen darf.

Schaltest Du die SID aus, erhöhst Du die Wahrscheinlichkeit, das die Forenseiten in Google landen.

Je höher der PR, desto eher nimmt Google auch Seiten mit Parametern auf. Siehe phpBB.de.

Mit dem Short URL 'MOD' (siehe Suche) erzeugst Du für alle wichtigen Foren-Dateien URLs die nach statischen Seiten aussehen und erhöhst somit wieder die Wahrscheinlichkeit, das Google Deine Seiten aufnimmt.

Achja: egal was Du tuts, es gibt keine Garantie für die Wirksamkeit all dieser Maßnahmen, nur Erfahrungswerte. YMMV.
Sascha A. Carlin,
phpBB.de Ehrenadministrator
:o
Benutzeravatar
BraveEagle
Mitglied
Beiträge: 1884
Registriert: 16.01.2003 18:05
Wohnort: born 2 be a Paelzer
Kontaktdaten:

Beitrag von BraveEagle »

itst hat geschrieben: Mit dem Short URL 'MOD' (siehe Suche) erzeugst Du für alle wichtigen Foren-Dateien URLs die nach statischen Seiten aussehen und erhöhst somit wieder die Wahrscheinlichkeit, das Google Deine Seiten aufnimmt.
meinst du das da : http://www.phpbb.de/viewtopic.php?t=44090&start=0

??

Greetz BE
KarinX
Mitglied
Beiträge: 9
Registriert: 11.01.2005 14:34

Beitrag von KarinX »

itst hat geschrieben:phpBB hängt die SID nur dann an URLs an, wenn es keine Cookies setzen darf
Das kann nicht der Grund sein, warum im ausgeloggten Zustand bei mir keine Session-ID angezeigt wird. Ich erlaube bei meinem Browser Cookies, habe auch soeben noch mal verifiziert, dass das Cookie tatsächlich gesetzt wird, und wenn ich mich am Forum anmelde, erscheint ja auch eine SID.

KarinX
IP-Security-Forum
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

yep.
zusätzlich - und da habe ich gerade meine ursprüngliche meinung revidiert - scheint eine sitemap (inzwischen?) ein durchaus brauchbares mittel zu sein, content in google & co. zu platzieren.

nach dem jüngst erfolgten umzug des nuForum auf eine neue domain (altanfragen werden natürlich mit einem korrekten '301 moved permanent' quittiert) habe ich neben den erweiterten short urls auch mehr oder weniger als POC ein archiv aktiviert - und google spidert selbst bei fehlendem pagerank munter vor sich hin *klick für archiv* / *klack für forumpostings*. bei sogenannten schnitzelmitkartoffelsalat-begriffen wird im ergebnis nun das archiv vor dem forum in den suchergebnissen gelistet: *klock für 'Phorumsstruktur'*.

letztendlich bedeutet aber suchmaschinenoptimierung _viel_ mehr als nur die frage nach der SID - eine korrekte semantische auszeichnung ('h1' für überschriften etc.), valides HTML, eine reduzierung der teilweise unnötigen links sowie eine vermeidung von 'double content' sind beispielsweise nur ein paar der interessanten punkte...

btw: wenn http://meineipadresse.de/forum/ down ist, wird auch der googlebot nicht viel spidern :roll:
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
KarinX
Mitglied
Beiträge: 9
Registriert: 11.01.2005 14:34

Beitrag von KarinX »

"btw: wenn http://meineipadresse.de/forum/ down ist wird auch der googlebot nicht viel indexieren :roll:
Wieso Down?? http://webperf.org/breakdown.html zeigt mir 4s Ladezeit bis zum letzten Pixel an, das ist doch O.K., oder?
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

komisch - für mich ist die seite nicht aufrufbar :roll:
anyway: der *poodle predictor* kann dir einen ersten anhaltspunkt geben, wie google deine seiten sieht - und bei seiten mit geringem PR mag big-g dynamische seiten in aller regel gar nicht...
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
KarinX
Mitglied
Beiträge: 9
Registriert: 11.01.2005 14:34

Beitrag von KarinX »

Danke für den Poodle Link, ein klasse Tool!!!!

Dort sieht man übrigens, dass die Unterseiten mit SID gespidert werden, so als würde sich der Spider anmelden. Sehr merkwürdig...

Richtig beunruhigend finde ich aber, dass du meine Site nicht erreichen kannst, sie ist bei QSC in Bremen gehostet. Ist denn deren geshareter (welch ein Wort!!) Server http://www07.bre.qsc.de/ oder http://meineipadresse.de/ erreichbar? Verrätst du mir, bei welchem Provider du bist, damit ich ggf. nachforschen kann? Das würde mir sehr helfen!

KarinX
KarinX
Mitglied
Beiträge: 9
Registriert: 11.01.2005 14:34

Beitrag von KarinX »

Zwischenbericht:

Ich habe am 12.1.2005 ganz konservativ nur die Session-IDs für Spider ausgeschaltet (eine Zeile in sessions.php ersetzt nach Vorschlag von Kratzer54847 hier, ) und sieheda, schon nach zwei Tagen fing Google an tiefer zu steigen, und hat heute auch endlich damit angefangen, Forenbeiträge zu indizieren!

Da ich sonst keine weiteren Suchmaschinen-Mods eingespielt habe, hat alleine das Ausblenden der Session-ID für Spider ausgereicht, um von Google indiziert zu werden!

KarinX
IP-Security-Forum
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

KarinX hat geschrieben:Da ich sonst keine weiteren Suchmaschinen-Mods eingespielt habe, hat alleine das Ausblenden der Session-ID für Spider ausgereicht, um von Google indiziert zu werden!


yep - die ausblendung der session-id ist in aller regel voraussetzung dafür, das google auch dynamische seiten indziert - ansonsten wäre ja auch die gefahr einer spidertrap gegeben, dass heisst das ein und dieselbe unter verschiedenen urls (die sich nur in der SID unterscheiden) abrufbar wäre.
alles weitere (statische urls, semantisch korrekte auszeichnung, vermeidung von double content, sitemap etc) kan darüberhinaus allerdings sowohl quanität als auch vor allen dingen die qualität der indexierten seiten erhöhen.
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Antworten

Zurück zu „phpBB 2.0: Administration, Benutzung und Betrieb“