Verfasst: 08.09.2005 00:26
Hallo FatFreddy,
vielleicht machen wir uns in Bezug auf Google auch einfach zuviel Gedanken. Perfekt wird es sowieso nie. Aber was mit halbwegs vertretbarem Aufwand getan werden kann, haben wir getan.
(Du ganz sicher; ich halt, so gut ich es vermochte. Bin dennoch stolz auf mich. Gestern habe ich auch noch die Jumpbox restlos entfernt, was zwar für Sumas nichts bringt, wohl aber für die Performance des Forums. Musste an die 33 Dateien dafür anpassen... Und optisch gefällt es mir jetzt auch besser.)
WICHTIG:
Ich habe mir erlaubt, Deine robots.txt anzusehen, und musste feststellen, dass sie nicht valide ist. Kannst Du z.B. mit diesen Validatoren nachprüfen:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
http://tool.motoricerca.info/robots-checker.phtml
Das Hauptproblem besteht darin, dass Wildcards (*) nur von Google unterstützt werden. Ändere also am besten mal in der ersten Zeile User-agent: * in User-agent: Googlebot
Wiederhole dann am Ende Deiner robots.txt für die anderen Robots (diesmal also wirklich für User-agent: *) dieselben Disallow-Regeln noch einmal, allerdings mit Ausnahme der Wildcards.
Aus Disallow: /profile.php* wird also für die nicht zu Google gehörenden Bots Disallow: /profile.php usw. usf.
Das müsste eigentlich reichen, um ALLE mit profile.php BEGINNENDEN Dateien für die Bots zu sperren. Allerdings habe ich jüngst in irgendeinem phpbb.com-Thread gelesen, dass es wichtig sein könnte, hinten noch ein Fragezeichen anzufügen. Also:
Disallow: /profile.php?
Disallow: /posting.php?
usw. usf.
Frag mich nicht nach der Quelle - finde ich wohl nicht mehr. Um auf Nummer sicher zu gehen, sieht meine eigene robots.txt mittlerweile so aus:
User-agent: Googlebot
# alle Disallow-Regeln speziell für Google, die zum Teil auch Wildcards enthalten
User-agent: *
Disallow: /profile.php
Disallow: /profile.php?
Disallow: /posting.php
Disallow: /posting.php?
usw. usf.
Ob es einen Vorteil bringt, weiß ich natürlich nicht. Bei einem Punkt bin ich mir aber ziemlich sicher:
Du solltest in Deiner robots.txt, um doppelten Content nach Möglichkeit zu vermeiden, auch noch folgende Dateien sperren:
Disallow: /index.php
Disallow: /viewforum.php
Disallow: /viewtopic.php
Diese Dateien haben die Sumas nicht mehr zu interessieren, da Du ja ein umfangreiches Rewriting einsetzt!!!
Für den Googlebot - und nur für diesen! - kannst Du natürlich auch noch nach Belieben Wildcards hinzufügen (z.B. Disallow: /viewtopic*).
Weshalb ich das Ganze überhaupt schreibe: Ein vernünftiges Rewriting gepaart mit einer ordentlichen robots.txt sollte eigentlich genügen, um Google zufrieden zu stellen und doppelten Content zu vermeiden. Und perfekt wird es sowieso nie. Aber ich glaube, das sagte ich schon.
Beste Grüße,
IPB_Flüchtling
vielleicht machen wir uns in Bezug auf Google auch einfach zuviel Gedanken. Perfekt wird es sowieso nie. Aber was mit halbwegs vertretbarem Aufwand getan werden kann, haben wir getan.
(Du ganz sicher; ich halt, so gut ich es vermochte. Bin dennoch stolz auf mich. Gestern habe ich auch noch die Jumpbox restlos entfernt, was zwar für Sumas nichts bringt, wohl aber für die Performance des Forums. Musste an die 33 Dateien dafür anpassen... Und optisch gefällt es mir jetzt auch besser.)
WICHTIG:
Ich habe mir erlaubt, Deine robots.txt anzusehen, und musste feststellen, dass sie nicht valide ist. Kannst Du z.B. mit diesen Validatoren nachprüfen:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
http://tool.motoricerca.info/robots-checker.phtml
Das Hauptproblem besteht darin, dass Wildcards (*) nur von Google unterstützt werden. Ändere also am besten mal in der ersten Zeile User-agent: * in User-agent: Googlebot
Wiederhole dann am Ende Deiner robots.txt für die anderen Robots (diesmal also wirklich für User-agent: *) dieselben Disallow-Regeln noch einmal, allerdings mit Ausnahme der Wildcards.
Aus Disallow: /profile.php* wird also für die nicht zu Google gehörenden Bots Disallow: /profile.php usw. usf.
Das müsste eigentlich reichen, um ALLE mit profile.php BEGINNENDEN Dateien für die Bots zu sperren. Allerdings habe ich jüngst in irgendeinem phpbb.com-Thread gelesen, dass es wichtig sein könnte, hinten noch ein Fragezeichen anzufügen. Also:
Disallow: /profile.php?
Disallow: /posting.php?
usw. usf.
Frag mich nicht nach der Quelle - finde ich wohl nicht mehr. Um auf Nummer sicher zu gehen, sieht meine eigene robots.txt mittlerweile so aus:
User-agent: Googlebot
# alle Disallow-Regeln speziell für Google, die zum Teil auch Wildcards enthalten
User-agent: *
Disallow: /profile.php
Disallow: /profile.php?
Disallow: /posting.php
Disallow: /posting.php?
usw. usf.
Ob es einen Vorteil bringt, weiß ich natürlich nicht. Bei einem Punkt bin ich mir aber ziemlich sicher:
Du solltest in Deiner robots.txt, um doppelten Content nach Möglichkeit zu vermeiden, auch noch folgende Dateien sperren:
Disallow: /index.php
Disallow: /viewforum.php
Disallow: /viewtopic.php
Diese Dateien haben die Sumas nicht mehr zu interessieren, da Du ja ein umfangreiches Rewriting einsetzt!!!
Für den Googlebot - und nur für diesen! - kannst Du natürlich auch noch nach Belieben Wildcards hinzufügen (z.B. Disallow: /viewtopic*).
Weshalb ich das Ganze überhaupt schreibe: Ein vernünftiges Rewriting gepaart mit einer ordentlichen robots.txt sollte eigentlich genügen, um Google zufrieden zu stellen und doppelten Content zu vermeiden. Und perfekt wird es sowieso nie. Aber ich glaube, das sagte ich schon.
Beste Grüße,
IPB_Flüchtling