Short URLs für phpBB2 (reloaded / robots.txt)

mgutt · Beitrag von **mgutt** » 03.06.2005 12:56

jein.. ich habe festgestellt, dass google dir ein gewisses "Kontingent" an Seiten zuspricht und wenn du doppelten Content reduzierst, hast du insgesamt mehr Informationen für die Suchmaschine gewonnen, daher schon die bessere "Indexierung".

Harki · Beitrag von **Harki** » 14.06.2005 11:49

Hallo,

wir haben das Short-URL-MOD von larsneo seit einigen Wochen auf unserem Board installiert - es tut wunderbar seinen Dienst. Danke!

Nur verstehe ich nicht, weshalb Google offenbar unsere robots.txt beharrlich ignoriert. Die sieht - ebenfalls seit Wochen - so aus:

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline

(Die Seiten heißen bei uns teilsweise anders als in dem Standard-MOD. Dies nur als Hinweis, es dürfte nichts mit dem Problem zu tun haben...)

Dennoch indiziert Google weiterhin munter sowohl dynamische URLs (also die, in denen ein "?" vorkommt) als auch die umgeschriebenen Pseudo-HTML-Adressen, die zu indizieren ihm eigentlich durch den zweiten Abschnitt von robots.txt verwehrt werden sollte:

klick

Hat jemand möglicherweise eine Vorstellung, woran das liegen könnte und wie es abzustellen wäre?

larsneo · Beitrag von **larsneo** » 14.06.2005 13:10

beachte, welche suchergebnisse textauszüge haben und welche nicht. google indexiert die beiträge 'trotz' der robots.txt, wertet sie (in aller regel) aber nicht für die eigentliche suche aus.

zugebenermassen scheint der ausschluss über die robots.txt aber ein *sehr* mühsames geschäft zu sein.

Harki · Beitrag von **Harki** » 14.06.2005 14:04

larsneo hat geschrieben:beachte, welche suchergebnisse textauszüge haben und welche nicht. google indexiert die beiträge 'trotz' der robots.txt, wertet sie (in aller regel) aber nicht für die eigentliche suche aus.

zugebenermassen scheint der ausschluss über die robots.txt aber ein *sehr* mühsames geschäft zu sein.

Danke für die schnelle Antwort und für die Hinweise!

Beide Bemerkungen treffen offensichtlich. Für uns ist das Problem auch wirklich nicht existentiell - es ist eher so, daß die Sache meinen Ordnungssinn gestört hat. Google selbst scheint das halt weniger pingelig zu sehen.

Chris2005 · Beitrag von **Chris2005** » 19.06.2005 00:17

Hallo zusammen,

Möchte ein paar Sachen zur robots.txt von Larsneo sagen. Erstmal danke, für die super mod. Bei mir im Forum funktioniert sie wunderbar.

Nun zur Robots.txt: Ich habe bei mir festgestellt, dass Google nach Implementierung der o.a. Robots.txt auch angefangen hat alle möglichen und unmöglichen Dateien zu spidern.

Ursache war folgendes: Wenn der Googlebot eine Sektion in der robots.txt für sich findet wie z.b.

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

dann ignoriert er alles was dahinter steht.

Abhilfe schafft, die Disallow Einträge doppelt einzutragen d.h. für den Googlebot und für *.

z.B. (Beispiel von oben)

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline 

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline

Das bläht zwar die robots.txt auf, aber hilft ungemein gegen DC

. Ich habe bei mir dann allen "Schrott" per url-console rausgeschmissen und jetzt sind nur noch die einzelnen Foren und Topic im Index. Mehr nicht. Es kommt auch definitiv kein weiterer DC hinzu.

Ein Problem gibt es mit der URL Console: Sie akzeptiert den Parameter
Disallow: /*? nicht. Also robots.txt editieren und danach wieder hinzufügen, denn /*? wird von Google befolgt (hatte noch der removal Aktion wieder ein paar viewtopic.php? im Index. Mittlerweile sind die auch raus.

mgutt · Beitrag von **mgutt** » 20.06.2005 01:23

ich glaube bis heute, dass Google die eigene Regel ignoriert.

schließlich nutzt selbst google nicht diese codezeile:

www.google.com/robots.txt

ich habe deswegen alles nach unten geschoben.. erst die "allgemeine" regel und dann diese codezeile.. dann musst du nicht alles doppelt machen.

ODER: das "*" ist in diesem fall als variable für ein wort gedacht.. soll heißen die regel wird an dieser stelle meiner meinung nach missverstanden. ihr solltet dort richtige wörter eintragen.

denn mit "*?" wäre der befehl gegeben wirklich alle dynamischen seiten zu kicken.. damit würde der rest eh unerheblich sein.

Chris2005 · Beitrag von **Chris2005** » 22.06.2005 01:48

hmm. Ja. Das mag funktionieren. Das habe ich noch nicht ausprobiert.

Diese Problematik sollte LarsNeo noch in seinem Eingangspost erwähnen.

Noch kurz zu meiner Erfahrung. Ich hatte zuerst folgende Regel implementiert:

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /blah
etc.

Damit hat der Googlebot angefangen allen möglichen Kram zu spidern. Also npost, fpost, profile, etc. Allerdings keine dynamischen URLs. Das spricht dafür, dass Google diesen Parameter schon interpretiert.

Wie dem auch sei: So wie es im Moment oben steht, funktioniert es meiner Meinung nach nicht zuverlässig.

plACEbo · Beitrag von **plACEbo** » 22.06.2005 10:11

Hi,

ich habe SHORT-URL (reloaded /robots.txt) implementiert. Bein Board ist ein phpBB plus 1.52, also ein phpBB mit ua. ezPortal.

robots.txt

Code: Alles auswählen

User-agent: msnbot
Crawl-Delay: 10

User-agent: Slurp
Crawl-Delay: 100

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /admin/
Disallow: /album_mod/
Disallow: /cache/
Disallow: /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /templates/
Disallow: /xs_mod/
Disallow: /album
Disallow: /common
Disallow: /extension
Disallow: /faq
Disallow: /groupcp
Disallow: /login
Disallow: /hack_list
Disallow: /calendar_scheduler
Disallow: /modcp
Disallow: /printview
Disallow: /posting
Disallow: /privmsg
Disallow: /export
Disallow: /profile
Disallow: /printview
Disallow: /rating
Disallow: /report
Disallow: /search
Disallow: /fpost
Disallow: /ptopic
Disallow: /ntopic
Disallow: /post-

.htaccess

Code: Alles auswählen

RewriteEngine On

# prevent access from santy webworm a-e
RewriteCond %{QUERY_STRING} ^(.*)highlight=\%2527 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=\%65\%63\%68 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=echo [OR]
RewriteCond %{QUERY_STRING} ^(.*)wget\%20 [OR]
RewriteCond %{QUERY_STRING} ^(.*)cmd=
RewriteRule ^.*$ http://127.0.0.1/ [R,L]

# prevent pre php 4.3.10 bug
RewriteCond %{HTTP_COOKIE}% s:(.*):\%22test1\%22\%3b
RewriteRule ^.*$ http://127.0.0.1/ [R,L]

# prevent bots from spidering
RewriteCond %{HTTP_USER_AGENT} ^slurp 
RewriteRule ^.* - [F,L]

# prevent perl user agent (most often used by santy)
RewriteCond %{HTTP_USER_AGENT} ^lwp.* [NC]
RewriteRule ^.*$ http://127.0.0.1/ [R,L]

# extended rewriting only for .html [thx to Caterham]
RewriteRule !\.html$ - [L]

# Short URL implementation [larsneo]
RewriteCond %{REQUEST_URI} ^/forums\.html
RewriteRule (.*) /index.php [R=301,L]

usw.....

Leider spiderte Google keine ftopic*- Links. Darauf habe ich, um überhaupt Ergebnisse bei Google zu haben, Google Sitemaps verwandt. Dadurch tauchten zwar die Links zu den Topics auf, jedoch ohne Inhalt, wahrscheinlich wegen

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

Diesen Teil der robots.txt habe ich daraufhin gelöscht. Ausserdem habe ich

Code: Alles auswählen

DirectoryIndex index.html index.php

An den Anfang der .htaccess eingefügt.
Nun hat Google ganze 4 Beiträge von weit über 100 mit Inhalt indiziert, allerdings, wie zu vermuten war, dynamisch, also viewtopic.php?t=XXX.
Meine Frage: Kann es daran liegen, dass Google das Forum (also index.php/html) nicht findet, weil es den Forum-Link vom Portal (portal.php) nicht richtig auswertet oder findet? (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter) Havarieret evtl die Google-SITEMAP-Auswertung mit dem selbständigen spidern von Google? Ohne Sitemap wars eigentlich auch nicht besser.
Werds jetzt mal versuchen mit

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

am Ende der rotots.txt und werde berichten.

Matthias

larsneo · Beitrag von **larsneo** » 22.06.2005 10:21

zuerst einmal sollten neue themen auch in eigenen topics abgehandelt werden, ansonsten verliert man recht schnell den überblick...

(die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter)

das verstehe ich nicht - warum setzt du nicht den directoryindex auf portal.php index.php ? (das plus-paket ist zugegebenermassen aber auch nicht mein gebiet...)

Leider spiderte Google keine ftopic*- Links.

wieso - eine site-suche bei tante-g zeigt doch zumindestens ein paar entsprechende links an?

hast du einen link zum forum, damit man sich das einmal anschauen kann?

übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...

plACEbo · Beitrag von **plACEbo** » 22.06.2005 10:41

larsneo hat geschrieben:
plACEbo hat geschrieben: (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter)
das verstehe ich nicht - warum setzt du nicht den directoryindex auf portal.php index.php ?

Hmpf, da hätte ich auch drauf kommen können, shame on me

Erledigt, index.html ist raus.

larsneo hat geschrieben:
plACEbo hat geschrieben:Leider spiderte Google keine ftopic*- Links.
wieso - eine site-suche bei tante-g zeigt doch zumindestens ein paar entsprechende links an?

Aber keine ftopic* - Links, nur viewonline.php?t=XXX

larsneo hat geschrieben:hast du einen link zum forum, damit man sich das einmal anschauen kann?

siehe Signatur oder Link im Profil.

larsneo hat geschrieben:übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...

Code: Alles auswählen

User-agent: Slurp
Crawl-Delay: 100

habe ich rausgenommen. Die Regel in der .htaccess schien bisher nicht zu greifen. Mal sehn, obs nun klappt ( siehe auch : http://www.phpbb.de/viewtopic.php?p=512354#512354)

Matthias