Short URLs für phpBB2 (reloaded / robots.txt)

In diesem Forum können Mod-Autoren ihre Mods vorstellen, die sich noch im Entwicklungsstatus befinden. Der Einbau in Foren im produktiven Betrieb wird nicht empfohlen.
Forumsregeln
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.0, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
Benutzeravatar
mgutt
Mitglied
Beiträge: 2999
Registriert: 31.08.2004 16:44
Wohnort: Hennef
Kontaktdaten:

Beitrag von mgutt »

jein.. ich habe festgestellt, dass google dir ein gewisses "Kontingent" an Seiten zuspricht und wenn du doppelten Content reduzierst, hast du insgesamt mehr Informationen für die Suchmaschine gewonnen, daher schon die bessere "Indexierung".
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Benutzeravatar
Harki
Mitglied
Beiträge: 144
Registriert: 25.04.2005 16:03
Wohnort: Hannover
Kontaktdaten:

Beitrag von Harki »

Hallo,

wir haben das Short-URL-MOD von larsneo seit einigen Wochen auf unserem Board installiert - es tut wunderbar seinen Dienst. Danke! :)

Nur verstehe ich nicht, weshalb Google offenbar unsere robots.txt beharrlich ignoriert. Die sieht - ebenfalls seit Wochen - so aus:

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline

(Die Seiten heißen bei uns teilsweise anders als in dem Standard-MOD. Dies nur als Hinweis, es dürfte nichts mit dem Problem zu tun haben...)

Dennoch indiziert Google weiterhin munter sowohl dynamische URLs (also die, in denen ein "?" vorkommt) als auch die umgeschriebenen Pseudo-HTML-Adressen, die zu indizieren ihm eigentlich durch den zweiten Abschnitt von robots.txt verwehrt werden sollte:

klick

Hat jemand möglicherweise eine Vorstellung, woran das liegen könnte und wie es abzustellen wäre?
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

beachte, welche suchergebnisse textauszüge haben und welche nicht. google indexiert die beiträge 'trotz' der robots.txt, wertet sie (in aller regel) aber nicht für die eigentliche suche aus.

zugebenermassen scheint der ausschluss über die robots.txt aber ein *sehr* mühsames geschäft zu sein.
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
Harki
Mitglied
Beiträge: 144
Registriert: 25.04.2005 16:03
Wohnort: Hannover
Kontaktdaten:

Beitrag von Harki »

larsneo hat geschrieben:beachte, welche suchergebnisse textauszüge haben und welche nicht. google indexiert die beiträge 'trotz' der robots.txt, wertet sie (in aller regel) aber nicht für die eigentliche suche aus.

zugebenermassen scheint der ausschluss über die robots.txt aber ein *sehr* mühsames geschäft zu sein.
Danke für die schnelle Antwort und für die Hinweise! :)

Beide Bemerkungen treffen offensichtlich. Für uns ist das Problem auch wirklich nicht existentiell - es ist eher so, daß die Sache meinen Ordnungssinn gestört hat. Google selbst scheint das halt weniger pingelig zu sehen. ;)
Chris2005
Mitglied
Beiträge: 5
Registriert: 19.06.2005 00:06

Beitrag von Chris2005 »

Hallo zusammen,

Möchte ein paar Sachen zur robots.txt von Larsneo sagen. Erstmal danke, für die super mod. Bei mir im Forum funktioniert sie wunderbar.

Nun zur Robots.txt: Ich habe bei mir festgestellt, dass Google nach Implementierung der o.a. Robots.txt auch angefangen hat alle möglichen und unmöglichen Dateien zu spidern.

Ursache war folgendes: Wenn der Googlebot eine Sektion in der robots.txt für sich findet wie z.b.

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?
dann ignoriert er alles was dahinter steht.

Abhilfe schafft, die Disallow Einträge doppelt einzutragen d.h. für den Googlebot und für *.

z.B. (Beispiel von oben)

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline 

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline 
Das bläht zwar die robots.txt auf, aber hilft ungemein gegen DC :). Ich habe bei mir dann allen "Schrott" per url-console rausgeschmissen und jetzt sind nur noch die einzelnen Foren und Topic im Index. Mehr nicht. Es kommt auch definitiv kein weiterer DC hinzu.

Ein Problem gibt es mit der URL Console: Sie akzeptiert den Parameter
Disallow: /*?
nicht. Also robots.txt editieren und danach wieder hinzufügen, denn /*? wird von Google befolgt (hatte noch der removal Aktion wieder ein paar viewtopic.php? im Index. Mittlerweile sind die auch raus.
Benutzeravatar
mgutt
Mitglied
Beiträge: 2999
Registriert: 31.08.2004 16:44
Wohnort: Hennef
Kontaktdaten:

Beitrag von mgutt »

ich glaube bis heute, dass Google die eigene Regel ignoriert.

schließlich nutzt selbst google nicht diese codezeile:

www.google.com/robots.txt

ich habe deswegen alles nach unten geschoben.. erst die "allgemeine" regel und dann diese codezeile.. dann musst du nicht alles doppelt machen.

ODER: das "*" ist in diesem fall als variable für ein wort gedacht.. soll heißen die regel wird an dieser stelle meiner meinung nach missverstanden. ihr solltet dort richtige wörter eintragen.

denn mit "*?" wäre der befehl gegeben wirklich alle dynamischen seiten zu kicken.. damit würde der rest eh unerheblich sein.
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Chris2005
Mitglied
Beiträge: 5
Registriert: 19.06.2005 00:06

Beitrag von Chris2005 »

hmm. Ja. Das mag funktionieren. Das habe ich noch nicht ausprobiert.

Diese Problematik sollte LarsNeo noch in seinem Eingangspost erwähnen.

Noch kurz zu meiner Erfahrung. Ich hatte zuerst folgende Regel implementiert:

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /blah
etc.
Damit hat der Googlebot angefangen allen möglichen Kram zu spidern. Also npost, fpost, profile, etc. Allerdings keine dynamischen URLs. Das spricht dafür, dass Google diesen Parameter schon interpretiert.

Wie dem auch sei: So wie es im Moment oben steht, funktioniert es meiner Meinung nach nicht zuverlässig.
Benutzeravatar
plACEbo
Mitglied
Beiträge: 538
Registriert: 16.12.2003 12:22

Beitrag von plACEbo »

Hi,

ich habe SHORT-URL (reloaded /robots.txt) implementiert. Bein Board ist ein phpBB plus 1.52, also ein phpBB mit ua. ezPortal.

robots.txt

Code: Alles auswählen

User-agent: msnbot
Crawl-Delay: 10

User-agent: Slurp
Crawl-Delay: 100

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /admin/
Disallow: /album_mod/
Disallow: /cache/
Disallow: /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /templates/
Disallow: /xs_mod/
Disallow: /album
Disallow: /common
Disallow: /extension
Disallow: /faq
Disallow: /groupcp
Disallow: /login
Disallow: /hack_list
Disallow: /calendar_scheduler
Disallow: /modcp
Disallow: /printview
Disallow: /posting
Disallow: /privmsg
Disallow: /export
Disallow: /profile
Disallow: /printview
Disallow: /rating
Disallow: /report
Disallow: /search
Disallow: /fpost
Disallow: /ptopic
Disallow: /ntopic
Disallow: /post-
.htaccess

Code: Alles auswählen

RewriteEngine On

# prevent access from santy webworm a-e
RewriteCond %{QUERY_STRING} ^(.*)highlight=\%2527 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=\%65\%63\%68 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=echo [OR]
RewriteCond %{QUERY_STRING} ^(.*)wget\%20 [OR]
RewriteCond %{QUERY_STRING} ^(.*)cmd=
RewriteRule ^.*$ http://127.0.0.1/ [R,L]

# prevent pre php 4.3.10 bug
RewriteCond %{HTTP_COOKIE}% s:(.*):\%22test1\%22\%3b
RewriteRule ^.*$ http://127.0.0.1/ [R,L]

# prevent bots from spidering
RewriteCond %{HTTP_USER_AGENT} ^slurp 
RewriteRule ^.* - [F,L]

# prevent perl user agent (most often used by santy)
RewriteCond %{HTTP_USER_AGENT} ^lwp.* [NC]
RewriteRule ^.*$ http://127.0.0.1/ [R,L]

# extended rewriting only for .html [thx to Caterham]
RewriteRule !\.html$ - [L]

# Short URL implementation [larsneo]
RewriteCond %{REQUEST_URI} ^/forums\.html
RewriteRule (.*) /index.php [R=301,L]

usw.....
Leider spiderte Google keine ftopic*- Links. Darauf habe ich, um überhaupt Ergebnisse bei Google zu haben, Google Sitemaps verwandt. Dadurch tauchten zwar die Links zu den Topics auf, jedoch ohne Inhalt, wahrscheinlich wegen

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?
Diesen Teil der robots.txt habe ich daraufhin gelöscht. Ausserdem habe ich

Code: Alles auswählen

DirectoryIndex index.html index.php
An den Anfang der .htaccess eingefügt.
Nun hat Google ganze 4 Beiträge von weit über 100 mit Inhalt indiziert, allerdings, wie zu vermuten war, dynamisch, also viewtopic.php?t=XXX.
Meine Frage: Kann es daran liegen, dass Google das Forum (also index.php/html) nicht findet, weil es den Forum-Link vom Portal (portal.php) nicht richtig auswertet oder findet? (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter) Havarieret evtl die Google-SITEMAP-Auswertung mit dem selbständigen spidern von Google? Ohne Sitemap wars eigentlich auch nicht besser.
Werds jetzt mal versuchen mit

Code: Alles auswählen

User-agent: Googlebot
Disallow: /*?
am Ende der rotots.txt und werde berichten.

Matthias
Vorwärts immer, Rückwärts nimmer!
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

zuerst einmal sollten neue themen auch in eigenen topics abgehandelt werden, ansonsten verliert man recht schnell den überblick...
(die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter)
das verstehe ich nicht - warum setzt du nicht den directoryindex auf portal.php index.php ? (das plus-paket ist zugegebenermassen aber auch nicht mein gebiet...)
Leider spiderte Google keine ftopic*- Links.
wieso - eine site-suche bei tante-g zeigt doch zumindestens ein paar entsprechende links an?

hast du einen link zum forum, damit man sich das einmal anschauen kann?

übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
plACEbo
Mitglied
Beiträge: 538
Registriert: 16.12.2003 12:22

Beitrag von plACEbo »

larsneo hat geschrieben:
plACEbo hat geschrieben: (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter)
das verstehe ich nicht - warum setzt du nicht den directoryindex auf portal.php index.php ?
Hmpf, da hätte ich auch drauf kommen können, shame on me :oops:
Erledigt, index.html ist raus.
larsneo hat geschrieben:
plACEbo hat geschrieben:Leider spiderte Google keine ftopic*- Links.
wieso - eine site-suche bei tante-g zeigt doch zumindestens ein paar entsprechende links an?
Aber keine ftopic* - Links, nur viewonline.php?t=XXX
larsneo hat geschrieben:hast du einen link zum forum, damit man sich das einmal anschauen kann?
siehe Signatur oder Link im Profil.
larsneo hat geschrieben:übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...

Code: Alles auswählen

User-agent: Slurp
Crawl-Delay: 100
habe ich rausgenommen. Die Regel in der .htaccess schien bisher nicht zu greifen. Mal sehn, obs nun klappt ( siehe auch : http://www.phpbb.de/viewtopic.php?p=512354#512354)

Matthias
Vorwärts immer, Rückwärts nimmer!
Antworten

Zurück zu „phpBB 2.0: Mods in Entwicklung“