Short URLs für phpBB2 (reloaded / robots.txt)
Forumsregeln
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.0, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.0, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
jein.. ich habe festgestellt, dass google dir ein gewisses "Kontingent" an Seiten zuspricht und wenn du doppelten Content reduzierst, hast du insgesamt mehr Informationen für die Suchmaschine gewonnen, daher schon die bessere "Indexierung".
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Hallo,
wir haben das Short-URL-MOD von larsneo seit einigen Wochen auf unserem Board installiert - es tut wunderbar seinen Dienst. Danke!
Nur verstehe ich nicht, weshalb Google offenbar unsere robots.txt beharrlich ignoriert. Die sieht - ebenfalls seit Wochen - so aus:
(Die Seiten heißen bei uns teilsweise anders als in dem Standard-MOD. Dies nur als Hinweis, es dürfte nichts mit dem Problem zu tun haben...)
Dennoch indiziert Google weiterhin munter sowohl dynamische URLs (also die, in denen ein "?" vorkommt) als auch die umgeschriebenen Pseudo-HTML-Adressen, die zu indizieren ihm eigentlich durch den zweiten Abschnitt von robots.txt verwehrt werden sollte:
klick
Hat jemand möglicherweise eine Vorstellung, woran das liegen könnte und wie es abzustellen wäre?
wir haben das Short-URL-MOD von larsneo seit einigen Wochen auf unserem Board installiert - es tut wunderbar seinen Dienst. Danke!

Nur verstehe ich nicht, weshalb Google offenbar unsere robots.txt beharrlich ignoriert. Die sieht - ebenfalls seit Wochen - so aus:
Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline
Dennoch indiziert Google weiterhin munter sowohl dynamische URLs (also die, in denen ein "?" vorkommt) als auch die umgeschriebenen Pseudo-HTML-Adressen, die zu indizieren ihm eigentlich durch den zweiten Abschnitt von robots.txt verwehrt werden sollte:
klick
Hat jemand möglicherweise eine Vorstellung, woran das liegen könnte und wie es abzustellen wäre?
Danke für die schnelle Antwort und für die Hinweise!larsneo hat geschrieben:beachte, welche suchergebnisse textauszüge haben und welche nicht. google indexiert die beiträge 'trotz' der robots.txt, wertet sie (in aller regel) aber nicht für die eigentliche suche aus.
zugebenermassen scheint der ausschluss über die robots.txt aber ein *sehr* mühsames geschäft zu sein.

Beide Bemerkungen treffen offensichtlich. Für uns ist das Problem auch wirklich nicht existentiell - es ist eher so, daß die Sache meinen Ordnungssinn gestört hat. Google selbst scheint das halt weniger pingelig zu sehen.

Hallo zusammen,
Möchte ein paar Sachen zur robots.txt von Larsneo sagen. Erstmal danke, für die super mod. Bei mir im Forum funktioniert sie wunderbar.
Nun zur Robots.txt: Ich habe bei mir festgestellt, dass Google nach Implementierung der o.a. Robots.txt auch angefangen hat alle möglichen und unmöglichen Dateien zu spidern.
Ursache war folgendes: Wenn der Googlebot eine Sektion in der robots.txt für sich findet wie z.b.
dann ignoriert er alles was dahinter steht.
Abhilfe schafft, die Disallow Einträge doppelt einzutragen d.h. für den Googlebot und für *.
z.B. (Beispiel von oben)
Das bläht zwar die robots.txt auf, aber hilft ungemein gegen DC
. Ich habe bei mir dann allen "Schrott" per url-console rausgeschmissen und jetzt sind nur noch die einzelnen Foren und Topic im Index. Mehr nicht. Es kommt auch definitiv kein weiterer DC hinzu.
Ein Problem gibt es mit der URL Console: Sie akzeptiert den Parameter
Disallow: /*? nicht. Also robots.txt editieren und danach wieder hinzufügen, denn /*? wird von Google befolgt (hatte noch der removal Aktion wieder ein paar viewtopic.php? im Index. Mittlerweile sind die auch raus.
Möchte ein paar Sachen zur robots.txt von Larsneo sagen. Erstmal danke, für die super mod. Bei mir im Forum funktioniert sie wunderbar.
Nun zur Robots.txt: Ich habe bei mir festgestellt, dass Google nach Implementierung der o.a. Robots.txt auch angefangen hat alle möglichen und unmöglichen Dateien zu spidern.
Ursache war folgendes: Wenn der Googlebot eine Sektion in der robots.txt für sich findet wie z.b.
Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
Abhilfe schafft, die Disallow Einträge doppelt einzutragen d.h. für den Googlebot und für *.
z.B. (Beispiel von oben)
Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline
User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /db/
Disallow: /divers/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /testforum/
Disallow: /common.php
Disallow: /config.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /phpinfo.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /vorigesthema
Disallow: /naechstesthema
Disallow: /schreiben-
Disallow: /profil
Disallow: /suche
Disallow: /registrieren
Disallow: /profil
Disallow: /mitgliedsliste
Disallow: /gruppen
Disallow: /weristonline

Ein Problem gibt es mit der URL Console: Sie akzeptiert den Parameter
Disallow: /*? nicht. Also robots.txt editieren und danach wieder hinzufügen, denn /*? wird von Google befolgt (hatte noch der removal Aktion wieder ein paar viewtopic.php? im Index. Mittlerweile sind die auch raus.
ich glaube bis heute, dass Google die eigene Regel ignoriert.
schließlich nutzt selbst google nicht diese codezeile:
www.google.com/robots.txt
ich habe deswegen alles nach unten geschoben.. erst die "allgemeine" regel und dann diese codezeile.. dann musst du nicht alles doppelt machen.
ODER: das "*" ist in diesem fall als variable für ein wort gedacht.. soll heißen die regel wird an dieser stelle meiner meinung nach missverstanden. ihr solltet dort richtige wörter eintragen.
denn mit "*?" wäre der befehl gegeben wirklich alle dynamischen seiten zu kicken.. damit würde der rest eh unerheblich sein.
schließlich nutzt selbst google nicht diese codezeile:
www.google.com/robots.txt
ich habe deswegen alles nach unten geschoben.. erst die "allgemeine" regel und dann diese codezeile.. dann musst du nicht alles doppelt machen.
ODER: das "*" ist in diesem fall als variable für ein wort gedacht.. soll heißen die regel wird an dieser stelle meiner meinung nach missverstanden. ihr solltet dort richtige wörter eintragen.
denn mit "*?" wäre der befehl gegeben wirklich alle dynamischen seiten zu kicken.. damit würde der rest eh unerheblich sein.
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
hmm. Ja. Das mag funktionieren. Das habe ich noch nicht ausprobiert.
Diese Problematik sollte LarsNeo noch in seinem Eingangspost erwähnen.
Noch kurz zu meiner Erfahrung. Ich hatte zuerst folgende Regel implementiert:
Damit hat der Googlebot angefangen allen möglichen Kram zu spidern. Also npost, fpost, profile, etc. Allerdings keine dynamischen URLs. Das spricht dafür, dass Google diesen Parameter schon interpretiert.
Wie dem auch sei: So wie es im Moment oben steht, funktioniert es meiner Meinung nach nicht zuverlässig.
Diese Problematik sollte LarsNeo noch in seinem Eingangspost erwähnen.
Noch kurz zu meiner Erfahrung. Ich hatte zuerst folgende Regel implementiert:
Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
User-agent: *
Disallow: /blah
etc.
Wie dem auch sei: So wie es im Moment oben steht, funktioniert es meiner Meinung nach nicht zuverlässig.
Hi,
ich habe SHORT-URL (reloaded /robots.txt) implementiert. Bein Board ist ein phpBB plus 1.52, also ein phpBB mit ua. ezPortal.
robots.txt
.htaccess
Leider spiderte Google keine ftopic*- Links. Darauf habe ich, um überhaupt Ergebnisse bei Google zu haben, Google Sitemaps verwandt. Dadurch tauchten zwar die Links zu den Topics auf, jedoch ohne Inhalt, wahrscheinlich wegen
Diesen Teil der robots.txt habe ich daraufhin gelöscht. Ausserdem habe ich An den Anfang der .htaccess eingefügt.
Nun hat Google ganze 4 Beiträge von weit über 100 mit Inhalt indiziert, allerdings, wie zu vermuten war, dynamisch, also viewtopic.php?t=XXX.
Meine Frage: Kann es daran liegen, dass Google das Forum (also index.php/html) nicht findet, weil es den Forum-Link vom Portal (portal.php) nicht richtig auswertet oder findet? (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter) Havarieret evtl die Google-SITEMAP-Auswertung mit dem selbständigen spidern von Google? Ohne Sitemap wars eigentlich auch nicht besser.
Werds jetzt mal versuchen mit am Ende der rotots.txt und werde berichten.
Matthias
ich habe SHORT-URL (reloaded /robots.txt) implementiert. Bein Board ist ein phpBB plus 1.52, also ein phpBB mit ua. ezPortal.
robots.txt
Code: Alles auswählen
User-agent: msnbot
Crawl-Delay: 10
User-agent: Slurp
Crawl-Delay: 100
User-agent: Googlebot
Disallow: /*?
User-agent: *
Disallow: /admin/
Disallow: /album_mod/
Disallow: /cache/
Disallow: /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /templates/
Disallow: /xs_mod/
Disallow: /album
Disallow: /common
Disallow: /extension
Disallow: /faq
Disallow: /groupcp
Disallow: /login
Disallow: /hack_list
Disallow: /calendar_scheduler
Disallow: /modcp
Disallow: /printview
Disallow: /posting
Disallow: /privmsg
Disallow: /export
Disallow: /profile
Disallow: /printview
Disallow: /rating
Disallow: /report
Disallow: /search
Disallow: /fpost
Disallow: /ptopic
Disallow: /ntopic
Disallow: /post-
Code: Alles auswählen
RewriteEngine On
# prevent access from santy webworm a-e
RewriteCond %{QUERY_STRING} ^(.*)highlight=\%2527 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=\%65\%63\%68 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=echo [OR]
RewriteCond %{QUERY_STRING} ^(.*)wget\%20 [OR]
RewriteCond %{QUERY_STRING} ^(.*)cmd=
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
# prevent pre php 4.3.10 bug
RewriteCond %{HTTP_COOKIE}% s:(.*):\%22test1\%22\%3b
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
# prevent bots from spidering
RewriteCond %{HTTP_USER_AGENT} ^slurp
RewriteRule ^.* - [F,L]
# prevent perl user agent (most often used by santy)
RewriteCond %{HTTP_USER_AGENT} ^lwp.* [NC]
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
# extended rewriting only for .html [thx to Caterham]
RewriteRule !\.html$ - [L]
# Short URL implementation [larsneo]
RewriteCond %{REQUEST_URI} ^/forums\.html
RewriteRule (.*) /index.php [R=301,L]
usw.....
Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
Code: Alles auswählen
DirectoryIndex index.html index.php
Nun hat Google ganze 4 Beiträge von weit über 100 mit Inhalt indiziert, allerdings, wie zu vermuten war, dynamisch, also viewtopic.php?t=XXX.
Meine Frage: Kann es daran liegen, dass Google das Forum (also index.php/html) nicht findet, weil es den Forum-Link vom Portal (portal.php) nicht richtig auswertet oder findet? (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter) Havarieret evtl die Google-SITEMAP-Auswertung mit dem selbständigen spidern von Google? Ohne Sitemap wars eigentlich auch nicht besser.
Werds jetzt mal versuchen mit
Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
Matthias
Vorwärts immer, Rückwärts nimmer!
- larsneo
- Mitglied
- Beiträge: 2622
- Registriert: 07.03.2002 15:23
- Wohnort: schwäbisch gmünd
- Kontaktdaten:
zuerst einmal sollten neue themen auch in eigenen topics abgehandelt werden, ansonsten verliert man recht schnell den überblick...
hast du einen link zum forum, damit man sich das einmal anschauen kann?
übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...
das verstehe ich nicht - warum setzt du nicht den directoryindex auf portal.php index.php ? (das plus-paket ist zugegebenermassen aber auch nicht mein gebiet...)(die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter)
wieso - eine site-suche bei tante-g zeigt doch zumindestens ein paar entsprechende links an?Leider spiderte Google keine ftopic*- Links.
hast du einen link zum forum, damit man sich das einmal anschauen kann?
übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...
Hmpf, da hätte ich auch drauf kommen können, shame on melarsneo hat geschrieben:das verstehe ich nicht - warum setzt du nicht den directoryindex auf portal.php index.php ?plACEbo hat geschrieben: (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter)

Erledigt, index.html ist raus.
Aber keine ftopic* - Links, nur viewonline.php?t=XXXlarsneo hat geschrieben:wieso - eine site-suche bei tante-g zeigt doch zumindestens ein paar entsprechende links an?plACEbo hat geschrieben:Leider spiderte Google keine ftopic*- Links.
siehe Signatur oder Link im Profil.larsneo hat geschrieben:hast du einen link zum forum, damit man sich das einmal anschauen kann?
larsneo hat geschrieben:übrigens: bei slurp solltest du dich entscheiden, ob du ihn via .htaccess bannen oder via robots.txt einschränken willst...
Code: Alles auswählen
User-agent: Slurp
Crawl-Delay: 100
Matthias
Vorwärts immer, Rückwärts nimmer!