Short URLs für phpBB2 (reloaded / robots.txt)

In diesem Forum können Mod-Autoren ihre Mods vorstellen, die sich noch im Entwicklungsstatus befinden. Der Einbau in Foren im produktiven Betrieb wird nicht empfohlen.
Forumsregeln
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.0, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.

Short URLs für phpBB2 (reloaded / robots.txt)

Beitragvon larsneo » 28.03.2005 13:04

Die robots.txt ist eine einfache Textdatei die im Root der Webpräsenz abgelegt wird. Ziel der Konfigurationsdatei ist es, Suchmaschinenrobotern bzw. -spidern Instruktionen zu geben, welche Inhalt der Seite nicht indiziert werden sollen. Gerade in Verbindung mit den Short URL Modifikationen (*klick* und *klack*) hat man damit eine gute Möglichkeit in der Hand, die Indizierung der Suchmaschinen zu beeinflussen und doppelten Content zu vermeiden.

Man sollte die robots.txt dabei als eine Art Vorschlagsliste ansehen - mit ihr kann man Suchmaschinen anweisen, bestimmte Inhalte nicht in den Index aufzunehmen - den Zugriff auf diese Seiten unterbindet man nicht. Sollen bestimmte Inhalte tatsächlich nicht für Bots zugreifbar sein, muss man andere Wege (z.b. via .htaccess etc) benutzen.

Während die normale Syntax für die robots.txt noch recht einfach ist und sich immer nach dem Schema
Code: Alles auswählen
Useragent: x
Disallow: /y

ausrichtet, sorgen suchmaschinenspezifische Erweiterungen oftmals für Verständnisprobleme.

Die wichtigsten Regeln von daher noch einmal zusammengefasst:
- Disallow-Regeln sollten immer mit einem führenden Slash beginnen
- Endet der Name mit einem Slash gilt die Regel nur für das entsprechende Verzeichnis, ansonsten für alle Dateien/Verzeichnisse mit einem entsprechenden Anfang
- Wildcard-Selektionen (*) werden nur von googlebot unterstützt (siehe auch Dynamische Seiten nicht indizieren)
- crawl-delay wird nur von msnbot und Slurp unterstützt (siehe auch Bots einzähmen)

Um sicherzustellen, dass die Syntax der robots.txt korrekt ist, empfiehlt es sich, mit einem Prüfprogramm zu validieren.

Bei nubert-forum.de nutze ich folgende robots.txt und erziele damit ganz ansehnliche Ergebnisse (in verbindung mit dem reloaded mod):
Code: Alles auswählen
User-agent: msnbot
Crawl-Delay: 10

User-agent: Slurp
Crawl-Delay: 10

User-agent: Googlebot
Disallow: /*?

User-agent: *
Disallow: /nuforum/admin/
Disallow: /nuforum/album_mod/
Disallow: /nuforum/cache/
Disallow: /nuforum/db/
Disallow: /nuforum/docs/
Disallow: /nuforum/images/
Disallow: /nuforum/includes/
Disallow: /nuforum/language/
Disallow: /nuforum/mods/
Disallow: /nuforum/templates/
Disallow: /nuforum/xs_mod/
Disallow: /nuforum/album
Disallow: /nuforum/common
Disallow: /nuforum/extension
Disallow: /nuforum/faq
Disallow: /nuforum/groupcp
Disallow: /nuforum/login
Disallow: /nuforum/map
Disallow: /nuforum/memberlist
Disallow: /nuforum/modcp
Disallow: /nuforum/posting
Disallow: /nuforum/privmsg
Disallow: /nuforum/profile
Disallow: /nuforum/rating
Disallow: /nuforum/report
Disallow: /nuforum/search
Disallow: /nuforum/fpost
Disallow: /nuforum/ptopic
Disallow: /nuforum/ntopic
Disallow: /nuforum/post-
gruesse aus dem wilden sueden
larsneo
..::[cms-sicherheit]::..
Benutzeravatar
larsneo
Valued Contributor
 
Beiträge: 2613
Registriert: 07.03.2002 16:23
Wohnort: schwäbisch gmünd

Beitragvon mgutt » 07.04.2005 11:40

Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?


das funktioniert doch nicht oder ?

ich habe das mal so probiert:

Code: Alles auswählen
User-agent: Googlebot
Disallow: /*sid


funktioniert aber auch nicht

Das Minus kann an dieser Stelle doch weg:

Code: Alles auswählen
Disallow: /nuforum/post-


ich habe das Gefühl, dass der Googlebot bei Dir nicht mehr richtig listet, weil du den Googlebot oben schon mit dem Platzhalterbefehl irritierst.

Deine Ergebnisse sind nämlich sehr stark hochgeschossen und doppelter content ist auch wieder gut dabei:

http://www.google.de/search?q=Die+Nuber ... y&filter=0

meinen befehl hatte ich unter den rest geschrieben und gehofft das er da noch gelesen wird ;)
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Benutzeravatar
mgutt
Mitglied
 
Beiträge: 2999
Registriert: 31.08.2004 16:44
Wohnort: Hennef

Beitragvon larsneo » 07.04.2005 12:13

[...]das funktioniert doch nicht oder ?

laut google faq sollte die syntax korrekt sein:
12. Wie veranlasse ich Googlebot, dynamisch erstellte Seiten auf meiner Site nicht zu durchlaufen?

Dies kann mithilfe der folgenden robots.txt-Datei erreicht werden.

User-agent: Googlebot
Disallow: /*?


Deine Ergebnisse sind nämlich sehr stark hochgeschossen und doppelter content ist auch wieder gut dabei:

der doppelte content war immer dabei - die robots.txt hilft *ganz* langsam, das ganze einzuschränken. bei über 400.000 fundstellen allerdings ein wohl ein recht zeitaufwendiges ansinnen :roll:

Das Minus kann an dieser Stelle doch weg:

kann weg, muss aber nicht ;-)
gruesse aus dem wilden sueden
larsneo
..::[cms-sicherheit]::..
Benutzeravatar
larsneo
Valued Contributor
 
Beiträge: 2613
Registriert: 07.03.2002 16:23
Wohnort: schwäbisch gmünd

Beitragvon mgutt » 07.04.2005 14:37

12. Wie veranlasse ich Googlebot, dynamisch erstellte Seiten auf meiner Site nicht zu durchlaufen?

Dies kann mithilfe der folgenden robots.txt-Datei erreicht werden.

User-agent: Googlebot
Disallow: /*?


Scheint aber trotzdem bei Dir nicht zu gehen, weil nach einem Durchlauf wird der "Müll" ja normalerweise gekickt.

Auch hätten doch die einen Beiträge gar nicht gelisten werden dürfen. Oder hast du die robots.txt erst später gemacht?

Ich werde das jetzt mal testen und Rückmeldung geben.

Hast du mal den direkten Befehl versucht?

Ihre Robots.txt Google zum Abarbeiten ausliefern:

http://services.google.com/urlconsole/controller

EDIT:

Die Meldung von Google:

Ihre URL oder Google Groups-Mitteilungen löschen


URLs dürfen keine Platzhalter enthalten (z.B. „*“). Die folgende Zeile enthält einen Platzhalter:
DISALLOW /*?


Ziemlich widersprüchlich was Google da erzählt :roll:


Ich habe meine jetzt einfach mal so gemacht und warte mal ab was passiert ;)

Code: Alles auswählen
User-agent: Googlebot
Disallow: /*?
Disallow: /*sid$
Disallow: /*sid
Disallow: / sid


Dir würde ich mal empfehlen den expliten Googlebefehl mal drunter zu machen und zu schauen ob es das bringt.
Zuletzt geändert von mgutt am 07.04.2005 15:04, insgesamt 1-mal geändert.
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Benutzeravatar
mgutt
Mitglied
 
Beiträge: 2999
Registriert: 31.08.2004 16:44
Wohnort: Hennef

Beitragvon larsneo » 07.04.2005 15:02

Hast du mal den direkten Befehl versucht?

derzeit probiere ich ehrlich gesagt bei google nahezu nichts (da es mit ziemlicher sicherheit eh' nicht funktioniert)...
wenn ich mir dazu dann noch anschaue, was die google-api derzeit zurückliefert, glaube ich an eine ziemlich grosse renovierung bei big-g

die wildcard-selektion gegen die indizierung dynamischer inhalte funktioniert aber imho: *klick*
gruesse aus dem wilden sueden
larsneo
..::[cms-sicherheit]::..
Benutzeravatar
larsneo
Valued Contributor
 
Beiträge: 2613
Registriert: 07.03.2002 16:23
Wohnort: schwäbisch gmünd

Beitragvon mgutt » 07.04.2005 17:23

larsneo hat geschrieben:die wildcard-selektion gegen die indizierung dynamischer inhalte funktioniert aber imho: *klick*


glaube ich nicht :wink:

ich glaube eher, dass diese links uralt sind, weil du ja bis heute keinen dieser links irgendwo bei dir noch verlinkt hast. und wenn wären es ja viel mehr.
meine Foren: http://www.maxrev.de/communities.htm
Ich kaufe Dein Forum! Angebote bitte an marc at gutt punkt it
Benutzeravatar
mgutt
Mitglied
 
Beiträge: 2999
Registriert: 31.08.2004 16:44
Wohnort: Hennef

Beitragvon larsneo » 07.04.2005 17:35

neue dynamische adressen gibt's ja dank short urls reloaded nirgendwo mehr und über die robots.txt sollen nur die alten leichen weggeräumt werden...
anyway: die google-faq sagt es wäre ok, dann soll google das irgendwann auch hoffentlich korrekt unterstützen...
gruesse aus dem wilden sueden
larsneo
..::[cms-sicherheit]::..
Benutzeravatar
larsneo
Valued Contributor
 
Beiträge: 2613
Registriert: 07.03.2002 16:23
Wohnort: schwäbisch gmünd

Beitragvon JG » 27.04.2005 18:32

Hallo,
beim Check von meiner Robots.txt hat es mir das hier angezeigt
Disallow: /*?
The "*" wildchar in file names is not supported by (all) the user-agents addressed by this block of code. You should use the wildchar "*" in a block of code exclusively addressed to spiders that support the wildchar (Eg. Googlebot).

Warum das?
JG
Mitglied
 
Beiträge: 615
Registriert: 12.01.2005 16:19

Beitragvon Dominik Müller » 01.06.2005 12:17

Ist meine robots.txt so OK oder sollte ich noch was verändern bzw. ergänzen?

Code: Alles auswählen
User-agent: *
Disallow: /admin/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /config.php
Disallow: /profile.php
Disallow: /groupcp.php
Disallow: /memberlist.php 
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /viewonline.php
Disallow: /faq.php
Disallow: /blocks/
Disallow: /mods/
Disallow: login.php
Disallow: rating.php


Grüße
Dominik
Benutzeravatar
Dominik Müller
Mitglied
 
Beiträge: 494
Registriert: 08.08.2004 19:04
Wohnort: Siegbach

Beitragvon larsneo » 01.06.2005 14:43

Ist meine robots.txt so OK oder sollte ich noch was verändern bzw. ergänzen?

das hängt immer davon ab, was du erreichen willst - mein vordringliches ziel beispielsweise ist gerade die anzahl der google suchergebnisse zu reduzieren (um doppelten content zu vermeiden).
merke: über die robots.txt sorgst du nahezu nie für eine bessere indizierung von seiten, höchstens für eine bessere bewertung ;-)
gruesse aus dem wilden sueden
larsneo
..::[cms-sicherheit]::..
Benutzeravatar
larsneo
Valued Contributor
 
Beiträge: 2613
Registriert: 07.03.2002 16:23
Wohnort: schwäbisch gmünd

Nächste

Zurück zu phpBB 2.0: Mods in Entwicklung

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 0 Gäste