Short URLs für phpBB2 (reloaded / robots.txt)

larsneo · Beitrag von **larsneo** » 28.03.2005 13:04

Die robots.txt ist eine einfache Textdatei die im Root der Webpräsenz abgelegt wird. Ziel der Konfigurationsdatei ist es, Suchmaschinenrobotern bzw. -spidern Instruktionen zu geben, welche Inhalt der Seite nicht indiziert werden sollen. Gerade in Verbindung mit den Short URL Modifikationen (*klick* und *klack*) hat man damit eine gute Möglichkeit in der Hand, die Indizierung der Suchmaschinen zu beeinflussen und doppelten Content zu vermeiden.

Man sollte die robots.txt dabei als eine Art Vorschlagsliste ansehen - mit ihr kann man Suchmaschinen anweisen, bestimmte Inhalte nicht in den Index aufzunehmen - den Zugriff auf diese Seiten unterbindet man nicht. Sollen bestimmte Inhalte tatsächlich nicht für Bots zugreifbar sein, muss man andere Wege (z.b. via .htaccess etc) benutzen.

Während die normale Syntax für die robots.txt noch recht einfach ist und sich immer nach dem Schema

Code: Alles auswählen

Useragent: x
Disallow: /y

ausrichtet, sorgen suchmaschinenspezifische Erweiterungen oftmals für Verständnisprobleme.

Die wichtigsten Regeln von daher noch einmal zusammengefasst:
- Disallow-Regeln sollten immer mit einem führenden Slash beginnen
- Endet der Name mit einem Slash gilt die Regel nur für das entsprechende Verzeichnis, ansonsten für alle Dateien/Verzeichnisse mit einem entsprechenden Anfang
- Wildcard-Selektionen (*) werden nur von googlebot unterstützt (siehe auch Dynamische Seiten nicht indizieren)
- crawl-delay wird nur von msnbot und Slurp unterstützt (siehe auch Bots einzähmen)

Um sicherzustellen, dass die Syntax der robots.txt korrekt ist, empfiehlt es sich, mit einem Prüfprogramm zu validieren.

Bei nubert-forum.de nutze ich folgende robots.txt und erziele damit ganz ansehnliche Ergebnisse (in verbindung mit dem reloaded mod):

Code: Alles auswählen

User-agent: msnbot
Crawl-Delay: 10

User-agent: Slurp
Crawl-Delay: 10

User-agent: Googlebot
Disallow: /*?

User-agent: * 
Disallow: /nuforum/admin/ 
Disallow: /nuforum/album_mod/
Disallow: /nuforum/cache/
Disallow: /nuforum/db/ 
Disallow: /nuforum/docs/
Disallow: /nuforum/images/ 
Disallow: /nuforum/includes/ 
Disallow: /nuforum/language/ 
Disallow: /nuforum/mods/
Disallow: /nuforum/templates/ 
Disallow: /nuforum/xs_mod/
Disallow: /nuforum/album
Disallow: /nuforum/common
Disallow: /nuforum/extension
Disallow: /nuforum/faq
Disallow: /nuforum/groupcp
Disallow: /nuforum/login
Disallow: /nuforum/map
Disallow: /nuforum/memberlist
Disallow: /nuforum/modcp
Disallow: /nuforum/posting
Disallow: /nuforum/privmsg
Disallow: /nuforum/profile
Disallow: /nuforum/rating
Disallow: /nuforum/report
Disallow: /nuforum/search
Disallow: /nuforum/fpost
Disallow: /nuforum/ptopic
Disallow: /nuforum/ntopic
Disallow: /nuforum/post-

mgutt · Beitrag von **mgutt** » 07.04.2005 11:40

Code: Alles auswählen
User-agent: Googlebot 
Disallow: /*? 

das funktioniert doch nicht oder ?

ich habe das mal so probiert:

Code: Alles auswählen

User-agent: Googlebot 
Disallow: /*sid

funktioniert aber auch nicht

Das Minus kann an dieser Stelle doch weg:

Code: Alles auswählen
Disallow: /nuforum/post-

ich habe das Gefühl, dass der Googlebot bei Dir nicht mehr richtig listet, weil du den Googlebot oben schon mit dem Platzhalterbefehl irritierst.

Deine Ergebnisse sind nämlich sehr stark hochgeschossen und doppelter content ist auch wieder gut dabei:

http://www.google.de/search?q=Die+Nuber ... y&filter=0

meinen befehl hatte ich unter den rest geschrieben und gehofft das er da noch gelesen wird

larsneo · Beitrag von **larsneo** » 07.04.2005 12:13

[...]das funktioniert doch nicht oder ?

laut google faq sollte die syntax korrekt sein:

12. Wie veranlasse ich Googlebot, dynamisch erstellte Seiten auf meiner Site nicht zu durchlaufen?

Dies kann mithilfe der folgenden robots.txt-Datei erreicht werden.

User-agent: Googlebot
Disallow: /*?

Deine Ergebnisse sind nämlich sehr stark hochgeschossen und doppelter content ist auch wieder gut dabei:

der doppelte content war immer dabei - die robots.txt hilft *ganz* langsam, das ganze einzuschränken. bei über 400.000 fundstellen allerdings ein wohl ein recht zeitaufwendiges ansinnen

Das Minus kann an dieser Stelle doch weg:

kann weg, muss aber nicht

mgutt · Beitrag von **mgutt** » 07.04.2005 14:37

12. Wie veranlasse ich Googlebot, dynamisch erstellte Seiten auf meiner Site nicht zu durchlaufen?

Dies kann mithilfe der folgenden robots.txt-Datei erreicht werden.

User-agent: Googlebot
Disallow: /*?

Scheint aber trotzdem bei Dir nicht zu gehen, weil nach einem Durchlauf wird der "Müll" ja normalerweise gekickt.

Auch hätten doch die einen Beiträge gar nicht gelisten werden dürfen. Oder hast du die robots.txt erst später gemacht?

Ich werde das jetzt mal testen und Rückmeldung geben.

Hast du mal den direkten Befehl versucht?

Ihre Robots.txt Google zum Abarbeiten ausliefern:

http://services.google.com/urlconsole/controller

EDIT:

Die Meldung von Google:

Ihre URL oder Google Groups-Mitteilungen löschen

URLs dürfen keine Platzhalter enthalten (z.B. „*“). Die folgende Zeile enthält einen Platzhalter:
DISALLOW /*?

Ziemlich widersprüchlich was Google da erzählt

Ich habe meine jetzt einfach mal so gemacht und warte mal ab was passiert

Code: Alles auswählen

User-agent: Googlebot 
Disallow: /*?
Disallow: /*sid$
Disallow: /*sid
Disallow: / sid

Dir würde ich mal empfehlen den expliten Googlebefehl mal drunter zu machen und zu schauen ob es das bringt.

larsneo · Beitrag von **larsneo** » 07.04.2005 15:02

Hast du mal den direkten Befehl versucht?

derzeit probiere ich ehrlich gesagt bei google nahezu nichts (da es mit ziemlicher sicherheit eh' nicht funktioniert)...
wenn ich mir dazu dann noch anschaue, was die google-api derzeit zurückliefert, glaube ich an eine ziemlich grosse renovierung bei big-g

die wildcard-selektion gegen die indizierung dynamischer inhalte funktioniert aber imho: *klick*

mgutt · Beitrag von **mgutt** » 07.04.2005 17:23

larsneo hat geschrieben:die wildcard-selektion gegen die indizierung dynamischer inhalte funktioniert aber imho: *klick*

glaube ich nicht

ich glaube eher, dass diese links uralt sind, weil du ja bis heute keinen dieser links irgendwo bei dir noch verlinkt hast. und wenn wären es ja viel mehr.

larsneo · Beitrag von **larsneo** » 07.04.2005 17:35

neue dynamische adressen gibt's ja dank short urls reloaded nirgendwo mehr und über die robots.txt sollen nur die alten leichen weggeräumt werden...
anyway: die google-faq sagt es wäre ok, dann soll google das irgendwann auch hoffentlich korrekt unterstützen...

Gast210225 · Beitrag von **Gast210225** » 27.04.2005 18:32

Hallo,
beim Check von meiner Robots.txt hat es mir das hier angezeigt

Disallow: /*?
The "*" wildchar in file names is not supported by (all) the user-agents addressed by this block of code. You should use the wildchar "*" in a block of code exclusively addressed to spiders that support the wildchar (Eg. Googlebot).

Warum das?

Dominik Müller · Beitrag von **Dominik Müller** » 01.06.2005 12:17

Ist meine robots.txt so OK oder sollte ich noch was verändern bzw. ergänzen?

Code: Alles auswählen

User-agent: * 
Disallow: /admin/ 
Disallow: /db/ 
Disallow: /images/ 
Disallow: /includes/ 
Disallow: /language/ 
Disallow: /templates/ 
Disallow: /config.php 
Disallow: /profile.php 
Disallow: /groupcp.php 
Disallow: /memberlist.php  
Disallow: /modcp.php 
Disallow: /posting.php 
Disallow: /privmsg.php 
Disallow: /viewonline.php 
Disallow: /faq.php 
Disallow: /blocks/
Disallow: /mods/
Disallow: login.php
Disallow: rating.php

Grüße
Dominik

larsneo · Beitrag von **larsneo** » 01.06.2005 14:43

Ist meine robots.txt so OK oder sollte ich noch was verändern bzw. ergänzen?

das hängt immer davon ab, was du erreichen willst - mein vordringliches ziel beispielsweise ist gerade die anzahl der google suchergebnisse zu reduzieren (um doppelten content zu vermeiden).
merke: über die robots.txt sorgst du nahezu nie für eine bessere indizierung von seiten, höchstens für eine bessere bewertung