Short URLs für phpBB2 (reloaded / robots.txt)
Verfasst: 28.03.2005 13:04
Die robots.txt ist eine einfache Textdatei die im Root der Webpräsenz abgelegt wird. Ziel der Konfigurationsdatei ist es, Suchmaschinenrobotern bzw. -spidern Instruktionen zu geben, welche Inhalt der Seite nicht indiziert werden sollen. Gerade in Verbindung mit den Short URL Modifikationen (*klick* und *klack*) hat man damit eine gute Möglichkeit in der Hand, die Indizierung der Suchmaschinen zu beeinflussen und doppelten Content zu vermeiden.
Man sollte die robots.txt dabei als eine Art Vorschlagsliste ansehen - mit ihr kann man Suchmaschinen anweisen, bestimmte Inhalte nicht in den Index aufzunehmen - den Zugriff auf diese Seiten unterbindet man nicht. Sollen bestimmte Inhalte tatsächlich nicht für Bots zugreifbar sein, muss man andere Wege (z.b. via .htaccess etc) benutzen.
Während die normale Syntax für die robots.txt noch recht einfach ist und sich immer nach dem Schema
ausrichtet, sorgen suchmaschinenspezifische Erweiterungen oftmals für Verständnisprobleme.
Die wichtigsten Regeln von daher noch einmal zusammengefasst:
- Disallow-Regeln sollten immer mit einem führenden Slash beginnen
- Endet der Name mit einem Slash gilt die Regel nur für das entsprechende Verzeichnis, ansonsten für alle Dateien/Verzeichnisse mit einem entsprechenden Anfang
- Wildcard-Selektionen (*) werden nur von googlebot unterstützt (siehe auch Dynamische Seiten nicht indizieren)
- crawl-delay wird nur von msnbot und Slurp unterstützt (siehe auch Bots einzähmen)
Um sicherzustellen, dass die Syntax der robots.txt korrekt ist, empfiehlt es sich, mit einem Prüfprogramm zu validieren.
Bei nubert-forum.de nutze ich folgende robots.txt und erziele damit ganz ansehnliche Ergebnisse (in verbindung mit dem reloaded mod):
Man sollte die robots.txt dabei als eine Art Vorschlagsliste ansehen - mit ihr kann man Suchmaschinen anweisen, bestimmte Inhalte nicht in den Index aufzunehmen - den Zugriff auf diese Seiten unterbindet man nicht. Sollen bestimmte Inhalte tatsächlich nicht für Bots zugreifbar sein, muss man andere Wege (z.b. via .htaccess etc) benutzen.
Während die normale Syntax für die robots.txt noch recht einfach ist und sich immer nach dem Schema
Code: Alles auswählen
Useragent: x
Disallow: /y
Die wichtigsten Regeln von daher noch einmal zusammengefasst:
- Disallow-Regeln sollten immer mit einem führenden Slash beginnen
- Endet der Name mit einem Slash gilt die Regel nur für das entsprechende Verzeichnis, ansonsten für alle Dateien/Verzeichnisse mit einem entsprechenden Anfang
- Wildcard-Selektionen (*) werden nur von googlebot unterstützt (siehe auch Dynamische Seiten nicht indizieren)
- crawl-delay wird nur von msnbot und Slurp unterstützt (siehe auch Bots einzähmen)
Um sicherzustellen, dass die Syntax der robots.txt korrekt ist, empfiehlt es sich, mit einem Prüfprogramm zu validieren.
Bei nubert-forum.de nutze ich folgende robots.txt und erziele damit ganz ansehnliche Ergebnisse (in verbindung mit dem reloaded mod):
Code: Alles auswählen
User-agent: msnbot
Crawl-Delay: 10
User-agent: Slurp
Crawl-Delay: 10
User-agent: Googlebot
Disallow: /*?
User-agent: *
Disallow: /nuforum/admin/
Disallow: /nuforum/album_mod/
Disallow: /nuforum/cache/
Disallow: /nuforum/db/
Disallow: /nuforum/docs/
Disallow: /nuforum/images/
Disallow: /nuforum/includes/
Disallow: /nuforum/language/
Disallow: /nuforum/mods/
Disallow: /nuforum/templates/
Disallow: /nuforum/xs_mod/
Disallow: /nuforum/album
Disallow: /nuforum/common
Disallow: /nuforum/extension
Disallow: /nuforum/faq
Disallow: /nuforum/groupcp
Disallow: /nuforum/login
Disallow: /nuforum/map
Disallow: /nuforum/memberlist
Disallow: /nuforum/modcp
Disallow: /nuforum/posting
Disallow: /nuforum/privmsg
Disallow: /nuforum/profile
Disallow: /nuforum/rating
Disallow: /nuforum/report
Disallow: /nuforum/search
Disallow: /nuforum/fpost
Disallow: /nuforum/ptopic
Disallow: /nuforum/ntopic
Disallow: /nuforum/post-