Ein Forum vor Spidern schützen

In diesem moderierten Forum werden Code-Schnipsel, die zu klein sind, um richtige Mods zu sein, abgelegt.
Bei Fragen oder Problemen benutze bitte das Forum phpBB 2.0: Mod Support.
Forumsregeln
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.0, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
Antworten
Benutzeravatar
itst
Ehrenadmin
Beiträge: 7418
Registriert: 21.08.2001 02:00
Wohnort: Büttelborn bei Darmstadt
Kontaktdaten:

Ein Forum vor Spidern schützen

Beitrag von itst »

Was ist ein Spider? Ein Spider ist ein Programm, das ganze Websites absurft und die Inhalte speichert. Die meisten Spider füttern auf diese Art und Weise Suchmaschinen wie Google, Yahoo, Lycos usw. Weitere Spider dienen als Downloadmaschinen für Offline Reader wie Teleport Pro, mit denen man ganze Webistes runterladen und dann ohne Internetverbindung nutzen kann.

Mittels der Datei robots.txt kann man Dateien und Verzeichnisse vor Spidern schützen. Damit spart man zum einen Traffic und Serverlast, zum anderen verhindert man, das bestimmte Inhalte suchbar gemacht werden.

Vorsicht: Die Datei robots.txt kann man nur dann nutzen, wenn sie im Hauptverzeichnis einer Domain liegt. Eine robots.txt in einem Verzeichnis wird von Spidern nicht wahrgenommen.

Beispiele:
Gültig: http://www.phpbb.de/robots.txt
Gültig: http://subdomain.phpbb.de/robots.txt
Ungültig: http://www.phpbb.de/verzeichnis/robots.txt
Ungültig: http://subdomain.phpbb.de/verzeichnis/robots.txt

Hier nun die robots.txt von phpBB.de:

Code: Alles auswählen

User-agent: *
Disallow: /login.php
Disallow: /area51/*
Disallow: /statistics.php
Disallow: /admin/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /config.php
Disallow: /profile.php
Disallow: /groupcp.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /viewonline.php
Disallow: /faq.php
Disallow: /ptopic*.html$
Disallow: /ntopic*.html$
Disallow: /ftopic*asc*.html$
Die letzten drei Einträge benötigt man nur, wenn man Short-URLs benutzt.

Diese robots.txt sorgt dafür, das Spider die gelisteten Dateien und Verzeichnisse beim Herunterladen überspringen.

Verzeichnisse und die robots.txt: Sperrt man ein Verzeichnis, sind automatisch alle Dateien und alle weiteren Verzeichnisse, die darin oder darunter liegen, ebenfalls gesperrt.

Weitere Informationen zur robots.txt findet man auf der robots.txt-Homepage.
Sascha A. Carlin,
phpBB.de Ehrenadministrator
:o
Antworten

Zurück zu „phpBB 2.0: Snippets“