larsneo hat geschrieben:die guten Bots ala Google und Co. werden davon nicht tangiert
Was treibt die Suchmaschine so lange auf dem Board?
Das hab ich gesehen.Leuchte hat geschrieben:larsneo hat geschrieben:die guten Bots ala Google und Co. werden davon nicht tangiert

Somit ändert diese .htacces nicht wirlklich etwas an unserem Problem!
Etweder wir nehmen Google und Co. mit in die Liste und sperren sie somit aus. Oder wir lassen es und Google tobt sich weiterhin munter aus!
Wenn ihr Probleme mit Suchmaschinen habt dann erstelt doch einfach ein robots.txt im root _verzeichnis.
Also so:
Also so:
Ein Blick in Ihre Logfiles (und Statistiken) wird Ihnen offenbaren, dass die Datei "robots.txt" sehr oft gesucht und (wahrscheinlich) nicht gefunden wurde. Nur, wer sucht da so stur nach einer nicht vorhandenen Datei? Die Antwort liegt bereits im Namen: Robots.
Robots sind Programme, die von Suchmaschinen auf den Weg geschickt werden, um die unendlichen Weiten des Web zu indizieren. Stösst ein Robot nun auf Ihre Seite, folgt er allen Links, die er dort findet.
Das ist fein, manchmal aber nicht immer gewünscht: bestimmte Bereiche Ihrer Seite sollen vielleicht nicht mit indiziert werden. Dies lässt sich durch die Datei "robots.txt" steuern. Diese wird mit einem einfachen Texteditor erstellt, und im Hauptverzeichnis abgelegt. Wenn nun ein Robot auf Ihre Seite stösst, sucht er zuerst nach der Datei "robots.txt" - wird er fündig, hält er sich an die Vorgaben, die er dort findet.
Der Aufbau der Datei ist relativ simpel. Sie beginnt immer mit der Zeile:
User-agent: Name
Hiermit wird festgelegt, welcher Robot sich an die Vorgaben halten soll. So können Sie nur einzelne Suchmaschinen anweisen, Ihren Anweisungen zu folgen. Dafür müssen Sie nur den Namen des Robots angeben, und für jeden eine eigene Zeilen einfügen, also z.B. :
User-agent: Google
User-agent: Scooter
Wenn Sie möchten, dass sich alle Robots daran halten, verwenden Sie eine Wildcard:
User-agent: *
Allow / Disallow
Hiermit wird festgelegt, welche Verzeichnisse von den Robots ignoriert werden sollen, bzw. indiziert werden dürfen. Als Beispiel:
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test.html
Diese Angaben verhindern also, dass die Verzeichnisse "cgi-bin", "logs" und die Datei "test.html", die sich im Hauptverzeichnis befindet, indiziert werden. "Allow" funktioniert ebenfalls so, nur umgekehrt...
Damit sieht unsere Beispiel "robots.txt" also so aus:
User-agent: *
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test.html
@jensemann
Gut zu wissen, werde ich mal schaun.
@itst
robots.txt:
meta:
Also das revisit-after wird in letzter Zeit ganz klar von Google und msn missachtet!!!
Gut zu wissen, werde ich mal schaun.
@itst
robots.txt:
Code: Alles auswählen
User-agent: *
Disallow: /admin/
Disallow: /images/
Disallow: /includes/
Disallow: /templates/
Disallow: /blocks/
Disallow: /mods/
Disallow: /language/
Disallow: /portal_adds/
Diaallow: /cache/
Code: Alles auswählen
<META HTTP-EQUIV="CHARSET" CONTENT="ISO-8859-1">
<META HTTP-EQUIV="EXPIRES" CONTENT="Die, 1 Jul 2003 00:00:01 PST">
<META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="Deutsch">
<META HTTP-EQUIV="VW96.OBJECT TYPE" CONTENT="Homepage">
<META NAME="revisit-after" CONTENT="3 Days">
<META NAME="distribution" CONTENT="global">
<META NAME="rating" CONTENT="General">
<META NAME="audience" CONTENT="All">
<META NAME="robots" CONTENT="PORTAL,FOLLOW">
- larsneo
- Mitglied
- Beiträge: 2622
- Registriert: 07.03.2002 15:23
- Wohnort: schwäbisch gmünd
- Kontaktdaten:
jein - während das für google sicherlich zutrifft habe ich mit dem msnbot - zumindestens in seiner anfangsphase - in bezug auf die robots.txt andere erfahrungen gemacht - zu beginn wurde nur die erste zeile der robots.txt ausgewertet - und wenn die keinen ausschluss darstellte wurde munter gespidert. zwischenzeitlich _soll_ das zwar geändert sein, aber imho steht der traffic den der bot erzeugt in keinem verhältnis zu seinem nutzenNein, sowohl Google als auch MSN beachten die robots.txt und die Meta-Tags.

Hi
mit MSN hab ich auch nen Problem - dat teil nervt - wenn der so oft wiederkommt, soll der sich gefälligst anmelden *G*
Für MSN kann man aber das Spider-Tempo etwas anpassen - gerade wer dicke Leitung am Server hat, dürfte nen Traffic-Problem bekommen....
http://www.abakus-internet-marketing.de ... ight-.html
Ein Eintrag für den MSN-Bot in die robots.txt - diesen Eintrag soll er wohl auch akzeptieren.
Inktomi ist bei mir ähnlich nervig - fast Dauerbesucher ... aber Traffic-Explosionen hab ich bisher nicht ...
Bis denne
Wuppi
mit MSN hab ich auch nen Problem - dat teil nervt - wenn der so oft wiederkommt, soll der sich gefälligst anmelden *G*
Für MSN kann man aber das Spider-Tempo etwas anpassen - gerade wer dicke Leitung am Server hat, dürfte nen Traffic-Problem bekommen....
http://www.abakus-internet-marketing.de ... ight-.html
Ein Eintrag für den MSN-Bot in die robots.txt - diesen Eintrag soll er wohl auch akzeptieren.
Inktomi ist bei mir ähnlich nervig - fast Dauerbesucher ... aber Traffic-Explosionen hab ich bisher nicht ...
Bis denne
Wuppi