Was treibt die Suchmaschine so lange auf dem Board?

Beitrag von **Leuchte** » 08.06.2004 14:41

larsneo hat geschrieben:die guten Bots ala Google und Co. werden davon nicht tangiert

AmigaLink · Beitrag von **AmigaLink** » 08.06.2004 17:05

Leuchte hat geschrieben:
larsneo hat geschrieben:die guten Bots ala Google und Co. werden davon nicht tangiert

Das hab ich gesehen.

Somit ändert diese .htacces nicht wirlklich etwas an unserem Problem!
Etweder wir nehmen Google und Co. mit in die Liste und sperren sie somit aus. Oder wir lassen es und Google tobt sich weiterhin munter aus!

rcbcom · Beitrag von **rcbcom** » 09.06.2004 00:51

Wenn ihr Probleme mit Suchmaschinen habt dann erstelt doch einfach ein robots.txt im root _verzeichnis.

Also so:

Ein Blick in Ihre Logfiles (und Statistiken) wird Ihnen offenbaren, dass die Datei "robots.txt" sehr oft gesucht und (wahrscheinlich) nicht gefunden wurde. Nur, wer sucht da so stur nach einer nicht vorhandenen Datei? Die Antwort liegt bereits im Namen: Robots.
Robots sind Programme, die von Suchmaschinen auf den Weg geschickt werden, um die unendlichen Weiten des Web zu indizieren. Stösst ein Robot nun auf Ihre Seite, folgt er allen Links, die er dort findet.

Das ist fein, manchmal aber nicht immer gewünscht: bestimmte Bereiche Ihrer Seite sollen vielleicht nicht mit indiziert werden. Dies lässt sich durch die Datei "robots.txt" steuern. Diese wird mit einem einfachen Texteditor erstellt, und im Hauptverzeichnis abgelegt. Wenn nun ein Robot auf Ihre Seite stösst, sucht er zuerst nach der Datei "robots.txt" - wird er fündig, hält er sich an die Vorgaben, die er dort findet.

Der Aufbau der Datei ist relativ simpel. Sie beginnt immer mit der Zeile:

User-agent: Name

Hiermit wird festgelegt, welcher Robot sich an die Vorgaben halten soll. So können Sie nur einzelne Suchmaschinen anweisen, Ihren Anweisungen zu folgen. Dafür müssen Sie nur den Namen des Robots angeben, und für jeden eine eigene Zeilen einfügen, also z.B. :

User-agent: Google
User-agent: Scooter

Wenn Sie möchten, dass sich alle Robots daran halten, verwenden Sie eine Wildcard:

User-agent: *

Allow / Disallow

Hiermit wird festgelegt, welche Verzeichnisse von den Robots ignoriert werden sollen, bzw. indiziert werden dürfen. Als Beispiel:

Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test.html

Diese Angaben verhindern also, dass die Verzeichnisse "cgi-bin", "logs" und die Datei "test.html", die sich im Hauptverzeichnis befindet, indiziert werden. "Allow" funktioniert ebenfalls so, nur umgekehrt...

Damit sieht unsere Beispiel "robots.txt" also so aus:

User-agent: *
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test.html

AmigaLink · Beitrag von **AmigaLink** » 09.06.2004 01:36

Eine robots.txt habe ich. Aber offenbar wird sie von Google und msn (genau wie die Meta-Tags) ignoriert.

Beitrag von **itst** » 09.06.2004 02:09

Nein, sowohl Google als auch MSN beachten die robots.txt und die Meta-Tags. Wie sieht denn Deine robots.txt aus?

Beitrag von **Jensemann** » 09.06.2004 07:46

Wenn sich Google zu munter austobt (Traffic oder Last zuhoch), kann man sich auch durchaus an Google wenden, die sind da hilfsbereit und beheben das Problem meist innerhalb von 1-2 Werktagen.

AmigaLink · Beitrag von **AmigaLink** » 10.06.2004 21:36

@jensemann
Gut zu wissen, werde ich mal schaun.

@itst
robots.txt:

Code: Alles auswählen

User-agent: * 
Disallow: /admin/ 
Disallow: /images/ 
Disallow: /includes/ 
Disallow: /templates/ 
Disallow: /blocks/ 
Disallow: /mods/ 
Disallow: /language/
Disallow: /portal_adds/ 
Diaallow: /cache/

meta:

Code: Alles auswählen

<META HTTP-EQUIV="CHARSET" CONTENT="ISO-8859-1"> 
<META HTTP-EQUIV="EXPIRES" CONTENT="Die, 1 Jul 2003 00:00:01 PST"> 
<META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="Deutsch"> 
<META HTTP-EQUIV="VW96.OBJECT TYPE" CONTENT="Homepage"> 
<META NAME="revisit-after" CONTENT="3 Days"> 
<META NAME="distribution" CONTENT="global"> 
<META NAME="rating" CONTENT="General"> 
<META NAME="audience" CONTENT="All"> 
<META NAME="robots" CONTENT="PORTAL,FOLLOW">

Also das revisit-after wird in letzter Zeit ganz klar von Google und msn missachtet!!!

larsneo · Beitrag von **larsneo** » 11.06.2004 20:49

Nein, sowohl Google als auch MSN beachten die robots.txt und die Meta-Tags.

jein - während das für google sicherlich zutrifft habe ich mit dem msnbot - zumindestens in seiner anfangsphase - in bezug auf die robots.txt andere erfahrungen gemacht - zu beginn wurde nur die erste zeile der robots.txt ausgewertet - und wenn die keinen ausschluss darstellte wurde munter gespidert. zwischenzeitlich _soll_ das zwar geändert sein, aber imho steht der traffic den der bot erzeugt in keinem verhältnis zu seinem nutzen

Wuppi · Beitrag von **Wuppi** » 13.06.2004 08:34

Hi

mit MSN hab ich auch nen Problem - dat teil nervt - wenn der so oft wiederkommt, soll der sich gefälligst anmelden *G*

Für MSN kann man aber das Spider-Tempo etwas anpassen - gerade wer dicke Leitung am Server hat, dürfte nen Traffic-Problem bekommen....

http://www.abakus-internet-marketing.de ... ight-.html

Ein Eintrag für den MSN-Bot in die robots.txt - diesen Eintrag soll er wohl auch akzeptieren.

Inktomi ist bei mir ähnlich nervig - fast Dauerbesucher ... aber Traffic-Explosionen hab ich bisher nicht ...

Bis denne
Wuppi