Was treibt die Suchmaschine so lange auf dem Board?

Projekte der phpBB.de-Community und Feedback zu phpBB.de.
Benutzeravatar
Leuchte
Ehemaliges Teammitglied
Beiträge: 9179
Registriert: 26.05.2003 14:57
Wohnort: Duisburg
Kontaktdaten:

Beitrag von Leuchte »

larsneo hat geschrieben:die guten Bots ala Google und Co. werden davon nicht tangiert
Benutzeravatar
AmigaLink
Mitglied
Beiträge: 1417
Registriert: 09.06.2003 21:56
Wohnort: NRW
Kontaktdaten:

Beitrag von AmigaLink »

Leuchte hat geschrieben:
larsneo hat geschrieben:die guten Bots ala Google und Co. werden davon nicht tangiert
Das hab ich gesehen. :)
Somit ändert diese .htacces nicht wirlklich etwas an unserem Problem!
Etweder wir nehmen Google und Co. mit in die Liste und sperren sie somit aus. Oder wir lassen es und Google tobt sich weiterhin munter aus!
Benutzeravatar
rcbcom
Mitglied
Beiträge: 787
Registriert: 17.06.2003 02:28
Wohnort: Im Netz
Kontaktdaten:

Beitrag von rcbcom »

Wenn ihr Probleme mit Suchmaschinen habt dann erstelt doch einfach ein robots.txt im root _verzeichnis.

Also so:
Ein Blick in Ihre Logfiles (und Statistiken) wird Ihnen offenbaren, dass die Datei "robots.txt" sehr oft gesucht und (wahrscheinlich) nicht gefunden wurde. Nur, wer sucht da so stur nach einer nicht vorhandenen Datei? Die Antwort liegt bereits im Namen: Robots.
Robots sind Programme, die von Suchmaschinen auf den Weg geschickt werden, um die unendlichen Weiten des Web zu indizieren. Stösst ein Robot nun auf Ihre Seite, folgt er allen Links, die er dort findet.

Das ist fein, manchmal aber nicht immer gewünscht: bestimmte Bereiche Ihrer Seite sollen vielleicht nicht mit indiziert werden. Dies lässt sich durch die Datei "robots.txt" steuern. Diese wird mit einem einfachen Texteditor erstellt, und im Hauptverzeichnis abgelegt. Wenn nun ein Robot auf Ihre Seite stösst, sucht er zuerst nach der Datei "robots.txt" - wird er fündig, hält er sich an die Vorgaben, die er dort findet.

Der Aufbau der Datei ist relativ simpel. Sie beginnt immer mit der Zeile:

User-agent: Name

Hiermit wird festgelegt, welcher Robot sich an die Vorgaben halten soll. So können Sie nur einzelne Suchmaschinen anweisen, Ihren Anweisungen zu folgen. Dafür müssen Sie nur den Namen des Robots angeben, und für jeden eine eigene Zeilen einfügen, also z.B. :

User-agent: Google
User-agent: Scooter

Wenn Sie möchten, dass sich alle Robots daran halten, verwenden Sie eine Wildcard:

User-agent: *

Allow / Disallow

Hiermit wird festgelegt, welche Verzeichnisse von den Robots ignoriert werden sollen, bzw. indiziert werden dürfen. Als Beispiel:

Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test.html

Diese Angaben verhindern also, dass die Verzeichnisse "cgi-bin", "logs" und die Datei "test.html", die sich im Hauptverzeichnis befindet, indiziert werden. "Allow" funktioniert ebenfalls so, nur umgekehrt... ;-)

Damit sieht unsere Beispiel "robots.txt" also so aus:

User-agent: *
Disallow: /cgi-bin/
Disallow: /logs/
Disallow: /test.html
Benutzeravatar
AmigaLink
Mitglied
Beiträge: 1417
Registriert: 09.06.2003 21:56
Wohnort: NRW
Kontaktdaten:

Beitrag von AmigaLink »

Eine robots.txt habe ich. Aber offenbar wird sie von Google und msn (genau wie die Meta-Tags) ignoriert. :o
Benutzeravatar
itst
Ehrenadmin
Beiträge: 7418
Registriert: 21.08.2001 02:00
Wohnort: Büttelborn bei Darmstadt
Kontaktdaten:

Beitrag von itst »

Nein, sowohl Google als auch MSN beachten die robots.txt und die Meta-Tags. Wie sieht denn Deine robots.txt aus?
Sascha A. Carlin,
phpBB.de Ehrenadministrator
:o
Jensemann
Ehemaliges Teammitglied
Beiträge: 2549
Registriert: 25.02.2002 01:00

Beitrag von Jensemann »

Wenn sich Google zu munter austobt (Traffic oder Last zuhoch), kann man sich auch durchaus an Google wenden, die sind da hilfsbereit und beheben das Problem meist innerhalb von 1-2 Werktagen.
Benutzeravatar
AmigaLink
Mitglied
Beiträge: 1417
Registriert: 09.06.2003 21:56
Wohnort: NRW
Kontaktdaten:

Beitrag von AmigaLink »

@jensemann
Gut zu wissen, werde ich mal schaun.

@itst
robots.txt:

Code: Alles auswählen

User-agent: * 
Disallow: /admin/ 
Disallow: /images/ 
Disallow: /includes/ 
Disallow: /templates/ 
Disallow: /blocks/ 
Disallow: /mods/ 
Disallow: /language/
Disallow: /portal_adds/ 
Diaallow: /cache/
meta:

Code: Alles auswählen

<META HTTP-EQUIV="CHARSET" CONTENT="ISO-8859-1"> 
<META HTTP-EQUIV="EXPIRES" CONTENT="Die, 1 Jul 2003 00:00:01 PST"> 
<META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="Deutsch"> 
<META HTTP-EQUIV="VW96.OBJECT TYPE" CONTENT="Homepage"> 
<META NAME="revisit-after" CONTENT="3 Days"> 
<META NAME="distribution" CONTENT="global"> 
<META NAME="rating" CONTENT="General"> 
<META NAME="audience" CONTENT="All"> 
<META NAME="robots" CONTENT="PORTAL,FOLLOW">
Also das revisit-after wird in letzter Zeit ganz klar von Google und msn missachtet!!!
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

Nein, sowohl Google als auch MSN beachten die robots.txt und die Meta-Tags.
jein - während das für google sicherlich zutrifft habe ich mit dem msnbot - zumindestens in seiner anfangsphase - in bezug auf die robots.txt andere erfahrungen gemacht - zu beginn wurde nur die erste zeile der robots.txt ausgewertet - und wenn die keinen ausschluss darstellte wurde munter gespidert. zwischenzeitlich _soll_ das zwar geändert sein, aber imho steht der traffic den der bot erzeugt in keinem verhältnis zu seinem nutzen :roll:
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
Wuppi
Mitglied
Beiträge: 732
Registriert: 14.05.2002 23:04
Wohnort: Köln
Kontaktdaten:

Beitrag von Wuppi »

Hi

mit MSN hab ich auch nen Problem - dat teil nervt - wenn der so oft wiederkommt, soll der sich gefälligst anmelden *G*

Für MSN kann man aber das Spider-Tempo etwas anpassen - gerade wer dicke Leitung am Server hat, dürfte nen Traffic-Problem bekommen....

http://www.abakus-internet-marketing.de ... ight-.html

Ein Eintrag für den MSN-Bot in die robots.txt - diesen Eintrag soll er wohl auch akzeptieren.

Inktomi ist bei mir ähnlich nervig - fast Dauerbesucher ... aber Traffic-Explosionen hab ich bisher nicht ...

Bis denne
Wuppi
Antworten

Zurück zu „Community Talk“