robots.txt

Forenfan · Beitrag von **Forenfan** » 21.09.2007 11:02

Ich habe mir eine robots.txt erstellt jetzt schon zig Varianten ausprobiert.
Auch über das Webmaster Tool von Google aber komme zu keinem vernünftigem Ergebnis.

Mein gewünschter Effekt wäre ja das ich das Rootverzeichnis von meiner URL komplett ausschließe und auf das Archiv Verzeichnis verweise.
Jedoch geht das nicht ohne das ich meine komplette URL ausschließe.

Zur Zeit habe ich es so belassen:

User-agent: *
Allow: /archiv/
Disallow: /index.php?nav=posting
Disallow: /index.php?nav=pnbox
Disallow: /index.php?nav=edit
Disallow: /index.php?nav=userprofil
... usw.

Alle möglichen Links sind somit ausgeschlossen. Jeoch habe ich nun das Problem das google bzw. andere Suchmaschienen die index.php im Hauptverzeichnis abrufen gefolgt mit meiner uralten Session die schon lange nicht mehr existiert sieht etwa so aus URL/?session=e389274f9823570358 (ungefähr so)

Gibts da noch ne bessere Möglichkeit?
Habe mir schon gedacht robots direkt aufs Archiv umzuleiten aber die Idee werd ich wohl nur anwenden wenn ganix mehr hilft.

Ich habe es auch schon mit Wildcarts und Regulären Ausdrücken versucht.

speedtouch92 · Beitrag von **speedtouch92** » 21.09.2007 14:27

http://www.bjoernsworld.de/suchmaschinen/robots-txt.html hat geschrieben:Würde dazu führen, daß alle Urls die mit /index anfangen nicht indexiert werden, auch z.B. /index.html oder /indexed-files/datei.html statt einfach nur das Verzeichnis /index/, wohingegen bei Disallow: /temp/ wirklich nur die Dateien im Verzeichnis /temp/ ausgeschlossen werden.

Hast du das schon getestet?

Forenfan · Beitrag von **Forenfan** » 21.09.2007 16:01

bei /index habe ich das Problem das er der Link zum Archiv nicht mehr finden kann. Weil der sich ja auf der Index befindet. Und die Archivhauptseite ist auch eine Index.
Naja vielleicht bin ich einfach nur zu ungeduldig da ich gesehen habe das sich die Index vom Archiv schon im Google Cache befindet und das nach zwei Tagen. Nur macht es mich stutzig das google nicht dort weiter indexiert.

larsneo · Beitrag von **larsneo** » 21.09.2007 17:15

Dynamische Seiten nicht indexieren könnte eine mögliche variante für dich sein...

Forenfan · Beitrag von **Forenfan** » 22.09.2007 15:11

Ja ds problem ist ja das meine complette Seite Dynamisch ist auch die Startseite. Die Variante hatte ich auch schon ausprobiert. Einziges was statisch ist ist halt der Archiv ordner wo alles per Mod Rewrite lesbar ist.
Nur gehen die Robots nur auf meinen Dynamischen Content das hat zur folge das Webmastertools mittlerweile schon 89 Links angezeigt die eingeschränkt durch die Robots.txt. ist.