Seite 1 von 2

Duplicate Content Problem - (trotz robots.txt)

Verfasst: 12.01.2007 08:55
von fromex
Habe ein Duplicate Content Problem.

In der Google Site Abfrage sind sowelche Urls aufgetauch:
ftopic4.html?sid=e53240bd17ded0a0f57a516bceaf1adf

viewtopic.php?t=9&highlight=&sid=7181291152bddd185f0d87d1a6dd7b88

Was läuft da falsch. Mod Rewrite funktioniert bereits. Habe ich noch irgendetwas vergessen?

Freue mich auf jede Antwort :grin:

Meine robots.txt sieht folgender Maßen aus:

User-agent: *
Disallow: /forum/admin/
Disallow: /forum/db/
Disallow: /forum/images/
Disallow: /forum/includes/
Disallow: /forum/language/
Disallow: /forum/templates/
Disallow: /forum/config.php
Disallow: /forum/profile.php
Disallow: /forum/groupcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/modcp.php
Disallow: /forum/posting.php
Disallow: /forum/privmsg.php
Disallow: /forumviewonline.php
Disallow: /forum/faq.php
Disallow: /forum/ptopic*.html$
Disallow: /forum/ntopic*.html$
Disallow: /forum/ftopic*asc*.html$


P.S. Habe die Forensuche benutzt doch keine Infos gefunden, die mir weitergeholfen haben. Auch habe ich es nicht geschaft die über 100 Seiten großen Threads durch zu wühlen.

Verfasst: 12.01.2007 10:19
von Balint
Hi!

Wenn nur die erste URL drinstehen soll, wieso gibt es dann kein disallow auf die viewtopic.php ?

Außerdem ist wohl hier was vergessen worden:

Code: Alles auswählen

Disallow: /forumviewonline.php
(ein "/")

Weiterhin solltest du dich darum kümmern, daß SuMas keine SID mitgegeben wird. Wie das geht, steht u.a. auf http://www.seo-phpbb.org/sessions.html

Viele Grüße,
Bálint

Verfasst: 12.01.2007 16:49
von fromex
vielen Dank für deinen Hinweis. Da hatte ich wohl etwas vergessen. :-?

Da ich jetzt für manche Suchergebnisse zu einem Begriff bei google zwei Ergebnisse bekomme: z.B. einmal w*w*w.meineurl.de/forum/ftopic4.html und darunter w*w*w.meineurl.de/forum/ftopic4.html?sid=e53240bd17ded0a0f57a516bceaf1adf (im Prinzip die gleiche nur mit Session id) habe ich ja bereits dublicate content. Wie bekomme ich letztere der beiden Seiten wieder aus dem Index?

Google selbst bietet das Löschen eigener Seiten mit Hilfe der robots.txt an? Was schreibt man dann in die robots.txt hinein?

Habe jetzt Disallow: /forum/viewtopic.php in meine robots.txt mit aufgenommen. War mir nicht bekannt, dass der Hinweis fehlte? Kenne mich nicht so gut aus damit. Verhindert der Eintrag dann soetwas hier? : w*w*w.meine-url.de/forum/viewtopic.php?t=9&highlight=&sid=7181291152bddd185f0d87d1a6dd7b88

Verfasst: 12.01.2007 17:05
von Balint
Hallo!
fromex hat geschrieben:Da ich jetzt für manche Suchergebnisse zu einem Begriff bei google zwei Ergebnisse bekomme: z.B. einmal w*w*w.meineurl.de/forum/ftopic4.html und darunter w*w*w.meineurl.de/forum/ftopic4.html?sid=e53240bd17ded0a0f57a516bceaf1adf (im Prinzip die gleiche nur mit Session id) habe ich ja bereits dublicate content. Wie bekomme ich letztere der beiden Seiten wieder aus dem Index?
Tja, daran google ich auch seit Tagen. Es müßte mit mod_rewrite eine Regel erstellt werden, die so aussieht:

Leite alle Angragen, die in der URL ein SID haben und von Googlebot kommen an die gleiche URL ohne SID weiter und markiere die Seite als 301 (Permanently moved).

Google selbst bietet das Löschen eigener Seiten mit Hilfe der robots.txt an? Was schreibt man dann in die robots.txt hinein?

Habe jetzt Disallow: /forum/viewtopic.php in meine robots.txt mit aufgenommen. War mir nicht bekannt, dass der Hinweis fehlte? Kenne mich nicht so gut aus damit. Verhindert der Eintrag dann soetwas hier? : w*w*w.meine-url.de/forum/viewtopic.php?t=9&highlight=&sid=7181291152bddd185f0d87d1a6dd7b88
Die obige Lösung ist dauerhaft, bei der robots.txt-Variante wird die Seite nur 180 Tage gelöscht. Finde jetzt aber auf Anhieb nicht das Vorgehen.

Zum Disallow: sollte wohl... :grin:


Viele Grüße,
Bálint

Verfasst: 26.01.2007 17:58
von fromex
Habe jetzt meine robots.txt noch etwas erweitert.
Kann mir jemand sagen, ob noch eine Anweisung fehlt oder etwas falsch ist?

(Ich habe nämlich immer noch Sid's alla /forum/ftopic15.html?sid=fed844773b9396b42519f2c5f81cd845 im Index)

User-agent: *

Disallow: /forum/admin/
Disallow: /forum/db/
Disallow: /forum/images/
Disallow: /forum/includes/
Disallow: /forum/language/
Disallow: /forum/templates/
Disallow: /forum/config.php
Disallow: /forum/profile.php
Disallow: /forum/groupcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/modcp.php
Disallow: /forum/posting.php
Disallow: /forum/privmsg.php
Disallow: /forum/viewonline.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php
Disallow: /forum/common.php
Disallow: /forum/search.php
Disallow: /forum/profile.php
Disallow: /forum/viewonline.php
Disallow: /forum/login.php

Disallow: /forum/ptopic*.html$
Disallow: /forum/ntopic*.html$
Disallow: /forum/ftopic*asc*.html$
Disallow: /forum/*?printertopic=
Disallow: /forum/*?

Bin wie immer über jede Antwort dankbar :grin:

Verfasst: 03.02.2007 23:48
von fromex
Help! Hat den niemand eine Idee :cry:

Verfasst: 04.02.2007 03:30
von miccom
Wieso deaktivierst du die SID nicht einfach?:
http://www.phpbb.de/viewtopic.php?t=44090

Verfasst: 04.02.2007 09:21
von fromex
miccom hat geschrieben:Wieso deaktivierst du die SID nicht einfach?:
http://www.phpbb.de/viewtopic.php?t=44090
Das habe ich natürlich bereits gemacht. Bin den Thread trotzdem nocheinmal durchgegangen. :grin:


Die Links auf den Profile und PN Buttons sehen jedoch noch so: /forum/profile.php?mode=viewprofile&u=2
bzw. so
forum/login.php?redirect=privmsg.php&folder=inbox&mode=post&u=2 aus.

Hat jemand ne Idee (nen link) wie diese umgeschrieben werden?

Verfasst: 04.02.2007 11:14
von miccom
Poste bitte mal einen Link zu deinem Forum.

Verfasst: 04.02.2007 11:36
von fromex
miccom hat geschrieben:Poste bitte mal einen Link zu deinem Forum.
voila: http://www.gitarre-spielen-lernen.de/forum/