Hi,
ich habe
SHORT-URL (reloaded /robots.txt) implementiert. Bein Board ist ein phpBB plus 1.52, also ein phpBB mit ua. ezPortal.
robots.txt
Code: Alles auswählen
User-agent: msnbot
Crawl-Delay: 10
User-agent: Slurp
Crawl-Delay: 100
User-agent: Googlebot
Disallow: /*?
User-agent: *
Disallow: /admin/
Disallow: /album_mod/
Disallow: /cache/
Disallow: /db/
Disallow: /docs/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mods/
Disallow: /templates/
Disallow: /xs_mod/
Disallow: /album
Disallow: /common
Disallow: /extension
Disallow: /faq
Disallow: /groupcp
Disallow: /login
Disallow: /hack_list
Disallow: /calendar_scheduler
Disallow: /modcp
Disallow: /printview
Disallow: /posting
Disallow: /privmsg
Disallow: /export
Disallow: /profile
Disallow: /printview
Disallow: /rating
Disallow: /report
Disallow: /search
Disallow: /fpost
Disallow: /ptopic
Disallow: /ntopic
Disallow: /post-
.htaccess
Code: Alles auswählen
RewriteEngine On
# prevent access from santy webworm a-e
RewriteCond %{QUERY_STRING} ^(.*)highlight=\%2527 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=\%65\%63\%68 [OR]
RewriteCond %{QUERY_STRING} ^(.*)rush=echo [OR]
RewriteCond %{QUERY_STRING} ^(.*)wget\%20 [OR]
RewriteCond %{QUERY_STRING} ^(.*)cmd=
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
# prevent pre php 4.3.10 bug
RewriteCond %{HTTP_COOKIE}% s:(.*):\%22test1\%22\%3b
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
# prevent bots from spidering
RewriteCond %{HTTP_USER_AGENT} ^slurp
RewriteRule ^.* - [F,L]
# prevent perl user agent (most often used by santy)
RewriteCond %{HTTP_USER_AGENT} ^lwp.* [NC]
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
# extended rewriting only for .html [thx to Caterham]
RewriteRule !\.html$ - [L]
# Short URL implementation [larsneo]
RewriteCond %{REQUEST_URI} ^/forums\.html
RewriteRule (.*) /index.php [R=301,L]
usw.....
Leider spiderte Google keine ftopic*- Links. Darauf habe ich, um überhaupt Ergebnisse bei Google zu haben,
Google Sitemaps verwandt. Dadurch tauchten zwar die Links zu den Topics auf, jedoch ohne Inhalt, wahrscheinlich wegen
Diesen Teil der robots.txt habe ich daraufhin gelöscht. Ausserdem habe ich
An den Anfang der .htaccess eingefügt.
Nun hat Google ganze 4 Beiträge von weit über 100 mit Inhalt indiziert, allerdings, wie zu vermuten war, dynamisch, also viewtopic.php?t=XXX.
Meine Frage: Kann es daran liegen, dass Google das Forum (also index.php/html) nicht findet, weil es den Forum-Link vom Portal (portal.php) nicht richtig auswertet oder findet? (die index.html im root-Verzeichnis leitet einfachst auf portal.php weiter) Havarieret evtl die Google-SITEMAP-Auswertung mit dem selbständigen spidern von Google? Ohne Sitemap wars eigentlich auch nicht besser.
Werds jetzt mal versuchen mit
am Ende der rotots.txt und werde berichten.
Matthias