Seite 1 von 2

Robots.txt für phpBB einrichten

Verfasst: 30.12.2015 13:38
von kochrezepte
Ich habe ihrgendwo mal gelesen das man für phpbb eine extra Robo.txt Seite einrichten
soll. Könnt Ihr mir kurz sagen was ich da rein schreiben soll ?

Re: Robo.txt

Verfasst: 30.12.2015 13:49
von waldkatze
Notwendig ist das nicht unbedingt. Außerdem halten sich nur "seriöse Bots" daran.
Dazu guckst du hier: viewtopic.php?f=6&t=206569#p1181772
und http://www.ongray-design.de/forum/viewt ... ?f=71&t=44

Re: Robots.txt für phpBB einrichten

Verfasst: 30.12.2015 17:10
von kochrezepte
Danke.

Re: Robots.txt für phpBB einrichten

Verfasst: 30.12.2015 18:35
von kochrezepte
Entschuldigung, ich habe mir das hier raus gesucht:

# robots.txt zu http://www.example.org/

User-agent: UniversalRobot/1.0
User-agent: mein-Robot
Disallow: /quellen/dtd/

User-agent: *
Disallow: /unsinn/
Disallow: /temp/
Disallow: /newsticker.shtml





Aber welche Ordner in PHPbb soll ich den Dissallown damit zum Bleistift Google nicht alle Ordner
wie Bilder und co. durchsucht ?

Re: Robots.txt für phpBB einrichten

Verfasst: 30.12.2015 22:49
von waldkatze
phpBB hat schon in der Software einen gewissen Schutz dafür drin.
Bilder und Dateianhänge werden verschlüsselt abgespeichert.

Eine robots.txt ist allerdings ohnehin kein wirksamer Schutz.
Zumindest alle seriösen Bots halten sich angeblich daran. Ob man das in Zeiten von NSA & Co. noch glauben kann, darf bezweifelt werden.
Erst diese Woche gab es eine interessante Doku im TV wer alles auf die Daten von Google, Facebook usw. zugreift ...

Besser als eine robots.txt ist ein Verzeichnisschutz mit .htaccess. z.B. http://toolflow.de/bots-in-der-htaccess-sperren/
Wenn du es trotzdem immer noch mit robots.txt versuchen willst,findest du jede Menge Anleitungen bei Tante Google. z.B. http://www.bjoernsworld.de/suchmaschine ... s-txt.html

Eine robots.txt hat dazu noch einen entscheidenden Nachteil. Jeder kann sie auslesen und sich damit erst kundig machen welche Verzeichnisse denn so auf deinem Server liegen. Und gerade das wird für Hacker interessant.

Re: Robots.txt für phpBB einrichten

Verfasst: 30.12.2015 22:59
von kochrezepte
Eine robots.txt hat dazu noch einen entscheidenden Nachteil. Jeder kann sie auslesen und sich damit erst kundig machen welche Verzeichnisse denn so auf deinem Server liegen. Und gerade das wird für Hacker interessant.


PHPbb ist aber ein Open-Source-Projekt, dem zu folge wissen Hacker eh welche Verzeichnisse sie
ansteuern müssen oder?

Ich wollte die robot.txt Seite nur erstellen weil ich irgendwo gelesen habe das Google nicht so
erfreut ist wenn es bestimmte Seiten findet. Ich weiß nicht, Ihr seit die Profis.

Re: Robots.txt für phpBB einrichten

Verfasst: 30.12.2015 23:03
von waldkatze
kochrezepte hat geschrieben:Ich wollte die robot.txt Seite nur erstellen weil ich irgendwo gelesen habe das Google nicht so
erfreut ist wenn es bestimmte Seiten findet. Ich weiß nicht, Ihr seit die Profis.
Dann lese bitte hier: https://support.google.com/websearch/tr ... 1061?hl=de

Und google mal nach Google Webmaster-Tools.

Re: Robots.txt für phpBB einrichten

Verfasst: 31.12.2015 08:50
von Unimatrix_0
Moin,

eine robots.txt kann schon Sinn machen, bei meinem Projekt sieht sie vie folgt aus:

https://www.phpbb.de/support/pastebin.p ... iew&s=1552

Die erste Zeile sagt verschwindet alle und nur bei Google & MSN gibt's die Ausnahmen, dass diese sich alles ansehen dürfen, ausser ... - Ich habe eine gewisse Zeit auch mit dem Gedanken gespielt Yandex & Baidu zu erlauben - jedoch glaube ich nicht das aus diesen Regionen für mich relevanter Besuch kommt. Die kleinen "Wald & Wiesen"-Crawler möchte ich auch nicht auf meiner Seite haben, dies ist auch der Grund für die robots.txt, um schnell und einfach für ein Schutzprojekt die guten von den bösen Bots zu trennen.

Jeder Bot der nicht die robots.txt abfragt » BadBot
Jeder Bot, außer den beiden genannten, der weiter crawlt » BadBot

Und BadBots werden auf alle Fälle über Ihre IP(s) gesperrt und gerne auch über Ihren UA

Re: Robots.txt für phpBB einrichten

Verfasst: 03.01.2016 17:41
von marcodi
Hallo,
ich würde noch die bösen Bots aussperren, auch wenn sich bestimmt nicht alle daran halten:
hier meine robots-Datei:

Code: Alles auswählen

User-agent: grub-client
Disallow: /

User-agent: grub
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver/1.6
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4 
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Openfind 
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /
LG,
Marco

Re: Robots.txt für phpBB einrichten

Verfasst: 03.01.2016 18:37
von gn#36
Eigentlich halte ich es in vielen Fällen für unsinnig, konkrete Bots in der robots.txt anzugeben. "Böse" Bots ignorieren das Ding eh, und normalerweise macht es wenig Sinn, zwischen den Guten zu unterscheiden, wenn man nicht gerade will, dass man in bestimmten Suchmaschinen nicht auftaucht, oder es konkrete Bugs bei bestimmten Suchmaschinen gibt, die für eine seltsame Darstellung der Webseite in den Suchergebnissen sorgen. Ausnahmen wären vielleicht sowas wie die wayback-Machine, von der man konkrete Seiten ausschließen möchte o.ä. Interessant ist in dem Zusammenhang z.B. die robots.txt von Wikipedia.

Wenn man Sorge hat, dass die Robots.txt zu viel verrät, weil man konkrete verbotene Unterordner auflisten müsste, dann kann man das ganze ja auch in eine Whitelist umwandeln und per

Code: Alles auswählen

User-agent: *
Disallow: /
Allow: /a
Allow: /b
Allow: /index.php
konkrete Dateien wieder erlauben. In der robots.txt von google.de findet sich z.B.

Code: Alles auswählen

Disallow: /search
Allow: /search/about
Bei dieser Konstruktion muss man dann natürlich genau aufpassen, wirklich alle erlaubten Dinge wieder aufzulisten, sonst werden gewisse Dinge eben nicht mehr gefunden. Außerdem wird "Allow:" nicht von allen Robots unterstützt, die behandeln das dann so, als wären sie von allem ausgeschlossen, von daher würde ich Disallow: / eher nicht verwenden.