Robots.txt für phpBB einrichten

Fragen zu allen Themen rund ums Programmieren außerhalb von phpBB können hier gestellt werden - auch zu anderen Programmiersprachen oder Software wie Webservern und Editoren.
kochrezepte
Mitglied
Beiträge: 101
Registriert: 28.04.2015 17:59
Wohnort: Mellendorf
Kontaktdaten:

Robots.txt für phpBB einrichten

Beitrag von kochrezepte »

Ich habe ihrgendwo mal gelesen das man für phpbb eine extra Robo.txt Seite einrichten
soll. Könnt Ihr mir kurz sagen was ich da rein schreiben soll ?
Benutzeravatar
waldkatze
Ehemaliges Teammitglied
Beiträge: 792
Registriert: 08.03.2013 21:50

Re: Robo.txt

Beitrag von waldkatze »

Notwendig ist das nicht unbedingt. Außerdem halten sich nur "seriöse Bots" daran.
Dazu guckst du hier: viewtopic.php?f=6&t=206569#p1181772
und http://www.ongray-design.de/forum/viewt ... ?f=71&t=44
Das Bremsen eines Motorrades ist die Verschwendung hochwertiger Geschwindigkeit in sinnlose Wärmeenergie.
kochrezepte
Mitglied
Beiträge: 101
Registriert: 28.04.2015 17:59
Wohnort: Mellendorf
Kontaktdaten:

Re: Robots.txt für phpBB einrichten

Beitrag von kochrezepte »

Danke.
kochrezepte
Mitglied
Beiträge: 101
Registriert: 28.04.2015 17:59
Wohnort: Mellendorf
Kontaktdaten:

Re: Robots.txt für phpBB einrichten

Beitrag von kochrezepte »

Entschuldigung, ich habe mir das hier raus gesucht:

# robots.txt zu http://www.example.org/

User-agent: UniversalRobot/1.0
User-agent: mein-Robot
Disallow: /quellen/dtd/

User-agent: *
Disallow: /unsinn/
Disallow: /temp/
Disallow: /newsticker.shtml





Aber welche Ordner in PHPbb soll ich den Dissallown damit zum Bleistift Google nicht alle Ordner
wie Bilder und co. durchsucht ?
Benutzeravatar
waldkatze
Ehemaliges Teammitglied
Beiträge: 792
Registriert: 08.03.2013 21:50

Re: Robots.txt für phpBB einrichten

Beitrag von waldkatze »

phpBB hat schon in der Software einen gewissen Schutz dafür drin.
Bilder und Dateianhänge werden verschlüsselt abgespeichert.

Eine robots.txt ist allerdings ohnehin kein wirksamer Schutz.
Zumindest alle seriösen Bots halten sich angeblich daran. Ob man das in Zeiten von NSA & Co. noch glauben kann, darf bezweifelt werden.
Erst diese Woche gab es eine interessante Doku im TV wer alles auf die Daten von Google, Facebook usw. zugreift ...

Besser als eine robots.txt ist ein Verzeichnisschutz mit .htaccess. z.B. http://toolflow.de/bots-in-der-htaccess-sperren/
Wenn du es trotzdem immer noch mit robots.txt versuchen willst,findest du jede Menge Anleitungen bei Tante Google. z.B. http://www.bjoernsworld.de/suchmaschine ... s-txt.html

Eine robots.txt hat dazu noch einen entscheidenden Nachteil. Jeder kann sie auslesen und sich damit erst kundig machen welche Verzeichnisse denn so auf deinem Server liegen. Und gerade das wird für Hacker interessant.
Das Bremsen eines Motorrades ist die Verschwendung hochwertiger Geschwindigkeit in sinnlose Wärmeenergie.
kochrezepte
Mitglied
Beiträge: 101
Registriert: 28.04.2015 17:59
Wohnort: Mellendorf
Kontaktdaten:

Re: Robots.txt für phpBB einrichten

Beitrag von kochrezepte »

Eine robots.txt hat dazu noch einen entscheidenden Nachteil. Jeder kann sie auslesen und sich damit erst kundig machen welche Verzeichnisse denn so auf deinem Server liegen. Und gerade das wird für Hacker interessant.


PHPbb ist aber ein Open-Source-Projekt, dem zu folge wissen Hacker eh welche Verzeichnisse sie
ansteuern müssen oder?

Ich wollte die robot.txt Seite nur erstellen weil ich irgendwo gelesen habe das Google nicht so
erfreut ist wenn es bestimmte Seiten findet. Ich weiß nicht, Ihr seit die Profis.
Benutzeravatar
waldkatze
Ehemaliges Teammitglied
Beiträge: 792
Registriert: 08.03.2013 21:50

Re: Robots.txt für phpBB einrichten

Beitrag von waldkatze »

kochrezepte hat geschrieben:Ich wollte die robot.txt Seite nur erstellen weil ich irgendwo gelesen habe das Google nicht so
erfreut ist wenn es bestimmte Seiten findet. Ich weiß nicht, Ihr seit die Profis.
Dann lese bitte hier: https://support.google.com/websearch/tr ... 1061?hl=de

Und google mal nach Google Webmaster-Tools.
Das Bremsen eines Motorrades ist die Verschwendung hochwertiger Geschwindigkeit in sinnlose Wärmeenergie.
Benutzeravatar
Unimatrix_0
Mitglied
Beiträge: 392
Registriert: 03.11.2007 10:50
Kontaktdaten:

Re: Robots.txt für phpBB einrichten

Beitrag von Unimatrix_0 »

Moin,

eine robots.txt kann schon Sinn machen, bei meinem Projekt sieht sie vie folgt aus:

https://www.phpbb.de/support/pastebin.p ... iew&s=1552

Die erste Zeile sagt verschwindet alle und nur bei Google & MSN gibt's die Ausnahmen, dass diese sich alles ansehen dürfen, ausser ... - Ich habe eine gewisse Zeit auch mit dem Gedanken gespielt Yandex & Baidu zu erlauben - jedoch glaube ich nicht das aus diesen Regionen für mich relevanter Besuch kommt. Die kleinen "Wald & Wiesen"-Crawler möchte ich auch nicht auf meiner Seite haben, dies ist auch der Grund für die robots.txt, um schnell und einfach für ein Schutzprojekt die guten von den bösen Bots zu trennen.

Jeder Bot der nicht die robots.txt abfragt » BadBot
Jeder Bot, außer den beiden genannten, der weiter crawlt » BadBot

Und BadBots werden auf alle Fälle über Ihre IP(s) gesperrt und gerne auch über Ihren UA
marcodi
Mitglied
Beiträge: 5
Registriert: 03.01.2016 17:32

Re: Robots.txt für phpBB einrichten

Beitrag von marcodi »

Hallo,
ich würde noch die bösen Bots aussperren, auch wenn sich bestimmt nicht alle daran halten:
hier meine robots-Datei:

Code: Alles auswählen

User-agent: grub-client
Disallow: /

User-agent: grub
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver/1.6
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4 
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Openfind 
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /
LG,
Marco
Benutzeravatar
gn#36
Ehrenadmin
Beiträge: 9313
Registriert: 01.10.2006 16:20
Wohnort: Ganz in der Nähe...
Kontaktdaten:

Re: Robots.txt für phpBB einrichten

Beitrag von gn#36 »

Eigentlich halte ich es in vielen Fällen für unsinnig, konkrete Bots in der robots.txt anzugeben. "Böse" Bots ignorieren das Ding eh, und normalerweise macht es wenig Sinn, zwischen den Guten zu unterscheiden, wenn man nicht gerade will, dass man in bestimmten Suchmaschinen nicht auftaucht, oder es konkrete Bugs bei bestimmten Suchmaschinen gibt, die für eine seltsame Darstellung der Webseite in den Suchergebnissen sorgen. Ausnahmen wären vielleicht sowas wie die wayback-Machine, von der man konkrete Seiten ausschließen möchte o.ä. Interessant ist in dem Zusammenhang z.B. die robots.txt von Wikipedia.

Wenn man Sorge hat, dass die Robots.txt zu viel verrät, weil man konkrete verbotene Unterordner auflisten müsste, dann kann man das ganze ja auch in eine Whitelist umwandeln und per

Code: Alles auswählen

User-agent: *
Disallow: /
Allow: /a
Allow: /b
Allow: /index.php
konkrete Dateien wieder erlauben. In der robots.txt von google.de findet sich z.B.

Code: Alles auswählen

Disallow: /search
Allow: /search/about
Bei dieser Konstruktion muss man dann natürlich genau aufpassen, wirklich alle erlaubten Dinge wieder aufzulisten, sonst werden gewisse Dinge eben nicht mehr gefunden. Außerdem wird "Allow:" nicht von allen Robots unterstützt, die behandeln das dann so, als wären sie von allem ausgeschlossen, von daher würde ich Disallow: / eher nicht verwenden.
Begegnungen mit dem Chaos sind fast unvermeidlich, Aber nicht katastrophal, solange man den Durchblick behält.
Übertreiben sollte man's im Forum aber nicht mit dem Chaos, denn da sollen ja andere durchblicken und nicht nur man selbst.
Antworten

Zurück zu „Coding & Technik“