chaya93 hat geschrieben: 23.12.2024 15:41
4686 Datensätze
Definitiv zu viel.
gibt mir folgendes aus:
Wunderbar, mit so einer Liste kann man was anfangen, dann sieht man auch sofort wer die Störenfriede sind.
chaya93 hat geschrieben: 23.12.2024 15:41
würdest du die alle in die Botliste eintragen?
Ja, grundsätzlich alle, weil nur dann lassen sich die Zugriffe dieses Bots auch kanalisieren. Es sei denn, du sperrst die Bots "hart" aus, also
.htaccess
oder mit anderen Mitteln, dann braucht man diese Bots natürlich nicht in phpBB eintragen. Ich mache es trotzdem, damit ich quasi eine Dokumentation direkt in phpBB habe, welche Bots bei mir aktiv waren/sind.
Und wenn ja... wie genau?

Dazu muss ein eindeutiger Teil des User Agent Strings verwendet werden. Normalerweise ist das Muster das meist verwendet wird
Name/Version
, also z.B. bei ClaudeBot wäre das
ClaudeBot/1.0
. Und das was in phpBB effektiv eingetragen werden muss wäre dann
ClaudeBot/
. Bei Bytespider kann man
Bytespider;
nehmen. Und so weiter.
chaya93 hat geschrieben: 23.12.2024 20:22
Allerdings werden die Bots noch immer angezeigt:
Ja, weil dadurch die Bots ja nicht ausgesperrt werden, sie werden mit
robots.txt
lediglich reglementiert. Es wird also in dieser Datei festgelegt, auf was Zugriff genommen werden darf oder ob überhaupt Zugriff erlaubt sein soll. Aber um diese Datei auswerten zu können, muss der Bot natürlich diese Datei auch abrufen und genau diesen Abruf sieht man dann auch in phpBB.
Allerdings halten sich nicht alle Bots an diese Art der Reglementierung. Halunken nutzen diese Datei sogar gezielt um herauszufinden, was alles geblockt wird oder worauf kein Zugriff erfolgen darf um dann genau das abzurufen. Es gibt immer und überall schwarze Schafe.
Weitere Infos; das ist eine der Seiten die ich damals bei meinen Recherchen gelesen hatte:
https://netnode.ch/de/blog/ai-web-crawl ... hrszunahme
edit:
Ich muss das präzisieren: man sollte zwar alle Bots, die man nicht hart aussperren will, bei phpBB eintragen, aber natürlich nicht alle User Agents als Bots deklarieren. Zum Beispiel:
Code: Alles auswählen
84773 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
43449 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
Hier ist der Fall klar, das hat nichts mit "normalem" Crawling zu tun, das ist in meinen Augen schlicht "automatisierte Störung einer Webseite". Wenn ich das Shell Kommando richtig verstehe, wurde nur eine einzige Log Datei ausgewertet, also nur von 1 Tag. Diese massenhaften Zugriffe wären selbst für 1 ganze Woche schon zuviel.
Code: Alles auswählen
745 Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Mobile Safari/537.36
728 Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) SamsungBrowser/27.0 Chrome/125.0.0.0 Mobile Safari/537.36
Das hier sind eher keine Bots und dürfen deshalb auch nicht als solche bei phpBB eingetragen oder per
robots.txt
reglementiert oder per
.htaccess
(bei Apache) gesperrt werden, weil das sieht nach Smartphone Browser aus. Bei unklaren User Agent Strings sollte man immer recherchieren um herauszufinden, womit man es zu tun hat, bevor man Sperrungen definiert - egal welcher Art - um versehentliche Aussperrungen von "echten" Usern zu vermeiden.
chaya93 hat geschrieben: 24.12.2024 08:26
mal sehen ob das Wirkung zeigt.
Das sollte auf jeden Fall Wirkung zeigen, denn so ähnlich sperre ich auch und seitdem ist bei mir Ruhe im Karton mit diesen aggressiven Bots die alles ausbremsen.