Seite 1 von 1

[3.2] Spiders & Robots verwalten

Verfasst: 12.11.2019 14:39
von Comedix
Hallo,

ich möchte den Crawler "LCC" in die Bot-Liste aufnehmen. Er wird in der Liste der Gäste als "LCC (+http://corpora.informatik.uni-leipzig.d ... r_faq.html)" aufgeführt. Wenn ich "LCC" oder andere Elemente der Zeichenfolge, die mit der Browser-Signatur des Bots übereinstimmt, verwende, wird der Crawler trotzdem noch als Gast aufgeführt. Bei Bing, MSN, Google usw. hat es problemlos funktioniert. Hat jemand eine Idee woran das bei LCC scheitert?

Gruß.

Re: [3.2] Spiders & Robots verwalten

Verfasst: 12.11.2019 16:48
von BNa
Hallo,

ist natürlich die Frage, wie dein "Code zum finden der Bots" aussieht (RegEx?).
Können wir leider nichts dazu sagen, wenn wir das nicht wissen.

Ansonsten kannst Du den LCC natürlich auch über seine beiden Stamm-IPs erkennen:
http://webrobots.de/lcc-httpcorpora-informatik/