unerwünschte Bots bzw. E-Mail-Spider aushebeln

In diesem Forum können Mod-Autoren ihre Mods vorstellen, die sich noch im Entwicklungsstatus befinden. Der Einbau in Foren im produktiven Betrieb wird nicht empfohlen.
Forumsregeln
phpBB 2.0 hat das Ende seiner Lebenszeit überschritten
phpBB 2.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 2.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf phpBB 3.0, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

unerwünschte Bots bzw. E-Mail-Spider aushebeln

Beitrag von larsneo »

Nachdem zwischenzeitlich immer mehr E-Mail-Bots auf der Suche nach Adressen sind (und auch diverse andere unerwünschte Spider eine Menge an Traffic auf dem Board verursachen), habe ich mit folgender Variante versucht, das im nuForum ein wenig einzudämmen:

1. Bannen von unerwünschten Bots über eine .htaccess
Dankenswerter Weise treten eine ganze Reihe von unerwünschten Bots unter einem eindeutigen USER_AGENT auf - und können so via rewrite Rules gebannt werden:

Code: Alles auswählen

# block bad bots, robots and spiders [larsneo]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Irvine [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR] 
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^oegp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] 
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] 
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR] 
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SearchExpress [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebBandit [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg 
RewriteRule ^.* - [F,L]
(die guten Bots ala Google und Co. werden davon nicht tangiert, abprüfen kann man die Regeln z.b. via http://www.wannabrowser.com )

2. 'Scrambeln' von E-Mail-Adressen
Die Klartext-Anzeige der E-Mail-Adresse in der Mitgliederliste, der Topic-Ansicht und dem Profil kann ggfs. zusätzlich noch mit einem einfachen 'preg_replace' entgegnet werden.
Die Grundidee dazu am Beispiel der viewtopic.php:
Nach

Code: Alles auswählen

		if ( !empty($postrow[$i]['user_viewemail']) || $is_auth['auth_mod'] )
		{
einfügen bzw. auskommentieren:

Code: Alles auswählen

			// scramble the mailadress [larsneo]
		    $search = array('/([^\024])@([^\022])/se');
		    $replace = array('"&#" .
                            sprintf("%03d", ord("\\1")) .
                            ";@&#" .
                            sprintf("%03d", ord("\\2")) . ";";');
			$shown_email = preg_replace($search, $replace, $postrow[$i]['user_email']);
			$email_uri = ( $board_config['board_email_form'] ) ? append_sid("profile.$phpEx?mode=email&" . POST_USERS_URL .'=' . $poster_id) : 'mailto:' . $shown_email;
			// end scramble
			// $email_uri = ( $board_config['board_email_form'] ) ? append_sid("profile.$phpEx?mode=email&" . POST_USERS_URL .'=' . $poster_id) : 'mailto:' . $postrow[$i]['user_email'];
(ähnliches gilt für die memberslist.php und die /includes/usercp_viewprofile.php, dabei aber den entsprechenden Variablennamen für die Mailadresse beachten)

Anregungen und Kommentare willkommen ;-)
weitere (englischsprachiger) Lesestoff: *klick*

EDIT 15.05.04 / online email grabber pro aufgenommen
Zuletzt geändert von larsneo am 15.05.2004 16:20, insgesamt 1-mal geändert.
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Benutzeravatar
vb-biker
Mitglied
Beiträge: 260
Registriert: 04.03.2004 14:13
Wohnort: Kölle
Kontaktdaten:

Beitrag von vb-biker »

Habe es bei mir eingebaut. In den letzten Tagen hatte ich auch Dauerbesuche von diversen, nicht unbedingt gewollten Robots.
Jetzt nur warten und beobachten, ob es greift.

Vielen Dank erstmal für die htaccess-Erweiterung! :wink:
Benutzeravatar
Wuppi
Mitglied
Beiträge: 732
Registriert: 14.05.2002 23:04
Wohnort: Köln
Kontaktdaten:

Beitrag von Wuppi »

Hi

was bringt den der eMail-Scrambler? Ok die eMail-Adressen werden umgeformt - aber da haben die normalen user ja dann auch die Arschkarte gezogen?

Bis denne
Wuppi
ainiruA
Mitglied
Beiträge: 8
Registriert: 20.05.2004 22:40

Beitrag von ainiruA »

Suüer sowas, nur eine Frage hab ich:
In welchen Ordner kommt denn die .htaccess Datei nun?
Benutzeravatar
m0bby
Mitglied
Beiträge: 82
Registriert: 23.03.2004 13:19
Kontaktdaten:

Beitrag von m0bby »

Wuppi hat geschrieben:was bringt den der eMail-Scrambler? Ok die eMail-Adressen werden umgeformt - aber da haben die normalen user ja dann auch die Arschkarte gezogen?
Der Browser übersetzt das korrekt. Wenn du den mailto-Link anklickst, wird dem eMail-Programm die richtige Adresse übergeben.

Schönen Gruß
mObbY
Benutzeravatar
m0bby
Mitglied
Beiträge: 82
Registriert: 23.03.2004 13:19
Kontaktdaten:

Beitrag von m0bby »

ainiruA hat geschrieben:In welchen Ordner kommt denn die .htaccess Datei nun?
In dein Web-Root-Verzeichnis.

Schönen Gruß
mObbY
Benutzeravatar
Wuppi
Mitglied
Beiträge: 732
Registriert: 14.05.2002 23:04
Wohnort: Köln
Kontaktdaten:

Beitrag von Wuppi »

m0bby hat geschrieben:
Wuppi hat geschrieben:was bringt den der eMail-Scrambler? Ok die eMail-Adressen werden umgeformt - aber da haben die normalen user ja dann auch die Arschkarte gezogen?
Der Browser übersetzt das korrekt. Wenn du den mailto-Link anklickst, wird dem eMail-Programm die richtige Adresse übergeben.

Schönen Gruß
mObbY
Aha - und warum hält das dann bots ab? So nen "scrambler" hatte ich auch schon gehabt - JavaScript - aber mittlerweile können die scheiß bots auch JS - und sicher noch div. andere Tricks - hoffe nur noch das die teile auch OCR können! Meine eMails gibt es nämlich nur noch per Grafik ... nur für nen Foreneinbau hab ich noch keine idee ;)

Bis denne
Wuppi
Benutzeravatar
m0bby
Mitglied
Beiträge: 82
Registriert: 23.03.2004 13:19
Kontaktdaten:

Beitrag von m0bby »

Wuppi hat geschrieben:Aha - und warum hält das dann bots ab?
Genau das gleiche hab' ich mir auch gedacht. Daher habe ich den MOD auch nicht eingebaut. Selbst schuld, wenn meine User ihre eMail-Adresse anzeigen lassen...

Schöne Gruß
mObbY
Benutzeravatar
Wuppi
Mitglied
Beiträge: 732
Registriert: 14.05.2002 23:04
Wohnort: Köln
Kontaktdaten:

Beitrag von Wuppi »

Hi

ausm anderen Thread - da hier passender:
m0bby hat geschrieben:Hallo Wuppi,

der Inktomi-Robot heißt 'slurp'.

Neue Kennung:
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)".

Alte Kennung:

"Mozilla/5.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/3.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/3.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"


schönen Gruß
mObbY
Hi

es geht darum inktomi als Traffic-Schlampe ;) loszuwerden ...

bevor ich aber jetzt nen Fehler mache ;) ... inktomi.com bietet ja in seiner Suchmaschine nur eine Seite Kostenlos an - arbeiten aber andere mit inktomi zusammen die das komplette gespiderte anzeigen? (wer?) ... also das ich nen fehler machen würde, wenn ich inktomi-Hausverbot erteilen würde?

Wenn es kein Fehler wäre: wie müsste der eintrag für die .htaccess jetzt genau lauten um ihn loszuwerden?

Bis denne
Wuppi
Benutzeravatar
larsneo
Mitglied
Beiträge: 2622
Registriert: 07.03.2002 15:23
Wohnort: schwäbisch gmünd
Kontaktdaten:

Beitrag von larsneo »

iirc nutzt msn inktomi als suchbot (der aktuelle trafficanstieg durch den msnbot lässt allerdings auf eine baldige änderung schliessen...)
gruesse aus dem wilden sueden
larsneo
..::[krapohl.net]::..
Antworten

Zurück zu „phpBB 2.0: Mods in Entwicklung“