Seite 1 von 7

unerwünschte Bots bzw. E-Mail-Spider aushebeln

Verfasst: 07.05.2004 14:55
von larsneo
Nachdem zwischenzeitlich immer mehr E-Mail-Bots auf der Suche nach Adressen sind (und auch diverse andere unerwünschte Spider eine Menge an Traffic auf dem Board verursachen), habe ich mit folgender Variante versucht, das im nuForum ein wenig einzudämmen:

1. Bannen von unerwünschten Bots über eine .htaccess
Dankenswerter Weise treten eine ganze Reihe von unerwünschten Bots unter einem eindeutigen USER_AGENT auf - und können so via rewrite Rules gebannt werden:

Code: Alles auswählen

# block bad bots, robots and spiders [larsneo]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Irvine [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR] 
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^oegp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] 
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] 
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR] 
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SearchExpress [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebBandit [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg 
RewriteRule ^.* - [F,L]
(die guten Bots ala Google und Co. werden davon nicht tangiert, abprüfen kann man die Regeln z.b. via http://www.wannabrowser.com )

2. 'Scrambeln' von E-Mail-Adressen
Die Klartext-Anzeige der E-Mail-Adresse in der Mitgliederliste, der Topic-Ansicht und dem Profil kann ggfs. zusätzlich noch mit einem einfachen 'preg_replace' entgegnet werden.
Die Grundidee dazu am Beispiel der viewtopic.php:
Nach

Code: Alles auswählen

		if ( !empty($postrow[$i]['user_viewemail']) || $is_auth['auth_mod'] )
		{
einfügen bzw. auskommentieren:

Code: Alles auswählen

			// scramble the mailadress [larsneo]
		    $search = array('/([^\024])@([^\022])/se');
		    $replace = array('"&#" .
                            sprintf("%03d", ord("\\1")) .
                            ";@&#" .
                            sprintf("%03d", ord("\\2")) . ";";');
			$shown_email = preg_replace($search, $replace, $postrow[$i]['user_email']);
			$email_uri = ( $board_config['board_email_form'] ) ? append_sid("profile.$phpEx?mode=email&" . POST_USERS_URL .'=' . $poster_id) : 'mailto:' . $shown_email;
			// end scramble
			// $email_uri = ( $board_config['board_email_form'] ) ? append_sid("profile.$phpEx?mode=email&" . POST_USERS_URL .'=' . $poster_id) : 'mailto:' . $postrow[$i]['user_email'];
(ähnliches gilt für die memberslist.php und die /includes/usercp_viewprofile.php, dabei aber den entsprechenden Variablennamen für die Mailadresse beachten)

Anregungen und Kommentare willkommen ;-)
weitere (englischsprachiger) Lesestoff: *klick*

EDIT 15.05.04 / online email grabber pro aufgenommen

Verfasst: 07.05.2004 15:38
von vb-biker
Habe es bei mir eingebaut. In den letzten Tagen hatte ich auch Dauerbesuche von diversen, nicht unbedingt gewollten Robots.
Jetzt nur warten und beobachten, ob es greift.

Vielen Dank erstmal für die htaccess-Erweiterung! :wink:

Verfasst: 20.05.2004 19:41
von Wuppi
Hi

was bringt den der eMail-Scrambler? Ok die eMail-Adressen werden umgeformt - aber da haben die normalen user ja dann auch die Arschkarte gezogen?

Bis denne
Wuppi

Verfasst: 21.05.2004 13:40
von ainiruA
Suüer sowas, nur eine Frage hab ich:
In welchen Ordner kommt denn die .htaccess Datei nun?

Verfasst: 21.05.2004 19:38
von m0bby
Wuppi hat geschrieben:was bringt den der eMail-Scrambler? Ok die eMail-Adressen werden umgeformt - aber da haben die normalen user ja dann auch die Arschkarte gezogen?
Der Browser übersetzt das korrekt. Wenn du den mailto-Link anklickst, wird dem eMail-Programm die richtige Adresse übergeben.

Schönen Gruß
mObbY

Verfasst: 21.05.2004 19:39
von m0bby
ainiruA hat geschrieben:In welchen Ordner kommt denn die .htaccess Datei nun?
In dein Web-Root-Verzeichnis.

Schönen Gruß
mObbY

Verfasst: 21.05.2004 21:01
von Wuppi
m0bby hat geschrieben:
Wuppi hat geschrieben:was bringt den der eMail-Scrambler? Ok die eMail-Adressen werden umgeformt - aber da haben die normalen user ja dann auch die Arschkarte gezogen?
Der Browser übersetzt das korrekt. Wenn du den mailto-Link anklickst, wird dem eMail-Programm die richtige Adresse übergeben.

Schönen Gruß
mObbY
Aha - und warum hält das dann bots ab? So nen "scrambler" hatte ich auch schon gehabt - JavaScript - aber mittlerweile können die scheiß bots auch JS - und sicher noch div. andere Tricks - hoffe nur noch das die teile auch OCR können! Meine eMails gibt es nämlich nur noch per Grafik ... nur für nen Foreneinbau hab ich noch keine idee ;)

Bis denne
Wuppi

Verfasst: 21.05.2004 21:49
von m0bby
Wuppi hat geschrieben:Aha - und warum hält das dann bots ab?
Genau das gleiche hab' ich mir auch gedacht. Daher habe ich den MOD auch nicht eingebaut. Selbst schuld, wenn meine User ihre eMail-Adresse anzeigen lassen...

Schöne Gruß
mObbY

Verfasst: 25.05.2004 20:02
von Wuppi
Hi

ausm anderen Thread - da hier passender:
m0bby hat geschrieben:Hallo Wuppi,

der Inktomi-Robot heißt 'slurp'.

Neue Kennung:
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)".

Alte Kennung:

"Mozilla/5.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/3.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/3.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"


schönen Gruß
mObbY
Hi

es geht darum inktomi als Traffic-Schlampe ;) loszuwerden ...

bevor ich aber jetzt nen Fehler mache ;) ... inktomi.com bietet ja in seiner Suchmaschine nur eine Seite Kostenlos an - arbeiten aber andere mit inktomi zusammen die das komplette gespiderte anzeigen? (wer?) ... also das ich nen fehler machen würde, wenn ich inktomi-Hausverbot erteilen würde?

Wenn es kein Fehler wäre: wie müsste der eintrag für die .htaccess jetzt genau lauten um ihn loszuwerden?

Bis denne
Wuppi

Verfasst: 26.05.2004 16:04
von larsneo
iirc nutzt msn inktomi als suchbot (der aktuelle trafficanstieg durch den msnbot lässt allerdings auf eine baldige änderung schliessen...)