Seite 1 von 1
Webgrabber / Contentgrabber gesucht
Verfasst: 04.03.2003 20:17
von Wuppi_o_L
Hi
hab da nen interessantes Online-Lexikon im WWW gefunden - besteht aus etwa 4000 Seiten (
http://www.anumis.de/lexikon/index.html); da mein Laptop nicht immer Netz hat, wäre offline nicht schlecht.
Nur bei diese tools die Webseiten runterladen hab ich den ganzen kram ringsum (Werbung, shop-inhaltsverzeichnis usw.) mit dabei - darauf kann ich verzichten
Gibt es so nen tool was runterlädt und nachm Muster bearbeitet? Wo ich halt sagen kann "das was in der spalte steht, möchte ich hier stehen haben - die spalte löschen" usw.
Bis denne
Wuppi
Verfasst: 05.03.2003 09:07
von Seether
Ist die Frage ob das überhaupt erlaubt ist.
Die 4000 Seiten finanzieren sich vielleicht über die Werbung??
S.
Verfasst: 05.03.2003 13:26
von Wuppi
Hi
mhhh axo und du hast noch nie nen Bild von ner Seite gezogen und PRIVAT genutzt (als wallpaper usw.) wo auf der Seite stand das man das nicht darf und ne menge Werbung drauf ist womit die Seite finanziert wird ... oder was mit deinem Cache - da wäre auch soviel illegales drin ... Oder Offline-Browsing-Tools die von User ohne Flat oft genutzt werden - eben 2-3 Webseiten runterladen und offline gucken - die Werbung ist da dann nur noch nen rotes x weil man meist angibt das nur eine oder 2 ebenen ersurft werden sollen - da fällt die werbung in der regel raus - wäre deiner ansicht nach zu 99% dafür da, was illegales zu tun!
Ich rall nicht wo da alle nen Problem sehen - ich hab nicht vor die 4000 Seiten woanders Werbefrei zu platzieren oder auf CD.Rom zu verkaufen oder sonst wie jemanden zugänglich zu machen - sondern rein im Sinne des Offline-Browsing zu archivieren - und da kotzt mich die werbung an - mit nem webgrabber schon drüber gewesen - 500 Seiten brachten da 20MB! (wenn man bedenknt das dort 1-2kb nur interessanter Text ist und der Rest Werbung und unnötiger Code, sind 40KB/Seite einfach zu viel ... wenn ich mir die page einmal offline archiviere ist das sogar nen segen für den betreiber, weil viel weniger traffic in zukunft *G*)
Gestern ein tool gefunden - nur leider macht es das was ich will nur für eine Seite - kein Batch für mehrere Seiten. Und andere tools nennen sich contentgrabber, sind aber nur einfach webgrabber

wo dann noch nen heiden geld verlangt wird. Und im OpenSource/Freeware-Bereich gibbet so tools für heise.de, wetterseiten, börsenseiten - also ja auch wieder illegal

da filtere ich mir von den seiten ja nur das raus was ich brauche

und die werbung geht da verloren
Btw: das Lexikon ist nur ein zusatzangebot zu dem Shop der dort betrieben wird.
Bis denne
Wuppi
Verfasst: 05.03.2003 19:56
von Seether
Wenn die Seiten alle gleich aufgebaut sind, dann würde ich es via PHP-Script machen.
S.
Verfasst: 05.03.2003 20:11
von Wuppi_o_L
Hi
jo sindse ... PHP-Script? Da hab ich was gelesen wie man von wetter.de seine Wetterdaten bekommt, in ne db schreibt und per SMS wieder raus ... war aber ASP ... und wieder nur auf wetter.de gemünzt.
PHP kann ich nur so das grobe, so nen script verlangt sicher nen bissel mehr knowhow.
Verfasst: 06.03.2003 08:19
von Seether
Ist einfacher als Du denkst.
Schau Dir an wie Du ne Seite öffnest via fsockopen und dann durchsuchst Du den Quelltext bist Du bei der Spalte bist die Du haben willst.
S.