Webgrabber / Contentgrabber gesucht

Fragen zu allen Themen rund ums Programmieren außerhalb von phpBB können hier gestellt werden - auch zu anderen Programmiersprachen oder Software wie Webservern und Editoren.
Antworten
Wuppi_o_L

Webgrabber / Contentgrabber gesucht

Beitrag von Wuppi_o_L »

Hi

hab da nen interessantes Online-Lexikon im WWW gefunden - besteht aus etwa 4000 Seiten (http://www.anumis.de/lexikon/index.html); da mein Laptop nicht immer Netz hat, wäre offline nicht schlecht.

Nur bei diese tools die Webseiten runterladen hab ich den ganzen kram ringsum (Werbung, shop-inhaltsverzeichnis usw.) mit dabei - darauf kann ich verzichten :)

Gibt es so nen tool was runterlädt und nachm Muster bearbeitet? Wo ich halt sagen kann "das was in der spalte steht, möchte ich hier stehen haben - die spalte löschen" usw.

Bis denne
Wuppi
Seether
Mitglied
Beiträge: 1446
Registriert: 10.10.2002 23:42

Beitrag von Seether »

Ist die Frage ob das überhaupt erlaubt ist.
Die 4000 Seiten finanzieren sich vielleicht über die Werbung??



S.
Benutzeravatar
Wuppi
Mitglied
Beiträge: 734
Registriert: 14.05.2002 23:04
Wohnort: Köln
Kontaktdaten:

Beitrag von Wuppi »

Hi

mhhh axo und du hast noch nie nen Bild von ner Seite gezogen und PRIVAT genutzt (als wallpaper usw.) wo auf der Seite stand das man das nicht darf und ne menge Werbung drauf ist womit die Seite finanziert wird ... oder was mit deinem Cache - da wäre auch soviel illegales drin ... Oder Offline-Browsing-Tools die von User ohne Flat oft genutzt werden - eben 2-3 Webseiten runterladen und offline gucken - die Werbung ist da dann nur noch nen rotes x weil man meist angibt das nur eine oder 2 ebenen ersurft werden sollen - da fällt die werbung in der regel raus - wäre deiner ansicht nach zu 99% dafür da, was illegales zu tun!

Ich rall nicht wo da alle nen Problem sehen - ich hab nicht vor die 4000 Seiten woanders Werbefrei zu platzieren oder auf CD.Rom zu verkaufen oder sonst wie jemanden zugänglich zu machen - sondern rein im Sinne des Offline-Browsing zu archivieren - und da kotzt mich die werbung an - mit nem webgrabber schon drüber gewesen - 500 Seiten brachten da 20MB! (wenn man bedenknt das dort 1-2kb nur interessanter Text ist und der Rest Werbung und unnötiger Code, sind 40KB/Seite einfach zu viel ... wenn ich mir die page einmal offline archiviere ist das sogar nen segen für den betreiber, weil viel weniger traffic in zukunft *G*)

Gestern ein tool gefunden - nur leider macht es das was ich will nur für eine Seite - kein Batch für mehrere Seiten. Und andere tools nennen sich contentgrabber, sind aber nur einfach webgrabber :( wo dann noch nen heiden geld verlangt wird. Und im OpenSource/Freeware-Bereich gibbet so tools für heise.de, wetterseiten, börsenseiten - also ja auch wieder illegal ;) da filtere ich mir von den seiten ja nur das raus was ich brauche ;) und die werbung geht da verloren ;)

Btw: das Lexikon ist nur ein zusatzangebot zu dem Shop der dort betrieben wird.

Bis denne
Wuppi
Seether
Mitglied
Beiträge: 1446
Registriert: 10.10.2002 23:42

Beitrag von Seether »

Wenn die Seiten alle gleich aufgebaut sind, dann würde ich es via PHP-Script machen.


S.
Wuppi_o_L

Beitrag von Wuppi_o_L »

Hi

jo sindse ... PHP-Script? Da hab ich was gelesen wie man von wetter.de seine Wetterdaten bekommt, in ne db schreibt und per SMS wieder raus ... war aber ASP ... und wieder nur auf wetter.de gemünzt.

PHP kann ich nur so das grobe, so nen script verlangt sicher nen bissel mehr knowhow.
Seether
Mitglied
Beiträge: 1446
Registriert: 10.10.2002 23:42

Beitrag von Seether »

Ist einfacher als Du denkst.

Schau Dir an wie Du ne Seite öffnest via fsockopen und dann durchsuchst Du den Quelltext bist Du bei der Spalte bist die Du haben willst.


S.
Antworten

Zurück zu „Coding & Technik“