Seite 1 von 1

Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Verfasst: 07.10.2010 10:54
von SirDaemian
Hallo Community,

ich baue gerade eine Art Knowledgebase auf Basis von phpbb auf. In dieser Knowledgebase sind auch eine Menge Anleitungen im PDF Format zu finden, die ich natürlich nicht über Copy & Paste in einen Beitrag verwandeln will, also werden sie als Dateianhänge an die Beiträge gehängt.

Wenn die User jetzt nach einer bestimmten Anleitung/Thema in der Anleitung suchen, werden sie dies natürlich nicht finden, weil die PDF Dateien nicht durchsucht werden.

Die deutsche und englische Mod Datenbank hab ich schon auf den Kopf gestellt, aber leider nichts passendes gefunden.

Gibts da die Möglichkeit eines Workarounds oder hat einer eine Lösung dafür?

Danke schonmal.

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Verfasst: 07.10.2010 11:17
von posaunen
Ein möglicher Workaround besteht darin die relevanten Suchbegriffe in den Text des Beitrags aufzunehmen.

Nebenbei. Als es noch keine Volltextsuche gab, ging das nur durch die Erstellung solcher manueller Indexlisten (hießen damals z.Bsp. Karteikarten). Ist natürlich ein redaktioneller Aufwand - führt aber zu einer ausgezeichneten Qualität der gefundenen Suchergebnisse.

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Verfasst: 07.10.2010 11:48
von SirDaemian
Wäre möglich, ist aber für diesen Einsatzbereich leider keine alternative. Wir haben hier mehrere hundert PDF Dateien die zum Teil auch mehrere hundert Seiten haben.

Wenn ich die neben dem Hochladen (dauert ja schon ne ganze Zeit bis die mal alle angehängt sind) auch noch nach den relevanten Begriffen durchsuchen muss (und man weiß ja das jeder nach anderen Begriffen sucht), bin ich leider nicht vor dem Rentenantrag fertig. :)

Es wäre schon recht schön, wenn man die automatisiert indexieren könnte.

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Verfasst: 08.10.2010 08:27
von SirDaemian
So, nach ein bisschen Recherche, bin ich auf eine für mich annehmbare Lösung gekommen, die es jetzt zu entwickeln gilt.

Zur Erklärung:

Der Server läuft auf Linux Basis, daher lassen sich PDF Dateien mit pdftotext in eine Textdatei extrahieren. Wie das geht wir hier beschrieben.

Am liebsten hätte ich jetzt, dass die Dateien beim Hochladen als PDF erkannt, in txt extrahiert, der Text indexiert und die txt-Datei wieder gelöscht wird.

Programmierkenntnisse selbst sind vorhanden, ich bräuchte nur einen Anhaltspunkt in welchen Dateien die einzelnen Funktionen zu finden sind, die für die Umsetzung benötigt werden.

Danke.


EDIT: Den ersten Teil (Auslesen der PDF Dateien) hab ich schon fertig, aber das mit der Indexierung fehlt mir noch.

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Verfasst: 21.09.2016 18:41
von phpfriend
Gibt es hierfür eine Lösung?

Ich stehe just vor einer ähnlichen Anforderung: Datenanhänge (Word, Text) sollen aus den Beiträgen indiziert werden um über die (eine) Suche anschließend gefunden zu werden. :geek: :-?