Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Du suchst einen bestimmten Mod, weißt aber nicht genau wo bzw. ob er überhaupt existiert? Wenn dir dieser Artikel nicht weiterhilft, kannst du hier den von dir gewünschten/gesuchten Mod beschreiben ...
Falls ein Mod-Autor eine der Anfragen hier aufnimmt, um einen neuen Mod zu entwickeln, geht's in [3.0.x] Mods in Entwicklung weiter.
Forumsregeln
phpBB 3.0 hat das Ende seiner Lebenszeit überschritten
phpBB 3.0 wird nicht mehr aktiv unterstützt. Insbesondere werden - auch bei Sicherheitslücken - keine Patches mehr bereitgestellt. Der Einsatz von phpBB 3.0 erfolgt daher auf eigene Gefahr. Wir empfehlen einen Umstieg auf die neuste phpBB-Version, welches aktiv weiterentwickelt wird und für welches regelmäßig Updates zur Verfügung gestellt werden.
Antworten
SirDaemian
Mitglied
Beiträge: 3
Registriert: 05.10.2010 08:23

Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Beitrag von SirDaemian »

Hallo Community,

ich baue gerade eine Art Knowledgebase auf Basis von phpbb auf. In dieser Knowledgebase sind auch eine Menge Anleitungen im PDF Format zu finden, die ich natürlich nicht über Copy & Paste in einen Beitrag verwandeln will, also werden sie als Dateianhänge an die Beiträge gehängt.

Wenn die User jetzt nach einer bestimmten Anleitung/Thema in der Anleitung suchen, werden sie dies natürlich nicht finden, weil die PDF Dateien nicht durchsucht werden.

Die deutsche und englische Mod Datenbank hab ich schon auf den Kopf gestellt, aber leider nichts passendes gefunden.

Gibts da die Möglichkeit eines Workarounds oder hat einer eine Lösung dafür?

Danke schonmal.
posaunen
Mitglied
Beiträge: 402
Registriert: 21.04.2004 20:05

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Beitrag von posaunen »

Ein möglicher Workaround besteht darin die relevanten Suchbegriffe in den Text des Beitrags aufzunehmen.

Nebenbei. Als es noch keine Volltextsuche gab, ging das nur durch die Erstellung solcher manueller Indexlisten (hießen damals z.Bsp. Karteikarten). Ist natürlich ein redaktioneller Aufwand - führt aber zu einer ausgezeichneten Qualität der gefundenen Suchergebnisse.
SirDaemian
Mitglied
Beiträge: 3
Registriert: 05.10.2010 08:23

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Beitrag von SirDaemian »

Wäre möglich, ist aber für diesen Einsatzbereich leider keine alternative. Wir haben hier mehrere hundert PDF Dateien die zum Teil auch mehrere hundert Seiten haben.

Wenn ich die neben dem Hochladen (dauert ja schon ne ganze Zeit bis die mal alle angehängt sind) auch noch nach den relevanten Begriffen durchsuchen muss (und man weiß ja das jeder nach anderen Begriffen sucht), bin ich leider nicht vor dem Rentenantrag fertig. :)

Es wäre schon recht schön, wenn man die automatisiert indexieren könnte.
SirDaemian
Mitglied
Beiträge: 3
Registriert: 05.10.2010 08:23

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Beitrag von SirDaemian »

So, nach ein bisschen Recherche, bin ich auf eine für mich annehmbare Lösung gekommen, die es jetzt zu entwickeln gilt.

Zur Erklärung:

Der Server läuft auf Linux Basis, daher lassen sich PDF Dateien mit pdftotext in eine Textdatei extrahieren. Wie das geht wir hier beschrieben.

Am liebsten hätte ich jetzt, dass die Dateien beim Hochladen als PDF erkannt, in txt extrahiert, der Text indexiert und die txt-Datei wieder gelöscht wird.

Programmierkenntnisse selbst sind vorhanden, ich bräuchte nur einen Anhaltspunkt in welchen Dateien die einzelnen Funktionen zu finden sind, die für die Umsetzung benötigt werden.

Danke.


EDIT: Den ersten Teil (Auslesen der PDF Dateien) hab ich schon fertig, aber das mit der Indexierung fehlt mir noch.
phpfriend
Mitglied
Beiträge: 1
Registriert: 21.09.2016 17:37

Re: Durchsuchen von Dateianhängen (Vorzugsweise PDF)

Beitrag von phpfriend »

Gibt es hierfür eine Lösung?

Ich stehe just vor einer ähnlichen Anforderung: Datenanhänge (Word, Text) sollen aus den Beiträgen indiziert werden um über die (eine) Suche anschließend gefunden zu werden. :geek: :-?
Antworten

Zurück zu „[3.0.x] Mod Suche/Anfragen“