Loading...
 
Skip to main content

History: Innerhalb von Dateien suchen

Source of version: 4 (current)

Copy to clipboard
            {syntax type="markdown"  editor="wysiwyg"} {BOX()} Beginnend mit Tiki8 sind viele Handler [http://tikiwiki.svn.sourceforge.net/viewvc/tikiwiki?view=revision&revision=34667|in den Code eingebunden] {BOX}

# Innerhalb von Dateien suchen


Sollen die Inhalte von Dateien aus den ((File Gallery|Dateiarchiven)) von der ((search|Suchfunktion)) durchsucht werden können, und hast Du ein Skript, welches den jeweiligen Dateiinhalt in einen Text extrahiert, dann kannst Du dieses Skript mit dem MIME-Typ verknüpfen und die Dateiinhalte werden sodann indexiert.

Sollen Dateien in den Dateiarchiven durchsucht werden, musst Du den Handler zum Extrahieren des Textes aus den Dateien angeben. Die Befehle, wie z.B. *strings* oder *pdftotext* müssen dabei auf Deinem Server installiert sein. Der jeweiligen Typ-Befehl muss im ((Gallery Search Indexing|Indexierungs-Tab)) unter ((File Gallery|Dateiarchive verwalten)) definiert werden.

| **MIME Typ** | **Systembefehl** | **Ubuntu/Debian Paket mit Befehl** |
|---|---|---|
| application/vnd.oasis.opendocument.presentation | odt2txt %1 | odt2txt |
| application/vnd.oasis.opendocument.spreadsheet | odt2txt %1 | odt2txt |
| application/vnd.oasis.opendocument.text | odt2txt %1 | odt2txt |
| application/ms-excel | xls2csv %1 | catdoc |
| application/ms-powerpoint | catppt %1 | catdoc |
| application/msword | catdoc %1 <br /> oder <br /> strings %1 | catdoc |
| application/pdf | pstotext %1 <br /> oder <br /> pdftotext %1 - | pstotext |
| application/postscript | pstotext %1 | pstotext |
| application/ps | pstotext %1 | pstotext |
| application/rtf | catdoc %1 | catdoc |
| application/sgml | col -b %1 <br /> oder <br /> strings %1 | bsdmainutils |
| application/vnd.ms-excel | xls2csv %1 | catdoc |
| application/vnd.ms-powerpoint | catppt %1 | catdoc |
| application/x-msexcel | xls2csv %1 | catdoc |
| application/x-pdf | pstotext %1 | pstotext |
| application/x-troff-man | man -l %1 | man-db |
| text/enriched | col -b %1 <br /> oder <br /> strings %1 | bsdmainutils |
| text/html | elinks -dump -no-home %1 | elinks |
| text/plain | col -b %1 <br /> oder <br /> strings %1 | bsdmainutils |
| text/richtext | col -b %1 <br /> oder <br /> strings %1 | bsdmainutils |
| text/sgml | col -b %1 <br /> oder <br /> strings %1 | bsdmainutils |
| text/tab-separated-values | col -b %1 <br /> oder <br /> strings %1 | bsdmainutils |



Zum Extrahieren können verschiedene Werkzeuge genutzt werden. Viele Unix Sites benutzen "strings", welches versucht Text in Dateien zu erkennen - allerdings nicht mit der Genauigkeit eines speziellen Werkzeuges für den MIME-Typ.

Stelle sicher, dass der Systembefehl seine Ausgabe auf dem Bildschirm (Standardausgabe) und nicht in eine Datei vornimmt. Probiere den Befehl vorher in einer Konsole und lies die Anleitung. Z.B. benötigt pdftotext ein nachfolgendes "-".

Ggf. muss der Tiki ((Cache)) nach der Installation eines neuen Handlers geleert werden, damit das System den Handler erkennt.

Es ist vorteilhaft, [http://www.php.net/manual/en/book.fileinfo.php|Fileinfo] zu installieren, um falsch indentifizierte MIME-Typen zu vermeiden.

Verwandt:

- http://stosberg.net/odt2txt/