Volltextsuche in Dateien

08/01/2011 - 16:04 von ram | Report spam
Vermutlich können Suchprogramme in PDF-, DOC- und HTML-Dateien
mit verschiedenen Kodierungen (ISO-8859-1, UTF-8, ...) Wörter
finden.

Ich möchte nun Worthàufigkeiten in einem bestimmten Korpus
von PDF-, DOC- und HTML-Dateien auswerten. Dabei ist es
natürlich ein Problem, daß diese uneinheitlich kodiert sind.

Suchprogramme müssen aber (1. Absatz) schon einen Programmteil
enthalten, der Quelldateien verschiedener Formatierung in ein
einheitliches Textformat umwandelt.

Kennt jemand vielleicht ein Suchprogramm, das diese Funktion
auch unabhàngig von der Suchfunktion bereitstellt, so daß
man aus Dateien verschiedener Dateitypen erst einmal
Textdateien extrahieren kann, die alle einheitlich in UTF-8
kodiert sind? Oder sonst eine Möglichkeit, so etwas
möglichst automatisch zu erledigen, damit man es nicht
erst selber programmieren muß?
 

Lesen sie die antworten

#1 Herrand Petrowitsch
08/01/2011 - 16:45 | Warnen spam
"Stefan Ram" schrieb

[wieder einmal wiederholt beanstandete Blanks am Zeilenbeginn]



Sieh dir bitte AgentRansack an:
http://www.mythicsoft.com/page.aspx...;page=home

Aus der AR Hilfe:

| File System Unicode Support:
| Agent Ransack is built with the Windows Unicode libraries
| and therefore supports searching of the file system with full
| Unicode support.

| Content Searching Unicode Support:
| Content searching of files processed by extensions
| (such as IFilters) supports Unicode searching if the
| underlying format supports Unicode.

| Text file searching supports Unicode if the file can be
| identified as Unicode, either by a Byte Order Marker (BOM)
| or an XML encoding declaration at the beginning of an XML file.
| The Unicode types supported are UTF-16LE, UTF-16BE, and UTF-8.

| Binary searching of non-identifiable file types, such as EXE etc.,
| is carried out using an ASCII search.

Gruß Herrand

Ähnliche fragen