Text extrahieren - in mysql datenbank speichern

23/04/2009 - 13:44 von mowsen | Report spam
hallo leute

ich hab hier ein word dokument dessen text ich in eine mysql datenbank
ueberfuehren soll. je nachdem wie der text formatiert ist (fett /
kursiv / schriftgroesse) soll er in verschiedene tabellen in der
datenbank gespeichert werden. nun ist die frage wie ich da ganz
allgemein rangehen soll um das dokument zu parsen. mit vba, oder was
wuerdet ihr dafuer nehmen?

gruss,
maze
 

Lesen sie die antworten

#1 Robert M. Franz [RMF]
23/04/2009 - 18:29 | Warnen spam
Hallo Maze

wrote:
ich hab hier ein word dokument dessen text ich in eine mysql datenbank
ueberfuehren soll. je nachdem wie der text formatiert ist (fett /
kursiv / schriftgroesse) soll er in verschiedene tabellen in der
datenbank gespeichert werden. nun ist die frage wie ich da ganz
allgemein rangehen soll um das dokument zu parsen. mit vba, oder was
wuerdet ihr dafuer nehmen?



am besten stellst Du diese Frage in der .vba-Gruppe.

Ich als nicht-Programmierer frage mich: willst Du die Datei selbst
(evtl. extern von Word) parsen? Dann nimm auf jeden Fall das neue
Dokumentformat "DOCX" an die Hand (kriegst Du aus dem DOC mit Word 2007
oder einem CompatibilityPack bis und mit Word 2000 runter). Oder (wenn
Du "nur" ein Word 2003 aus Office Professional zur Hand hast, dort
"XML". Oder zur Not halt auch RTF, für diesen Zweck vielleicht auch
gleich HTML -- làsst sich alles sicher leichter parsen als das binàre DOC.

Innerhalb von Word, ja, da kannst Du mit VBA vemutlich am schnellsten
was hinbiegen, wie Du durch alle Absàtze des Fliesstextbereichs
schleifen kannst und je nach Formatierung mit dem Text was anderes machst.

Ob und wie Du das dann gleich live via VBA in die DB schreiben kannst
oder besser woanders hin, da können sich wieder die .vba-Jungs besser
àussern ... :-)

Gruss
Robert
/"\ ASCII Ribbon Campaign | MSFT |
\ / | MVP | Scientific Reports
X Against HTML | for | with Word?
/ \ in e-mail & news | Word | http://www.masteringword.eu/

Ähnliche fragen