Fehlertoleranter DOM-Parser für FreePascal

14/02/2009 - 12:32 von Michael Fuchs | Report spam
Hallo,

ich verzweifele gerade an einem kleinen Projekt. Dazu muss ich aus einem
HTML-Dokument eine Tabelle extrahieren. DUmmerweise ist dieses DOkument
so fehlerhaft und dreckig, dass der mit FPC-mitkommende Parser nur
Exceptions wirft. Kennt jemand einen toleranteren Parser?

mfg
Micha
Meine Wanderungen durch Realitàt und Cyberspace

auf --> http://www.michael-fuchs.net <--
 

Lesen sie die antworten

#1 Steffen Christgau
14/02/2009 - 13:08 | Warnen spam
Moin Micha,

Dazu muss ich aus einem HTML-Dokument eine Tabelle extrahieren.
DUmmerweise ist dieses DOkument so fehlerhaft und dreckig, dass der
mit FPC-mitkommende Parser nur Exceptions wirft. Kennt jemand einen
toleranteren Parser?



Anderer Vorschlag: Dokument erst durch Tidy (mit XML-Ausgabe) jagen und
dann verarbeiten. Das ist vielleicht einfacher.

Gruß

Steffen

Ähnliche fragen