HTML Extrakt

14/09/2016 - 14:06 von Wendelin Uez | Report spam
Ich möchte aus einer HTML-Seite ein bestimmtes Stück Text auslesen. Das hat
leider kein Tag, ich muß daher im HTML-Code nach einer bestimmten
Textsequenz suchen (kein Problem) und von da an die folgenden 9 Textausgaben
(evtl. einschl. Leerzeilen) herausfinden, die 9. ist die gesuchte
Information.

Bevor ich mir jetzt einen Parser schreibe, der auch mit geschachtelten Tags
klar kommt, gibt es irgendwo einen Beispielcode, wo sowas schon mal gemacht
wurde?
 

Lesen sie die antworten

#1 Klaus Ketelaer
16/09/2016 - 00:46 | Warnen spam
Am 14.09.2016 um 14:06 schrieb Wendelin Uez:
Ich möchte aus einer HTML-Seite ein bestimmtes Stück Text auslesen. Das
hat leider kein Tag, ich muß daher im HTML-Code nach einer bestimmten
Textsequenz suchen (kein Problem) und von da an die folgenden 9
Textausgaben (evtl. einschl. Leerzeilen) herausfinden, die 9. ist die
gesuchte Information.

Bevor ich mir jetzt einen Parser schreibe, der auch mit geschachtelten
Tags klar kommt, gibt es irgendwo einen Beispielcode, wo sowas schon mal
gemacht wurde?



Hallo Wendelin,
wenn Du aus aus einer Seite, ab einer bestimmten Textsequenz die
9. Textausgabe benötigst, dann bedeutet das doch, dass die Seite
ein bekanntes und festes Format hat.

Wo ist das Problem, "auf die Schnelle" den 9. Text zu finden?

Die Art der Ausgabe wird ja nicht permanent variieren, also mal
als <p>,<h1>,<td>, usw.. Und wenn doch ist es ja noch leichter
die Zeile da raus zu fischen.

Ich habe die Erfahrung gemacht, dass ein universeller Parser in
so einem Fall suboptimal ist, und habe das daher stets mehr oder
weniger hart kodiert.

In diesem Fall würde ich mich einfach mit Instr durch die Seite
hangeln, bis ich die Zeile gefunden habe.

Gruß Klaus

Ähnliche fragen