Links aus HTML Datei auslesen

11/08/2009 - 22:13 von Tamara Mikes | Report spam
Salü alle zusammen

Ich habe eine komische Aufgabe gefasst und stehe natürlich mal wieder an.

Ich bekomme von einem System den Link zu einer HTML Seite geliefert. Z.b.
http://MeineDomain.de/ProduktListeChamie.html
Nun soll ich aus dieser Datei a) die Produkte welche immer mit "Produkt:
Alminsàure." gekennzeichnet sind (Fàngt mit dem Wort Produkt: an und endet
mit dem Punkt. und b) alle Hyperlinks im Dokument finden und denen nachgehen
um die abhàngigen Produkte zu finden.

Nun gibt es glaube ich verschiedene Lösungen diese Elemente zu suchen.
Jemand hat mir gesagt, ich solle Regulàre Ausdrücke verwenden. Jemand anders
hat gesagt, das wàre zu unsicher ich solle die HTML Datei in XML umwandeln
und dann auf die Attribute zurück greifen.

Was ist die sinnvollste Vorgehensweise? Soll ich mit den String-Funktionen
einfach suchen wo Produkt steht, dann den Punkt suchen, ausrechnen wie viel
Differenz dazwischen liegt und dann das so raus filtern? In VB hàtte ich das
mit den Funktionen InStr Mid Len und so gemacht. C# Kennt das ja auch so
àhnlich. Oder gibt es bessere Lösungen?

Vielen Dank für zündende Anregungen
Viele Grüsse
Tamara
 

Lesen sie die antworten

#1 Frank Dzaebel
11/08/2009 - 22:31 | Warnen spam
Hallo Tamara,

Ich bekomme von einem System den Link zu einer HTML Seite geliefert.
Z.b. http://MeineDomain.de/ProduktListeChamie.html
Nun soll ich aus dieser Datei a) die Produkte welche immer mit
"Produkt: Alminsàure." gekennzeichnet sind (Fàngt mit dem Wort
Produkt: an und endet mit dem Punkt. und b) alle Hyperlinks im
Dokument finden und denen nachgehen um die abhàngigen Produkte zu
finden.



Ansàtze hier:

[MSHTML ohne WebBrowser als Parser benutzen]
http://dzaebel.net/MshtmlParser.htm

Gern wird auch mal das:

[Html Agility Pack - Home]
http://www.codeplex.com/htmlagilitypack

benutzt.




Nun gibt es glaube ich verschiedene Lösungen diese Elemente zu suchen.
Jemand hat mir gesagt, ich solle Regulàre Ausdrücke verwenden. Jemand
anders hat gesagt, das wàre zu unsicher ich solle die HTML Datei in
XML umwandeln und dann auf die Attribute zurück greifen.



Der zweite (letztere) hat Recht.


ciao Frank
Dipl.Inf. Frank Dzaebel [MCP/MVP C#]
http://Dzaebel.NET

Ähnliche fragen