Mit RegEx aus einer HTML alles von

08/09/2009 - 23:36 von Andreas Mahub | Report spam
Hi Leute,

also aus RegEx werde ich wahrscheinlich nie nie nie nie schlau. Ich versuche
die ganze Zeit aus unterschiedlichen HTMLs alle Links rauszuziehen. Dabei
möchte ich in drei Schritten vorgehen:

Schritt 1.)
In einer List(Of String) wird der ganze Link gespeichert, der z.B. so
aussehen könnnte:
<a class="class1" alt="da steht was drin" href="index.html"><img
source="/images/image.gif" border="0"><br>Noch ein kleiner Text</a>
Das würde ich ganz gerne von vorne bis hinten haben wollen. Aber wie mache
ich das?!

Schritt 2.)
Ich gehe dann alle gefundenen Eintràge durch um zu ermitteln was alles
angegeben wurde, also href, class, alt, etc.

Schritt 3.)
Danach möchte ich ermitteln was zwischen <a...> und </a> als Linktext
vorkommen KÖNNTE (nicht immer kommt auch Text vor).

So, ich scheitere aber an Schritt 1. Ich hatte heute schon so viele
Try&Errors :-(
Kann mir da bitte einer auf die Sprünge helfen?!

Gruß
Andy
 

Lesen sie die antworten

#1 Andreas Mahub
09/09/2009 - 00:18 | Warnen spam
Hi,

vergesst Schritt 1 !!!
Ich habe mich gerade dafür entschieden, den HTML-String mit einer simplen
String.ToLower.IndexOf("<a">) und der anschließenden Suche nach
String.ToLower.IndexOf("</a>") "abzugrasen". Mit RegEx bestimmt 5-6 Zeilen
weniger Code, aber bevor ich überhaupt nicht mehr vorwàrts komme...

Aber vielleicht kann mir jemand einen sicheren Tipp geben für Schritt 2 und
3?! :-)
Sobald bei mir eckige und geschweifte Klammern auf dem Bildschirm flimmern,
bekomme ich achteckige Augen und verstehe nur Bahnhof. :-(

Gruß
Andy

"Andreas Mahub" schrieb im Newsbeitrag
news:
Hi Leute,

also aus RegEx werde ich wahrscheinlich nie nie nie nie schlau. Ich
versuche die ganze Zeit aus unterschiedlichen HTMLs alle Links
rauszuziehen. Dabei möchte ich in drei Schritten vorgehen:

Schritt 1.)
In einer List(Of String) wird der ganze Link gespeichert, der z.B. so
aussehen könnnte:
<a class="class1" alt="da steht was drin" href="index.html"><img
source="/images/image.gif" border="0"><br>Noch ein kleiner Text</a>
Das würde ich ganz gerne von vorne bis hinten haben wollen. Aber wie mache
ich das?!

Schritt 2.)
Ich gehe dann alle gefundenen Eintràge durch um zu ermitteln was alles
angegeben wurde, also href, class, alt, etc.

Schritt 3.)
Danach möchte ich ermitteln was zwischen <a...> und </a> als Linktext
vorkommen KÖNNTE (nicht immer kommt auch Text vor).

So, ich scheitere aber an Schritt 1. Ich hatte heute schon so viele
Try&Errors :-(
Kann mir da bitte einer auf die Sprünge helfen?!

Gruß
Andy

Ähnliche fragen