web scrapping mit Python und IE(?)

12/03/2010 - 19:17 von Andreas Bruhn | Report spam
Hi allerseits,

ich habe mal wieder ein altes Problem auf dem Tisch: verschiedene
Webseiten aufrufen, Daten in Felder eintragen und Daten von Webseiten
extrahieren.

Für den Aufruf der Webseiten würde ich ja normalerweise urllib2 nehmen
und gut ist...
Aber mindestens eine der gewünschten Webseiten besteht zu mindestens
90% aus Javascript-Code der erstmal irgendwie verarbeitet werden muss
bevor ich etwas von den interessanten Daten sehe.

Also bleibt vermutlich nichts anderes übrig, als einen Browser
fernzusteuern und dem die Beschàftigung mit JavaScript zu überlassen.

Laufen soll das ganze unter Windows, also setze ich auch mal einen
installierten Internet Explorer voraus.

Nun habe ich im Web verschiedene mehr oder weniger alte/aktuelle
Webseiten zum Thema (webscrapping bzw. fernsteuern vom IE) gefunden.
Teilweise von 2004 und 2005.

Aber bevor ich mir die alle anschaue die Frage in die Runde: Kennt
jemand den einen oder anderen Link und hat einen Kommentar dazu (z.b.
"Kenne ich, ist alls Murks was dort steht" oder "Da gibt es noch eine
aktuellere viel bessere Möglichkeit/Webseite" oder so)?

PAMIE und SpiderMonkey bzw. python-SpiderMonkey habe ich jetzt zum
erstenmal entdeckt und frage mich nun "ist das alter Kram oder lohnt
es sich das mal nàher zu betrachten". Spidermonkey ist jedenfalls
neuer als PAMIE, aber lohnt es sich?

Nun die Links...
=Ein alter Text:

http://snippets.dzone.com/posts/show/289

dazu gehört PAMIE:

http://pamie.sourceforge.net/

und noch ein alter Text der auch auf PAMIE verweist:

http://win32com.goermezer.de/content/view/203/243/



Direkt was mit dem InternetExplorer.Application COM-Objekt:

http://www.evilbitz.com/2006/10/22/...-tutorial/

ebenso hier

http://www.goermezer.de/content/view/430/616/

und hier

http://www.goermezer.de/content/view/429/538/


Hier ...

http://www.akasig.org/2004/12/29/we...-crawling/
http://www.akasig.org/2005/03/11/we...n-part-ii/
http://www.akasig.org/2004/09/03/we...th-python/

wird das mechanize-Framework benutzt, aber wer kümmert sich da um
Javascript? Wohl eher nichts für mich.


http://wwwsearch.sourceforge.net/DOMForm/

sah zuerst auch unpassend (wegen JavaScript) aus. Dann hatte ich aber
den Link zu SpiderMonkey bzw. python-spidermomkey gesehen:

http://pypi.python.org/pypi/python-spidermonkey

http://www.mozilla.org/js/spidermonkey/



Grüße,
Andreas
 

Lesen sie die antworten

#1 Gerold Penz
14/03/2010 - 09:43 | Warnen spam
Andreas Bruhn schrieb:
Webseiten aufrufen, Daten in Felder eintragen und Daten von Webseiten
extrahieren.



Hallo Andreas!

Man könnte das wahrscheinlich mit einer selbstgeschriebenen, einfachen
Firefox-Erweiterung lösen. Eines ist zumindest sicher -- du kommst nur
in Verbindung mit einem potenten Browser, der Javascript interpretieren
kann, weiter.

Ich habe es noch nie ausprobiert -- aber vielleicht funktioniert es
bereits damit:

- http://seleniumhq.org/

Selenium kann mit Python gesteuert werden:

- http://seleniumhq.org/projects/remote-control/
- http://pypi.python.org/pypi?%3Aacti...mit=search
- http://seleniumhq.org/docs/05_selen...tml#python


mfg
Gerold
:-)

Gerold Penz - http://halvar.at
Wissen hat eine wunderbare Eigenschaft:
Es verdoppelt sich, wenn man es teilt.

Ähnliche fragen