[Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben

21/07/2013 - 15:16 von robert rottermann | Report spam
Hoi zàme,

ich möchte eine Liste der Webseiten zusammentragen, die sich mit
"erneuerbarer Energie" befassen.
Dabei will ich mich möglichst auf eine relative eng begrenzte
geografische Region beschrànken.

Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so
Bezüge unter inhnen bzw. den Organisationen, die die Webseiten
unterhalten, darstellen zu können.

Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.

Hat jemand Vorschlàge, wie so etwas gemacht werden soll?

Ich stelle mir folgenden Stack von Aktionen vor:

1. Suchen mit Google/Bing .. nach den Stichworten
2. ausfiltern der Resultate aufgrund der deren IP Adresse
3. Scrappen der gefundenen Sites um die Information zu "verdichten"
4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.

Hat jemand schon so was gemacht?
Oder hat mir jemand Tips wie man sowas sinvoll macht?

danke für eure Antworten
und
schaut, dass der Sommer noch ein wenig bleibt..

gruss
robert
 

Lesen sie die antworten

#1 Hubert Grünheidt
24/07/2013 - 21:06 | Warnen spam
Wow, anspruchsvolles Projekt!

Mein Input:
- Die IP-Adressen der Server sind für eine geographische Eingrenzung
nicht nutzbar, wenn die Granularitàt besser als das Land sein soll. Wenn
es nur um das Land geht, wird es vom gewünschten Land abhàngen, wie gut
die Lànderzuordnung der IP des Webservers für eine geographische
Zuordnung der Ergebnisinhalte funktioniert.
Für Deutschland dürfte das gut funktionieren, weil es keine Gründe für
ein Ausweichen auf "auslàndische Server" gibt (Bandbreite, Verfügbarkeit
und Preis sind alle OK); für Brasilien (angeblich lassen viele
Brasilianische Firmen ihre Seiten in den USA hosten) dürfte das dann
nicht so gut funktionieren.
Für alles unter der Granularitàt "Land" funktioniert das aus Gründen
nicht, wie
- die überregionalen Zeitungen haben die Server an einem Ort,
schreiben aber über landesweite Ereignisse
- viele Vereine, Firmen und Blog-Schreiber hosten "irgendwo" und
"irgendwo" heißt, bei Hetzner, Host-Europe, der Telekom und nicht "in
Region XY"

- Suche mit "lokale Ergebnisse bevorzugen" (oder wie immer das gerade in
der Suchmaschine genannt wird) in einer Suchmaschine die das kann dürfte
vielleicht eine gute Vorsortierung geben, die den Lokalisierungsteil,
den du dir wünschst, ganz gut abdeckt.

- Alternativ kann man Stàdtenamen der Region in die Suche einpflegen.
Zumindest Google bietet in der Suchsyntax die Option "eins von den
folgenden Wörtern" (als extended regex wàre das: '(bla|bli|blubb)'). Da
ist halt dann ein bischen Fleißarbeit beim Raussuchen der Ortsnamen gefragt.

hoffe, es war nützlich,
Hubert



On 07/21/2013 03:16 PM, robert rottermann wrote:
Hoi zàme,

ich möchte eine Liste der Webseiten zusammentragen, die sich mit
"erneuerbarer Energie" befassen.
Dabei will ich mich möglichst auf eine relative eng begrenzte
geografische Region beschrànken.

Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so
Bezüge unter inhnen bzw. den Organisationen, die die Webseiten
unterhalten, darstellen zu können.

Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.

Hat jemand Vorschlàge, wie so etwas gemacht werden soll?

Ich stelle mir folgenden Stack von Aktionen vor:

1. Suchen mit Google/Bing .. nach den Stichworten
2. ausfiltern der Resultate aufgrund der deren IP Adresse
3. Scrappen der gefundenen Sites um die Information zu "verdichten"
4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu
schaffen.

Hat jemand schon so was gemacht?
Oder hat mir jemand Tips wie man sowas sinvoll macht?

danke für eure Antworten
und
schaut, dass der Sommer noch ein wenig bleibt..

gruss
robert

Ähnliche fragen