2 Millionen Adressen abgleichen

16/12/2008 - 10:24 von Bjoern | Report spam
Moin!

Ich habe folgende Aufgabe bekommen, die mir etwas Kopfschmerzen bereitet:

Ich muss knapp 2 Millionen österreichische Adressen auf Korrektheit prüfen,
dazu habe ich einen vorhandenen Adressbestand (das sind die knapp 2 Mio), und
eine offizielle DVD von der österreichischen Post, die alle gültigen Adressen
aus Österreich enthàlt (ohne Namen, nur die Adressen selbst)
Beide Datenstànde liegen mir in Form von Access-Tabellen vor.

Das Problem in Österreich ist, dass es dort neben der Hausnummer noch
weitere Angaben gibt (Stiege, Stock, Tür...)
Diese Angaben sind im vorhandenen Adressstamm teilweise in separaten Feldern
gespeichert, oder gar nicht, oder aber direkt hinter die Hausnummer
geschrieben.

Ein paar Beispiele:

Straße Stiege Stock Tür
Ahornweg 2 3 3 34
Ahornweg 2 S3/S3/T34
Ahornweg 2 3/3/34
Ahornweg 2

Ein und die selbe Adresse kann also in verschiedener Form vorliegen

Bei den Daten von der DVD liegen die Zusatzinformationen in separaten
Spalten vor, aber auch da ist es nicht einheitlich geregelt

Erschwerend kommen noch solche tollen Sachen wie "Ahornweg 2 bis 4"
"Ahornweg 2-4" dazu, die auch noch in Kombination mit obigen Beispielen
vorkommen können.

Ich muss nun also für jede Adresse aus dem Adressstamm ermitteln, ob diese
auf der DVD vorhanden ist, und wenn ja, die vorhandenen Daten (insbesondere
die Hausnummer) zerlegen und in die entsprechenden Spalten schreiben.
Um einen Abgleich überhaupt machen zu können, muss ich erstmal die
Hausnummer der Daten aus unserem Adressstamm zerlegen.

Dazu hàtte ich gerne ein Programm, dass das erledigt.

weiß einer wie man das machen kann, oder ob es schon etwas am Markt gibt?
Ich habe in Access VBA damit angefangen, aber es ist ein Fass ohne Boden...
Und für Handarbeit sind es eindeutig zu viele Datensàtze.
Da es sich um ein Problem handelt, was sicher sehr hàufig auftritt, gehe ich
davon aus, dass es bestimmt schon Lösungen dafür gibt.

Freue mich auf tipps!

Danke und viele Grüße,

Björn
 

Lesen sie die antworten

#1 Thomas Winkler
16/12/2008 - 10:54 | Warnen spam
Hi,

Dazu hàtte ich gerne ein Programm, dass das erledigt.

weiß einer wie man das machen kann, oder ob es schon etwas am Markt gibt?
Ich habe in Access VBA damit angefangen, aber es ist ein Fass ohne Boden...
Und für Handarbeit sind es eindeutig zu viele Datensàtze.
Da es sich um ein Problem handelt, was sicher sehr hàufig auftritt, gehe ich
davon aus, dass es bestimmt schon Lösungen dafür gibt.



Da muss ich Dich enttàuschen. Mir ist keine Lösung bekannt, die das
zuverlàssig kann. Man kann natürlich ein Programm schreiben (oder
kaufen) welches mit einer bestimmten Warscheinlichkeit Zuordnungen
verifizieren/falsifizieren kann. Aber am Ende kannst Du dennoch nicht
100%ig sagen, dass *alle* Zuordnungen korrekt waren. Verabschiede Dich
von der Vorstellung, das alles automatisiert und zu 100% erledigt zu
bekommen. Investiere Deine Zeit in die Suche nach Algorithmen, die das
*möglichst* zuverlàssig (schàtzungsweise 95%-98% könnten drin sein) können.

Das Problemfeld ist viel umfangreicher als Du es Dir vorstellst. Damit
beschàftigen sich ganze Wissenschaften. Das ist nicht "mal eben so"
"zwischen Tür und Angel" gelöst.

Das Problem welches Du hast, ist das Kuh-Hackfleisch-Problem, wie ich es
zu nennen pflege.

Ursache ist die mangelhafte Datenerfassung der vorhandenen 2 Mio
Adressen. Dort wurden eigentlich atomare Informationen vermischt (Straße
mit Stockwerk etc.). Das ist in der Analogie das Hackfleisch. Du
versuchst jetzt, aus dem Hackfleisch wieder eine Kuh zu machen
(vermischte Informationen in atomare Einheiten zu trennen), was per
Definition nicht gelingen kann. Das Ergebnis kann höchstens etwas
"àhnliches" sein, aber nie wieder eine Kuh. Anderes Beispiel:
verlustbehaftete Kompression.

Stichworte:
"Soundex"
"Metaphone"
"Fuzzy-Logik"

Links:
http://de.wikipedia.org/wiki/Soundex
http://www.jewishgen.org/infofiles/soundex.html
http://sound-ex.de/index.html

HTH

Thomas

"Access? Damit arbeite ich nicht. Das ist doch nur ein abgespecktes Excel."

Ähnliche fragen