SSIS: Fuzzisuche sinnvoll zur Dublettensuche im Kundenstamm?

13/05/2008 - 14:59 von Christa Kurschat | Report spam
Hallo NG,

wir haben bei einem Kunden im Kundenstamm wahrscheinlich sehr viele
Dubletten a la:
Müller - Mueller
Klaus-Dieter - Klaus (oder Dieter)
Teststraße - Teststr.
Testort - Testort irgendwas

Es handelt sich um ca. 6 Mio Datensàtze und natürlich weitere Felder!
Ist für sowas die Fuzzisuche geeignet oder zu empfehlen?

Gruß
Christa
Access-FAQ: http://www.donkarl.com
SQL-Server-FAQ: www.sqlfaq.de
InsideSql: www.insidesql.org
 

Lesen sie die antworten

#1 Olaf Pietsch
13/05/2008 - 17:50 | Warnen spam
Hallo Christa,

"Christa Kurschat" schrieb im Newsbeitrag
news:
wir haben bei einem Kunden im Kundenstamm wahrscheinlich sehr viele
Dubletten a la:
Müller - Mueller
Klaus-Dieter - Klaus (oder Dieter)
Teststraße - Teststr.
Testort - Testort irgendwas

Es handelt sich um ca. 6 Mio Datensàtze und natürlich weitere Felder!
Ist für sowas die Fuzzisuche geeignet oder zu empfehlen?




Die Fuzzysuche ist ein Enterprise Feature und ist nicht von TSQL erreichbar.

Wir haben gute Erfahrungen mit Double Metaphone gemacht, z. B.:
http://sql-server-performance.com/C...60927.aspx
http://www.codeproject.com/KB/vbscr...hone2.aspx
http://www.sqlservercentral.com/art...hing/2063/

Allerdings speichern wir die Double Metaphone Kodierungen in der Datenbank.
Bei der Eingabe erfolgt der Check auf Duplikate.
Verfahren: Die Eingabefelder werden in Einzelwörter zerlegt (eigener Word
Breaker), analog zum FTS werden noise Words entfernt. Für die einzelnen
Wörter werden Double Metaphone Kodierungen erzeugt.
Bei der Eingabe erfolgt der Check auf Duplikate indem das o. g. Verfahren
für die Ermittlung der Kodierungen angewandt wird, dann jedoch werden per
SELECT - Statement die Kodierungen der Eingabe gegen die gespeicherten
Kodierungen.


Gruß Olaf
Ich unterstütze PASS Deutschland e.V. (http://www.sqlpass.de)
Blog (http://www.sqlpass.de/PASSUserBlogs...x?BlogID=3)
Regionalgruppe Köln/Bonn/Düsseldorf
(http://www.sqlpass.de/Regionalgrupp...fault.aspx)

Ähnliche fragen