Datenkorrektur

09/07/2011 - 02:02 von Ralf . K u s m i e r z | Report spam
X-No-Archive: Yes

begin Thread


Moin!

Ich hàtte da mal ein Problem:

Ich habe eine Datenliste mit den Geburtenzahlen in den einzelnen
Gemeinden eines Landes bekommen, und zwar aus K Gemeinden und L Jahren
jeweils die Zahlen j_kl und m_kl der Jungen- bzw. Màdchengeburten im
Jahr l in der Gemeinde k, zusàtzlich noch die landesweiten
Gesamtzahlen J_l und M_l für jedes Jahr.

Blöderweise sind die Daten vermurkst: Wenn man die m und j selbst
summiert, kommt man leider nicht auf die angegebenen Summen, wobei die
Differenzen symmetrisch sind: Was bei den Jungen zuwenig ist, ist bei
den Màdchen zuviel, d. h. die Gesamtzahl der Geburten stimmt.

Mutmaßlich hat irgendein Trottel bei einer Reihe von Gemeinden - man
kann aus dem Verhàltnis der Summen abschàtzen, daß es ca. ein Viertel
der Geburten betrifft - die Zahlen für Jungen und Màdchen vertauscht.

Mal abgesehen davon, daß es angebracht ist, den Datenlieferanten
anzupfeifen: Kann man das reparieren?

Bei K Gemeinden gibt es offenbar 2^K Kombinationsmöglichkeiten aus
richtigen und vertauschten Anordnungen; wenn man alle durchprobiert,
dann wird mindestens eine die korrekten Summen liefern.

Nun ist 2^K leider zu groß, um da mit Brut force draufloszugenen. Gibt
es eine sinnvolle Strategie, um den Aufwand zu reduzieren?

(Meine Hoffnung ist, daß sie es immer für komplette Landkreise auf
einmal versaubeutelt haben. Deshalb werde ich erst einmal die
landkreisweisen Summen bilden und schauen, ob man denen etwas ansieht,
bzw. ob bei denen Vertauschen etwas bringt. Dummerweise ist die Anzahl
der Landkreise bloß immer noch unerfreulich hoch. Leider ist die
Schweinerei nicht nur in einigen Regierungsbezirken (von denen ich die
Summen ebenfalls für die letzten paar Jahre habe), sondern in allen
passiert.)


Gruß aus Bremen
Ralf
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphàre Autor bißchen Ellipse Emission
gesamt hàltst Immission interessiert korreliert korrigiert Laie
nàmlich offiziell parallel reell Satellit Standard Stegreif voraus
 

Lesen sie die antworten

#1 Jürgen R.
09/07/2011 - 09:37 | Warnen spam
"Ralf . K u s m i e r z" schrieb im Newsbeitrag
news:
X-No-Archive: Yes

begin Thread


Moin!

Ich hàtte da mal ein Problem:

Ich habe eine Datenliste mit den Geburtenzahlen in den einzelnen
Gemeinden eines Landes bekommen, und zwar aus K Gemeinden und L Jahren
jeweils die Zahlen j_kl und m_kl der Jungen- bzw. Màdchengeburten im
Jahr l in der Gemeinde k, zusàtzlich noch die landesweiten
Gesamtzahlen J_l und M_l für jedes Jahr.

Blöderweise sind die Daten vermurkst: Wenn man die m und j selbst
summiert, kommt man leider nicht auf die angegebenen Summen, wobei die
Differenzen symmetrisch sind: Was bei den Jungen zuwenig ist, ist bei
den Màdchen zuviel, d. h. die Gesamtzahl der Geburten stimmt.

Mutmaßlich hat irgendein Trottel bei einer Reihe von Gemeinden - man
kann aus dem Verhàltnis der Summen abschàtzen, daß es ca. ein Viertel
der Geburten betrifft - die Zahlen für Jungen und Màdchen vertauscht.

Mal abgesehen davon, daß es angebracht ist, den Datenlieferanten
anzupfeifen: Kann man das reparieren?

Bei K Gemeinden gibt es offenbar 2^K Kombinationsmöglichkeiten aus
richtigen und vertauschten Anordnungen; wenn man alle durchprobiert,
dann wird mindestens eine die korrekten Summen liefern.

Nun ist 2^K leider zu groß, um da mit Brut force draufloszugenen. Gibt
es eine sinnvolle Strategie, um den Aufwand zu reduzieren?



Nein, das Problem ist NP-complete. Aber in deinem Fall wird die
Lösung nicht eindeutig sein, so dass du irgendeine Korrektur wahrscheinlich
recht schnell finden kannst. Damit werden die Daten dann
vollends verdorben.


(Meine Hoffnung ist, daß sie es immer für komplette Landkreise auf
einmal versaubeutelt haben. Deshalb werde ich erst einmal die
landkreisweisen Summen bilden und schauen, ob man denen etwas ansieht,
bzw. ob bei denen Vertauschen etwas bringt. Dummerweise ist die Anzahl
der Landkreise bloß immer noch unerfreulich hoch. Leider ist die
Schweinerei nicht nur in einigen Regierungsbezirken (von denen ich die
Summen ebenfalls für die letzten paar Jahre habe), sondern in allen
passiert.)



Hast du sie noch alle? Du möchtest diese Daten vermutlich benutzen, um
irgendwelche statistischen Schlüsse zu ziehen? Dann wirst du für jede
Schlussfolgerung den zweifelhaften Ursprung der Daten und die
abenteuerlichen
Korrekturversuche offenlegen müssen. Kannst dir die Mühe also sparen.


aus Bremen
Ralf
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphàre Autor bißchen Ellipse Emission
gesamt hàltst Immission interessiert korreliert korrigiert Laie
nàmlich offiziell parallel reell Satellit Standard Stegreif voraus

Ähnliche fragen