Forums Neueste Beiträge
 

Survival Analysis: Cox-Regression-Model und Overfitting

22/02/2009 - 13:30 von Bernhard Reinhardt | Report spam
Hallo,

ich hatte den Artikel zwar schon am Freitag über Arcor gepostet, aber er
ist offensichtlich nicht im restlichen Usenet angekommen, daher jetzt
nochmal:

Ich versuche mit einem Cox-Regression-Modell Vorhersagen über den
Winterniederschlag in einem Gebiet zu machen.

Eingangsgrößen sind monatliche oder saisonale Sea Survace Temperatures
(SSTs), deren Messzeitpunkte zeitlich zur Wintersaison verschoben sind.

Es stehen 11 Eingangsgrößen/Kovariaten zur Verfügung. S0 bis S10. Das
sind die SSTs gemessen mit einem Lag von 0 bis 10 Monaten.

Es wird erwartet, dass das Signal, das von der SST ausgeht, eine
Signallaufzeit von einigen Monaten hat, die den
Vorhersagbarkeitszeitraum bestimmt.

Es gilt zunàchst die Signallaufzeit und somit das optimale Lag bzw. die
optimale Kovariate zu bestimmen.

Nachdem was ich bisher so gelesen habe, ist der Vorteil der
Cox-Regression-Models u.a., dass man die Aussagekraft der Kovariaten
bewerten kann.

Im Beispiel aus
http://cran.r-project.org/doc/contr...ession.pdf
werden z.B. sieben Kovariaten verwendet und dann festgestellt, dass nur
drei davon signifikante Koeffizienten besitzen.

Ich habe zunàchst alle Kovariaten einzeln verwendet. Die Signifikanzen
der Koeffizienten sind dann alle recht hoch (p in der Größenordung
0.00001-0.0001) und nehmen ab Lag6 kontinuierlich ab. Das Vorzeichen der
Koeffizienten ist immer negativ - so wie erwartet (höhere SST -> mehr
Niederschlag).
Somit würde ich S5 als optimale Kovariate auswàhlen. Sie ist die letzte
mit hochsignifikantem Koeffizient. Das S0-S4 auch hochsignifikant sind
würde ich auch die Persistenz der SST schieben.

Speise ich nun alle 11 Kovariaten gleichzeitig ein, hàtte ich ein
àhnliches Ergebnis erwartet. Statt dessen:

coef exp(coef) se(coef) z p
S0 -3.106 4.48e-02 2.88 -1.080 0.2800
S1 6.365 5.81e+02 5.20 1.224 0.2200
S2 -14.009 8.24e-07 5.32 -2.636 0.0084
S3 13.514 7.39e+05 5.30 2.548 0.0110
S4 -0.807 4.46e-01 5.58 -0.145 0.8900
S5 -4.746 8.69e-03 5.87 -0.809 0.4200
S6 4.791 1.20e+02 5.76 0.831 0.4100
S7 -10.416 2.99e-05 5.64 -1.846 0.0650
S8 8.748 6.30e+03 5.45 1.604 0.1100
S9 2.497 1.21e+01 5.21 0.479 0.6300
S10 -3.788 2.26e-02 2.58 -1.470 0.1400

Vorzeichen der Koeffizienten schwankt wild hin und her. Die
Signifikanz-Werte scheinen auch zufàllig verteilt zu sein.

Eine Beschrànkung auf z.B. die zwei Kovariaten S4 und S5 macht die Sache
auch nicht besser. Wie man sieht, àndert sich das Vorzeichen des Koef.
von S4.

coef exp(coef) se(coef) z p
S4 0.596 1.815 1.45 0.412 0.68
S5 -1.750 0.174 1.62 -1.080 0.28

Die Stichprobe umfasst leider nur 55 Samples. Jetzt ist die Frage, kann
man sein Cox-Regression-Model overfitten? Ist das hier passiert? Leider
kann ich zu dem Thema in Zusammenhang mit Cox-Modellen nichts finden.

Wie würdet ihr vorgehen um das optimale Lag für die Messung zu bestimmen.

Viele Grüße

Bernhard
 

Lesen sie die antworten

#1 earthnut
28/02/2009 - 04:55 | Warnen spam
Bernhard Reinhardt wrote:

Hallo,

ich hatte den Artikel zwar schon am Freitag über Arcor gepostet, aber er
ist offensichtlich nicht im restlichen Usenet angekommen, daher jetzt
nochmal:



Er ist angekommen. Es hat nur leider keiner darauf geantwortet.

Ich versuche mit einem Cox-Regression-Modell Vorhersagen über den
Winterniederschlag in einem Gebiet zu machen.



Cox-Regression scheint schon sehr speziell zu sein. Ich fürchte hier
hat keiner mitgelesen, der das so aus dem FF kann.

[...]

Die Stichprobe umfasst leider nur 55 Samples. Jetzt ist die Frage, kann
man sein Cox-Regression-Model overfitten? Ist das hier passiert? Leider
kann ich zu dem Thema in Zusammenhang mit Cox-Modellen nichts finden.



Das kann ich dir leider auch nicht sagen.

Vielleicht hilft es dir herauszufinden was passiert ist, wenn du den
selben Effekt mit einer noch kleineren Datenmenge nachstellen kannst (so
klein wie möglich) um das Problem zu isolieren.

Ich hab gerade weder Lust noch Zeit mir das PDF von R duchzulesen. Wenn
du hier kurz erklàren kannst wie das die Regression funktioniert kann
ich (oder jemand anders hier) dir vielleicht dabei helfen
herauszufinden, was passiert ist.

Ansonsten kannst du auch versuchen, ob du in sci.math
(englischsprachiges de.sci.mathematik) einen Experten dafür an die Hand
kriegst.

Bastian

Ähnliche fragen