9682

Minitab 22 - Verteilungsidentifikation (Beliebige Zensierung) - Anderson-Darling-Werte scheinbar gleich groß bei vielen rechtszensierten Daten

  • Erstellt am 29.8.2022
  • Überarbeitet am 9.4.2024
  • Software: Minitab 22, 21

Die Verteilungsidentifikation (Beliebige Zensierung) führt für die folgende Tabelle mit 6 Ausfällen und 9994 Zensierungen bei den Verteilungen Weibull, Lognormal, Exponential und Normal zu Anderson-Darling-(kor)-Werten, die sich erst ab der siebenten Nachkommastelle unterscheiden:

C1 C2 C3
  Start Ende Häufigkeiten
1 1 2 1
2 2 3 2
3 3 4 2
4 4 5 1
5 5 * 9994

Güte der Anpassung

Verteilung

Anderson-Darling (kor)

Weibull

 106,391508250606776

Lognormal

106,391508249117578

Exponential

106,391508392506623

Normal

106,391508250644804

Für die nächste Tabelle mit 6 Ausfällen und 999994 Zensierungen führt die Verteilungsidentifikation sogar zu Anderson-Darling-(kor)-Werten, die sich erst ab der elften Nachkommastelle unterscheiden:

C1 C2 C3
  Start Ende Häufigkeiten
1 1 2 1
2 2 3 2
3 3 4 2
4 4 5 1
5 5 * 999994

Güte der Anpassung

Verteilung

Anderson-Darling (kor)

Weibull

 106,522758180636615

Lognormal

106,522758180636501

Exponential

106,522758180650811

Normal

106,522758180636743

Was ist der Grund hierfür?

Erläuterung

Die beiden Beispiele haben gemeinsam, dass durch die Rechtszensierung der allermeisten der Teile die nicht zensierten, also ausgefallenen Teile, in den Wahrscheinlichkeitsnetzen sehr weit auf der linke Seite der Kurve erscheinen, da die verteilungsfreie Methode zur Bestimmung ihrer Position für diese sehr geringe Wahrscheinlichkeiten schätzt. Das hat damit zu tun, dass die ausgefallenen Teile in diesen Beispielen die ersten ausgefallenen Teile sind (Ausfallzeitpunkt < 5) und die stark überwiegende Mehrheit der nicht ausgefallenen Teile erst zukünftig zu einem unbekannten Zeitpunkt ≥ 5 ausfallen werden.

Um daraus nachzuvollziehen, wie es zu den nahezu übereinstimmenden Anderson-Darling-(kor)-Werten kommt, haben wir für beide Beispiele die verteilungsfreien kumulierten Ausfallwahrscheinlichkeiten nach der Turnbull-Methode schätzen und speichern lassen. Wir haben in den folgenden Berechnungen die Bezeichnungen in den Formeln für die Anderson-Darling-Statistik der Online-Hilfe von Minitab übernommen. Die Forderung Fn(z0)=0 haben wir in der ersten Zeile eingefügt.

Beispiel 1

C4         C5       
  F_n(z_(i-1)) F_n(z_(i-1))^2
1 0,0000 0,00000000
2 0,0001 0,00000001
3 0,0003 0,00000009
4 0,0005 0,00000025
5 0,0006 0,00000036

Mit Hilfe der durch die Verteilungsgebundene Analyse in eine Spalte des Arbeitsblatts gespeicherten Verteilungsparameter haben wir die Werte für zi berechnet. Die Forderungen z0=0 und zn+1=1- 10-12 haben wir in der ersten beziehungsweise letzten Zeile der jeweiligen Spalte eingefügt. Hier scheint sich bereits abzuzeichnen, dass der verteilungsunabhängige Wert zn+1 den größten Einfluss auf einbringt, den in der dazugehörenden Zeile 5 ist Ln(1-zn+1)=-27.6310432. Allerdings gibt es auch noch in den anderen Zeilen Werte, die sich deutlich von 0 unterscheiden. Die Werte für Ln(1-zn) in Zeile 5 unterscheiden sich untereinander noch auf Grund der verschiedenen Verteilungen. Jedoch unterscheiden sie sich nicht sehr stark. Bei einer Verteilungsanpassung nach der Maximum-Likelihood-Methode werden die Parameter so geschätzt, dass die erhobene Stichprobe im Kontext der Verteilung möglichst wahrscheinlich ist. Insbesondere dürften dann die geschätzten Wahrscheinlichkeiten bei den beobachteten Ausfällen möglichst nahe an den verteilungsfrei geschätzten Werten liegen.

Beispiel 1

Weibull

C6 C7 C8      C9        C10         C11            C12     
  Parameter z_(i-1) z_i Ln(z_(i-1)) Ln(z_i) Ln(1-z_(i-1)) Ln(1-z_i)
1 1,772 0,0000000 0,0001183 0,00000 -9,04202 0,0000000 -0,0001183
2 328,878 0,0001183 0,0002427 -9,04202 -8,32358 -0,0001183 -0,0002428
3   0,0002427 0,0004041 -8,32358 -7,81387 -0,0002428 -0,0004042
4   0,0004041 0,0006000 -7,81387 -7,41855 -0,0004042 -0,0006002
5   0,0006000 1,0000000 -7,41855 -0,00000 -0,0006002 -27,6310432

Beispiel 2

Weibull

C6 C7 C8      C9        C10         C11            C12     
  Parameter z_(i-1) z_i Ln(z_(i-1)) Ln(z_i) Ln(1-z_(i-1)) Ln(1-z_i)
1 1,77 0,0000000 0,0000012 0,0000 -13,6472 0,0000000 -0,0000012
2 4428,62 0,0000012 0,0000024  -13,6472 -12,9288  -0,0000012 -0,0000024
3   0,0000024 0,0000040  -12,9288 -12,4191  -0,0000024  -0,0000040
4   0,0000040 0,0000060  -12,4191 -12,0238  -0,0000040 -0,0000060
5   0,0000060 1,0000000  -12,0238  -0,0000 -0,0000060 -27,6310432

Die Werte in den Zeilen 1-4 verschwinden im nächsten Berechnungsschritt fast, hier scheinen sich jetzt nur noch die Werte in der Zeile 5 deutlich von 0 zu unterscheiden. Auch die Werte in der fünften Zeile scheinen sich verteilungsübergreifend kaum noch voneinander zu unterscheiden.

Beispiel 1

Weibull

  C13       C14         C15   
  A_i B_i C_i
1 0,0000 0,0000000 0,0000000
2 0,0000 -0,0000000 0,0000000
3 0,0000 -0,0000001 0,0000000
4 0,0000 -0,0000002 0,0000001
5 26,6310 -0,0331565 0,0000126

Beispiel 2

Weibull

  C13       C14         C15   
  A_i B_i C_i
1 0,0000 0,0000000 0,0000000
2 0,0000 -0,0000000 0,0000000
3 0,0000 -0,0000000 0,0000000
4 0,0000 -0,0000000 0,0000000
5 26,6310 -0,0003316 0,0000000

 

Question?

Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein., wenn Sie eine Frage zu diesem Artikel haben.