Minitab 22 - Regression mit einer binären Antwortvariablen
- Erstellt am 23.9.2016
- Überarbeitet am 29.4.2024
- Software: Minitab 22, 21, 20, 19, 18, 17
Wie kann ich in Minitab eine Regression durchführen, wenn ich eine binäre Antwortvariable habe?
Bilder
Darstellung der binären Anpassungslinie für ein Normit (Probit)-Modell mit einem stetigen Prädiktor. Die Anpassungskurve ist eine Kurve der aus dem Modell geschätzten Wahrscheinlichkeiten für das Antwortereignis (hier: Ja).
Abweichungsresiduendiagramme für die Spalte Anzahl der Ereignisse aus dem Beispiel in der Erläuterung dieses Artikels.
Erläuterung
Ein Werkzeug zur Regression mit einer kategorialen Antwortvariablen ist die logistische Regression. Für den Spezialfall, dass die Antwortvariable nur zwei Kategorien zulässt (zum Beispiel Ja/Nein), gibt es die sogenannte binäre logistische Regression. Das Verhältnis der Antwortvariablen zu den stetigen und/oder kategorialen Prädiktoren wird dabei mit Hilfe einer sogenannten Linkfunktion modelliert. Das Modell prognostiziert dann Wahrscheinlichkeiten dafür, dass die Antwortvariable das Antwortereignis annimmt (d.h. die Referenzstufe der Antwortvariablen).
Minitab bietet neben der ordinalen und der nominalen logistischen Regression auch die binäre logistische Regression an. Das binäre logistische Regressionsmodell wird mit einer der drei Linkfunktionen Logit, Normit (Probit) und Gompit (komplementärer Log-Log) angepasst. Dabei gibt es mehrere Möglichkeiten:
- Statistik: Regression: Darstellung der binären Anpassungslinie für einen Prädiktor. Hier wird ein Diagramm mit einer Kurve der Anpassungslinie für die in Abhängigkeit des Prädiktors prognostizierten Wahrscheinlichkeiten des Antwortereignisses erstellt.
- Statistik: Regression: Binäre logistische Regression für ein Modell mit mehreren Prädiktoren und Termen höherer Ordnung (zum Beispiel Wechselwirkungen). Hier können Sie zunächst mit dem Menüpunkt Binäres logistisches Modell anpassen das Regressionsmodell anpassen und haben anschließend weitere Möglichkeiten:
- Prognostizieren der Ereigniswahrscheinlichkeiten
- Anschließende graphische Analysen: Faktordiagramme, Konturdiagramm, Wirkungsflächendiagramm und Überlagertes Konturdiagramm
- Zielgrößenoptimierung
- Ab Minitab 19 auch über das Werkzeug Statistik: Versuchsplanung (DOE): Faktoriell: Binäre Antwort anpassen, wenn Sie vorher einen Faktoriellen Versuchsplan erstellt und die binären Daten dem Versuchsaufbau entsprechend erhoben haben. Zum Reproduzieren der Analyseergebnisse mit dem Werkzeug Binäres logistisches Modell anpassen siehe den Abschnitt Binäre Antwort in einem faktoriellen Versuchsplan analysieren im Artikel Versuchsplanung / Regression - Unterschiedliche Ergebnisse bei gleichen Daten.
Linkfunktionen
Die Linkfunktionen bilden das offene Intervall ]0,1[ auf den Wertebereich der Linearkombination der aus den Prädiktoren gebildeten Modelltermen ab. Die Regressionsgleichung entsteht aus der Anwendung der inversen Linkfunktion auf diese Linearkombination.
Beispiel
Die (stetigen) Prädiktoren sind in den Spalten x1 und x2 hinterlegt. Das Antwortereignis ist An, und das Gegenereignis ist Aus. In der Spalte Anzahl der Versuche ist für jede Kombination aus Werten der Prädiktoren die Anzahl der Versuche angegeben, die gemacht worden ist, und in der Spalte Anzahl der Ereignisse ist hinterlegt, wie oft die Antwortvariable jeweils das Antwortereignis An angenommen hat.
↓ | C1 | C2 | C3 | C4 |
x1 | x2 | Anzahl der Versuche | Anzahl der Ereignisse | |
1 | 2,0 | 3,0 | 100 | 92 |
2 | 2,0 | 3,5 | 100 | 90 |
3 | 2,0 | 4,0 | 100 | 88 |
4 | 2,0 | 4,5 | 100 | 85 |
5 | 2,0 | 5,0 | 100 | 82 |
6 | 2,4 | 3,0 | 100 | 89 |
7 | 2,4 | 3,5 | 100 | 84 |
8 | 2,4 | 4,0 | 100 | 77 |
9 | 2,4 | 4,5 | 100 | 68 |
10 | 2,4 | 5,0 | 100 | 57 |
11 | 2,8 | 3,0 | 100 | 85 |
12 | 2,8 | 3,5 | 100 | 74 |
13 | 2,8 | 4,0 | 100 | 60 |
14 | 2,8 | 4,5 | 100 | 44 |
15 | 2,8 | 5,0 | 100 | 29 |
16 | 3,2 | 3,0 | 100 | 79 |
17 | 3,2 | 3,5 | 100 | 61 |
18 | 3,2 | 4,0 | 100 | 40 |
19 | 3,2 | 4,5 | 100 | 22 |
20 | 3,2 | 5,0 | 100 | 11 |
21 | 3,6 | 3,0 | 100 | 71 |
22 | 3,6 | 3,5 | 100 | 46 |
23 | 3,6 | 4,0 | 100 | 23 |
24 | 3,6 | 4,5 | 100 | 10 |
25 | 3,6 | 5,0 | 100 | 4 |
26 | 4,0 | 3,0 | 100 | 62 |
27 | 4,0 | 3,5 | 100 | 32 |
28 | 4,0 | 4,0 | 100 | 12 |
29 | 4,0 | 4,5 | 100 | 4 |
30 | 4,0 | 5,0 | 100 | 1 |
Das binäre logistische Modell wurde mit den Einstellungen
- Antwort im Ereignis-/Versuchsformat
- Ereignisbezeichnung: An
- Anzahl der Ereignisse: 'Anzahl der Ereignisse'
- Anzahl der Versuche: 'Anzahl der Versuche'
- Stetige Prädiktoren: x1 x2
- Modell: Terme im Modell: x1 x2 x1*x2
- Optionen: Linkfunktion: Logit
- Speichern: Anpassungen (Ereigniswahrscheinlichkeiten)
mit dem folgenden Ergebnis angepasst:
Binäre Logistische Regression: Anzahl der Ereignisse vs. x1; x2
Methode
Linkfunktion |
Logit |
Verwendete Zeilen |
30 |
Informationen zur Antwortvariablen
Variable |
Wert |
Anzahl |
Ereignisbezeichnung |
Anzahl der Ereignisse |
Ereignis |
1582 |
An |
|
Nicht-Ereignis |
1418 |
|
Anzahl der Versuche |
Gesamt |
3000 |
|
Abweichungstabelle
Quelle |
DF |
Kor Abw |
Kor MW |
Chi-Quadrat |
p-Wert |
Regression |
3 |
1271,17 |
423,723 |
1271,17 |
0,000 |
x1 |
1 |
19,09 |
19,094 |
19,09 |
0,000 |
x2 |
1 |
18,48 |
18,479 |
18,48 |
0,000 |
x1*x2 |
1 |
76,27 |
76,267 |
76,27 |
0,000 |
Fehler |
26 |
0,20 |
0,008 |
|
|
Gesamt |
29 |
1271,37 |
|
|
|
Zusammenfassung des Modells
R-Qd der |
R-Qd(kor) |
AIC |
99,98% |
99,75% |
2886,74 |
Koeffizienten
Term |
Koef |
SE Koef |
VIF |
Konstante |
0,03 |
1,39 |
|
x1 |
1,981 |
0,455 |
37,55 |
x2 |
1,486 |
0,348 |
25,88 |
x1*x2 |
-0,993 |
0,117 |
40,18 |
Chancenverhältnisse für stetige Prädiktoren
Chancenverhältnis |
95%-KI |
|
x1 |
* |
(*; *) |
x2 |
* |
(*; *) |
Es werden keine Chancenverhältnisse für Prädiktoren berechnet, die in Wechselwirkungstermen
enthalten sind, da diese Verhältnisse von den Werten der anderen Prädiktoren in den
Wechselwirkungstermen abhängen.
Regressionsgleichung
p(An) |
= |
exp(Y')/(1 + exp(Y')) |
Y' |
= |
0,03 + 1,981 x1 + 1,486 x2 - 0,993 x1*x2 |
Tests auf Güte der Anpassung
Test |
DF |
Chi-Quadrat |
p-Wert |
Abweichung |
26 |
0,20 |
1,000 |
Pearson |
26 |
0,20 |
1,000 |
Hosmer-Lemeshow |
8 |
0,09 |
1,000 |
Anpassungen und Bewertung für ungewöhnliche Beobachtungen
Beob |
Beobachtete |
Anpassung |
Resid |
Std. |
|
26 |
0,6200 |
0,6215 |
-0,0318 |
-0,04 |
X |
X Ungewöhnliches X
Unter den Standardeinstellungen ist unter Grafiken die Option Residuendiagramme: Vier-in-Eins gesetzt, sodass auch eine Ausgabegrafik Abweichungsresiduendiagramme für Anzahl der Ereignisse mit ausgegeben wurde, die in vier separaten Feldern ein Histogramm der Residuen, ein Wahrscheinlichkeitsnetz (Normal) für Residuen, ein Diagramm Residuen vs. Anpassungen und ein Diagramm Residuen vs. Reihenfolge enthält (siehe im Bereich Bilder zu diesem Artikel). Die Ereigniswahrscheinlichkeiten wurden in einer neuen Spalte ANPASS gespeichert.
↓ | C1 | C2 | C3 | C4 | C5 |
x1 | x2 | Anzahl der Versuche | Anzahl der Ereignisse | ANPASS | |
1 | 2,0 | 3,0 | 100 | 92 | 0,923485 |
2 | 2,0 | 3,5 | 100 | 90 | 0,903889 |
3 | 2,0 | 4,0 | 100 | 88 | 0,879926 |
4 | 2,0 | 4,5 | 100 | 85 | 0,850974 |
5 | 2,0 | 5,0 | 100 | 82 | 0,816497 |
6 | 2,4 | 3,0 | 100 | 89 | 0,890099 |
7 | 2,4 | 3,5 | 100 | 84 | 0,838047 |
8 | 2,4 | 4,0 | 100 | 77 | 0,767773 |
9 | 2,4 | 4,5 | 100 | 68 | 0,678697 |
10 | 2,4 | 5,0 | 100 | 57 | 0,574394 |
11 | 2,8 | 3,0 | 100 | 85 | 0,844598 |
12 | 2,8 | 3,5 | 100 | 74 | 0,740071 |
13 | 2,8 | 4,0 | 100 | 60 | 0,598646 |
14 | 2,8 | 4,5 | 100 | 44 | 0,438641 |
15 | 2,8 | 5,0 | 100 | 29 | 0,290452 |
16 | 3,2 | 3,0 | 100 | 79 | 0,784812 |
17 | 3,2 | 3,5 | 100 | 61 | 0,610379 |
18 | 3,2 | 4,0 | 100 | 40 | 0,402244 |
19 | 3,2 | 4,5 | 100 | 22 | 0,224236 |
20 | 3,2 | 5,0 | 100 | 11 | 0,110447 |
21 | 3,6 | 3,0 | 100 | 71 | 0,709925 |
22 | 3,6 | 3,5 | 100 | 46 | 0,462936 |
23 | 3,6 | 4,0 | 100 | 23 | 0,232888 |
24 | 3,6 | 4,5 | 100 | 10 | 0,096597 |
25 | 3,6 | 5,0 | 100 | 4 | 0,036293 |
26 | 4,0 | 3,0 | 100 | 62 | 0,621544 |
27 | 4,0 | 3,5 | 100 | 32 | 0,321702 |
28 | 4,0 | 4,0 | 100 | 12 | 0,120466 |
29 | 4,0 | 4,5 | 100 | 4 | 0,038049 |
30 | 4,0 | 5,0 | 100 | 1 | 0,011294 |
Weitere Informationen zur binären logistischen Regression finden Sie in der Online-Hilfe von Minitab zur binären logistischen Regression.
Siehe auch
Ordinale logistische Regression
Nominale logistische Regression
|