Minitab 22 - Boxplot - Ein Whisker befindet sich innerhalb der Box - Was ist die Ursache?
- Erstellt am 2.5.2022
- Überarbeitet am 12.4.2024
- Software: Minitab 22, 21, 20, 19, 18
Bilder
Erläuterung
In einigen Fällen kann es vorkommen, dass einer der Whisker in die Box hineinreicht. Wir wollen hier an einem Beispiel, in dem dies der Fall ist, untersuchen, wie es dazu kommt. Dazu sei folgender, zum oberen Bild gehörender Datensatz gegeben:
↓ | C1 |
Daten | |
1 | -2,54264 |
2 | 0,276141 |
3 | -1,77474 |
4 | -1,23772 |
5 | 12,4266 |
6 | 11,0623 |
7 | -0,866633 |
8 | 0,784985 |
9 | -1,25369 |
10 | -1,69768 |
Anmerkung: Im Bereich Daten in höherer Genauigkeit am Ende dieses Artikels haben wir diesen Datensatz nochmal in höherer Genauigkeit und mit Komma als Trennzeichen hinterlegt, damit Sie diesen in ein Minitab-Projekt kopieren und die Berechnungen mitverfolgen können.
Alle Berechnungen können Sie mit dem Minitab-Rechner nachvollziehen (Berechnen: Rechner). Zunächst bereiten wir die Daten etwas auf. Dafür erstellen wir drei neue Spalten x, i und N und füllen die Felder Ergebnis speichern in und Ausdruck im Minitab-Rechner wie in den Tabellen zu sehen aus.
In der Spalte x werden die Daten aufsteigen sortiert angeordnet.
Ergebnis speichern in: | 'x' |
Ausdruck: | Sort('Daten') |
Die Spalte i enthält den Rang jedes Eintrags von Spalte x.
Ergebnis speichern in: | 'i' |
Ausdruck: | Rank('x') |
Den Stichprobenumfang speichern wir in Spalte N.
Ergebnis speichern in: | 'N' |
Ausdruck: | N('Daten') |
Wir sehen hier jetzt, welchen Rang jeder Datenwert hat und welche Daten die größten sind. Die größten beiden Werte in der Spalte x entsprechen genau den beiden mit einem Stern gekennzeichneten Ausreißern im Boxplot.
↓ | C1 | C2 | C3 | C4 |
Daten | x | i | N | |
1 | -2,54264 | -2,54264 | 1 | 10 |
2 | 0,276141 | -1,77474 | 2 | |
3 | -1,77474 | -1,69768 | 3 | |
4 | -1,23772 | -1,25369 | 4 | |
5 | 12,4266 | -1,23772 | 5 | |
6 | 11,0623 | -0,866633 | 6 | |
7 | -0,866633 | 0,276141 | 7 | |
8 | 0,784985 | 0,784985 | 8 | |
9 | -1,25369 | 11,0623 | 9 | |
10 | -1,69768 | 12,4266 | 10 |
Als nächstes benötigen wir die beiden Grenzen der Box. Dafür erstellen wir neue Spalten j, w, y, z, x_y, x_(y+1), Qj, IQR und Grenze für Ausreißer. Dabei tragen wir in Spalte j die Nummern der Quartile ein. Die Boxgrenzen liegen beim 1. und 3. Quartil.
↓ | C5 |
j | |
1 | 1 |
2 | 3 |
Die Spalten w, y und z enthalten eine Zwischenrechnung.
Ergebnis speichern in: | 'w' |
Ausdruck: | 'j'*('N'+1)/4 |
Ergebnis speichern in: | 'y' |
Ausdruck: | Floor('w') |
Ergebnis speichern in: | 'z' |
Ausdruck: | 'w' - 'y' |
Der ganzzahlige Anteil der über den Rang berechneten Spalte w wird in Spalte y angezeigt, und der Rest hinter der Nachkommastelle wird in Spalte z angezeigt.
↓ | C5 | C6 | C7 | C8 |
j | w | y | z | |
1 | 1 | 2,75 | 2 | 0,75 |
2 | 3 | 8,25 | 8 | 0,25 |
Jetzt lesen wir die Werte in Spalte x an den Stellen y (also an 2. und 8. Stelle) und y+1 (also an 3. und 9. Stelle) in die Spalten x_y und x_(y+1) aus.
Ergebnis speichern in: | 'x_y' |
Ausdruck: | If('j' = 1;Sum(('y'(1)='i')*'x');Sum(('y'(2)='i')*'x')) |
Ergebnis speichern in: | 'x_(y+1)' |
Ausdruck: | If('j' = 1;Sum(('y'(1)+1='i')*'x');Sum(('y'(2)+1='i')*'x')) |
Damit können wir dann die Boxgrenzen, das heißt Quartile Q1 und Q3, und die Boxlänge, das heißt den Interquartilbereich IQR = (Q3-Q1) berechnen.
Ergebnis speichern in: | 'Qj' |
Ausdruck: | 'x_y' + 'z' * ('x_(y+1)' - 'x_y') |
Ergebnis speichern in: | 'IQR' |
Ausdruck: | Range('Qj') |
Die Whisker im Boxplot gehen
- von Q1 bis zum niedrigsten Datenwert oberhalb von Q1-1,5*IQR = -9,32383, und
- von Q3 bis zum höchsten Datenwert unterhalb von Q3+1,5*IQR = 10,9612.
Diese Werte speichern wir die die Spalte Grenze für Ausreißer.
Ergebnis speichern in: | 'Grenze für Ausreißer' |
Ausdruck: | 'Qj' + If('j' = 1;-1,5;1,5)*'IQR' |
Alle Punkte außerhalb des Intervalls [Q1-1,5*IQR,Q1+1,5*IQR] = [-9,32383, 10,9612] sind Ausreißer.
↓ | C5 | C6 | C7 | C8 | C9 | C10 | C11 | C12 | C13 |
j | w | y | z | x_y | x_(y+1) | Qj | IQR | Grenze für Ausreißer | |
1 | 1 | 2,75 | 2 | 0,75 | -1,77474 | -1,69768 | -1,71694 | 5,07126 | -9,32383 |
2 | 3 | 8,25 | 8 | 0,25 | 0,784985 | 11,0623 | 3,35431 | 10,9612 |
Jetzt erstellen wir einen neuen Datensatz, der alle Nicht-Ausreißer enthält.
Ergebnis speichern in: | 'Daten (ohne Ausreißer)' |
Ausdruck: | If('Daten' < 'Grenze für Ausreißer'(1) Or 'Daten' > 'Grenze für Ausreißer'(2);'*';'Daten') |
Die Whisker-Grenzen sind das Minimum und das Maximum des neuen Datensatzes.
Ergebnis speichern in: | 'Whisker-Grenzen' |
Ausdruck: | If('j' = 1;Min('Daten (ohne Ausreißer)');Max('Daten (ohne Ausreißer)')) |
Insbesondere ist die obere Whisker-Grenze 0,784985 kleiner als das obere Quartil Q3 = 3,35431.
↓ | C13 | C14 | C15 |
Grenze für Ausreißer | Daten (ohne Ausreißer) | Whisker-Grenzen | |
1 | -9,32383 | -2,54264 | -2,54264 |
2 | 10,9612 | 0,276141 | 0,784985 |
3 | -1,77474 | ||
4 | -1,23772 | ||
5 | * | ||
6 |
* |
||
7 | -0,866633 | ||
8 | 0,784985 | ||
9 | -1,25369 | ||
10 | -1,69768 |
Fazit: Weil zwischen dem oberen Quartil Q3 = 3.35431 und der oberen Grenze 10.9612 für Ausreißer kein einziger Datenwertliegt, sondern nur oberhalb und unterhalb, reicht der obere Whisker in die Box hinein.
|
Daten in höherer Genauigkeit
↓ | C1 |
Daten | |
1 | -2,542637415439343 |
2 | 0,2761413883146073 |
3 | -1,774737716741001 |
4 | -1,237722380230539 |
5 | 12,426567888917395 |
6 | 11,062299639155468 |
7 | -0,8666333586308997 |
8 | 0,7849847432080753 |
9 | -1,2536922431134734 |
10 | -1,6976807146334614 |