6063

Minitab 22 - Boxplot - Ein Whisker befindet sich innerhalb der Box - Was ist die Ursache?

  • Erstellt am 2.5.2022
  • Überarbeitet am 12.4.2024
  • Software: Minitab 22, 21, 20, 19, 18

Bilder

boxplot_ein_whisker_befindet_sich_innerhalb_der_box_was_ist_die_ursache_01

Erläuterung

In einigen Fällen kann es vorkommen, dass einer der Whisker in die Box hineinreicht. Wir wollen hier an einem Beispiel, in dem dies der Fall ist, untersuchen, wie es dazu kommt. Dazu sei folgender, zum oberen Bild gehörender Datensatz gegeben:

C1
  Daten
1 -2,54264
2 0,276141
3 -1,77474
4 -1,23772
5 12,4266
6 11,0623
7 -0,866633
8 0,784985
9 -1,25369
10 -1,69768

Anmerkung: Im Bereich Daten in höherer Genauigkeit am Ende dieses Artikels haben wir diesen Datensatz nochmal in höherer Genauigkeit und mit Komma als Trennzeichen hinterlegt, damit Sie diesen in ein Minitab-Projekt kopieren und die Berechnungen mitverfolgen können.

Alle Berechnungen können Sie mit dem Minitab-Rechner nachvollziehen (Berechnen: Rechner). Zunächst bereiten wir die Daten etwas auf. Dafür erstellen wir drei neue Spalten x, i und N und füllen die Felder Ergebnis speichern in und Ausdruck im Minitab-Rechner wie in den Tabellen zu sehen aus.

In der Spalte x werden die Daten aufsteigen sortiert angeordnet.

Ergebnis speichern in:  'x'
Ausdruck: Sort('Daten')

Die Spalte i enthält den Rang jedes Eintrags von Spalte x.

Ergebnis speichern in:  'i'
Ausdruck: Rank('x')

Den Stichprobenumfang speichern wir in Spalte N.

Ergebnis speichern in:  'N'
Ausdruck: N('Daten')

Wir sehen hier jetzt, welchen Rang jeder Datenwert hat und welche Daten die größten sind. Die größten beiden Werte in der Spalte x entsprechen genau den beiden mit einem Stern gekennzeichneten Ausreißern im Boxplot.

C1 C2 C3 C4
  Daten x i N
1 -2,54264 -2,54264 1 10
2 0,276141 -1,77474 2  
3 -1,77474 -1,69768 3  
4 -1,23772 -1,25369 4  
5 12,4266 -1,23772 5  
6 11,0623 -0,866633 6  
7 -0,866633 0,276141 7  
8 0,784985 0,784985 8  
9 -1,25369 11,0623 9  
10 -1,69768 12,4266 10  

Als nächstes benötigen wir die beiden Grenzen der Box. Dafür erstellen wir neue Spalten j, w, y, z, x_y, x_(y+1), Qj, IQR und Grenze für Ausreißer. Dabei tragen wir in Spalte j die Nummern der Quartile ein. Die Boxgrenzen liegen beim 1. und 3. Quartil.

C5
  j
1 1
2 3

Die Spalten w, y und z enthalten eine Zwischenrechnung.

Ergebnis speichern in:  'w'
Ausdruck: 'j'*('N'+1)/4

 

Ergebnis speichern in:  'y'
Ausdruck: Floor('w')

 

Ergebnis speichern in:  'z'
Ausdruck: 'w' - 'y'

Der ganzzahlige Anteil der über den Rang berechneten Spalte w wird in Spalte y angezeigt, und der Rest hinter der Nachkommastelle wird in Spalte z angezeigt.

C5 C6 C7 C8
  j w y z
1 1 2,75 2 0,75
2 3 8,25 8 0,25

Jetzt lesen wir die Werte in Spalte x an den Stellen y (also an 2. und 8. Stelle) und y+1 (also an 3. und 9. Stelle) in die Spalten x_y und x_(y+1) aus.

Ergebnis speichern in:  'x_y'
Ausdruck: If('j' = 1;Sum(('y'(1)='i')*'x');Sum(('y'(2)='i')*'x'))

 

Ergebnis speichern in:  'x_(y+1)'
Ausdruck: If('j' = 1;Sum(('y'(1)+1='i')*'x');Sum(('y'(2)+1='i')*'x'))

Damit können wir dann die Boxgrenzen, das heißt Quartile Q1 und Q3, und die Boxlänge, das heißt den Interquartilbereich IQR = (Q3-Q1) berechnen.

Ergebnis speichern in:  'Qj'
Ausdruck: 'x_y' + 'z' * ('x_(y+1)' - 'x_y')

 

Ergebnis speichern in:  'IQR'
Ausdruck: Range('Qj')

Die Whisker im Boxplot gehen

  • von Q1 bis zum niedrigsten Datenwert oberhalb von Q1-1,5*IQR = -9,32383, und
  • von Q3 bis zum höchsten Datenwert unterhalb von Q3+1,5*IQR = 10,9612.

Diese Werte speichern wir die die Spalte Grenze für Ausreißer.

Ergebnis speichern in:  'Grenze für Ausreißer'
Ausdruck: 'Qj' + If('j' = 1;-1,5;1,5)*'IQR'

Alle Punkte außerhalb des Intervalls [Q1-1,5*IQR,Q1+1,5*IQR] = [-9,32383, 10,9612] sind Ausreißer.

C5 C6 C7 C8 C9 C10 C11 C12 C13
  j w y z x_y x_(y+1) Qj IQR Grenze für Ausreißer
1 1 2,75 2 0,75 -1,77474 -1,69768 -1,71694 5,07126 -9,32383
2 3 8,25 8 0,25 0,784985 11,0623 3,35431   10,9612

Jetzt erstellen wir einen neuen Datensatz, der alle Nicht-Ausreißer enthält.

Ergebnis speichern in:  'Daten (ohne Ausreißer)'
Ausdruck: If('Daten' < 'Grenze für Ausreißer'(1) Or 'Daten' > 'Grenze für Ausreißer'(2);'*';'Daten')

Die Whisker-Grenzen sind das Minimum und das Maximum des neuen Datensatzes.

Ergebnis speichern in:  'Whisker-Grenzen'
Ausdruck: If('j' = 1;Min('Daten (ohne Ausreißer)');Max('Daten (ohne Ausreißer)'))

Insbesondere ist die obere Whisker-Grenze 0,784985 kleiner als das obere Quartil Q3 = 3,35431.

C13 C14 C15
  Grenze für Ausreißer Daten (ohne Ausreißer) Whisker-Grenzen
1 -9,32383 -2,54264 -2,54264
2 10,9612 0,276141 0,784985
3   -1,77474  
4   -1,23772  
5   *  
6  

*

 
7   -0,866633  
8   0,784985  
9   -1,25369  
10   -1,69768  

Fazit: Weil zwischen dem oberen Quartil Q3 = 3.35431 und der oberen Grenze 10.9612 für Ausreißer kein einziger Datenwertliegt, sondern nur oberhalb und unterhalb, reicht der obere Whisker in die Box hinein.

Question?

Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein., wenn Sie eine Frage zu diesem Artikel haben.

Daten in höherer Genauigkeit

C1
  Daten
1 -2,542637415439343
2 0,2761413883146073
3 -1,774737716741001
4 -1,237722380230539
5 12,426567888917395
6 11,062299639155468
7 -0,8666333586308997
8 0,7849847432080753
9 -1,2536922431134734
10 -1,6976807146334614