2. Einführung in die mathematischen Methoden

Streuungsmaße

Nun haben Sie bereits den Mittelwert Ihrer Daten berechnet. Aber vielleicht sagt dieser eine Wert nicht genug über die Daten aus. Möglicherweise wollen Sie auch wissen, wie sehr die Daten streuen; liegt nur ein Wert vor, oder sind es viele unterschiedliche? Das kann man meist schon mit dem Auge erkennen, aber vielleicht will man auch ein Maß dafür haben. Es gibt zwei Maße für die Streuung von Daten: die Spannweite und die Varianz.

Die Spannweite eines Datensatzes bezeichnet den Unterschied zwischen dem kleinsten und dem größten Wert im Datensatz. Ein Datensatz der Körpergröße von Schülern in Metern kann also folgende Werte enthalten {1,27, 1,35, 1,33, 1,64, 1,21, 1,24, 1,26, 1,26, 1,48, 1,30, 1,29, 1,45, 1,51, 1,32, 1,61, 1,63} wobei der kleinste Wert bei 1,21 liegt und der höchste Wert 1,64 beträgt, sodass die Spannweite 1,64 - 1,21 = 0,43 ist.

Die Spannweite darf nicht mit dem Wertebereich eines Datensatzes verwechselt werden; dieser umfasst alle Werte, die in einem Datensatz vorkommen können. Bei einem Würfel ist der Wertebereich {1, 2, 3, 4, 5, 6} während die Spannweite 6 - 1 = 5 beträgt.

Die Varianz einer Beobachtungsmenge ist der Mittelwert der Summen der Quadrate der Abweichungen, wie diese Gleichung zeigt:

σ 2 = i=1 N ( x i μ ) 2 N

wobei μ der Erwartungswert ist.

Das ist die Varianz, zum Beispiel für eine Population der Größe N. Würden wir diese Gleichung auf eine Stichprobe aus einer Population anwenden, dann würden wir einen systematischen Fehler einbringen und den berechneten Wert verfälschen. Dieser systematische Fehler lässt sich vermeiden, indem man die folgende Gleichung nutzt, bei der man durch (n-1) statt N teilt, wobei n die Größe der Stichprobe ist:

s 2 = i=1 n ( x i x ¯ ) ( n1 ) 2


Multipliziert man aus,

s 2 = x 1 2 2 x 1 x ¯ + ( x ¯ ) 2 + x 2 2 2 x 2 x ¯ + ( x ¯ ) 2 +...+ x n 2 2 x n x ¯ + ( x ¯ ) 2 n1

und stellt die Gleichung um, so folgt:

s 2 = x i 2 ( x i · x i ) n n1 = x i 2 n ( x ¯ ) 2 n1

Diese beiden Formen der Gleichung für die Varianz sind identisch und es bleibt dem Anwender überlassen, für welche Gleichung er sich entscheidet. Die zweite Form ist jedoch besser für die Nutzung in Computern geeignet und erfordert kein zweimaliges Durchgehen des Datensatzes.

Bei Daten von Häufigkeitsverteilungen muss man berücksichtigen, dass jede Klasse eine Anzahl an Beobachtungen beinhaltet. Die Varianz ist demzufolge die Summe der Produkte dieses Klassenwertes abzüglich des Mittelwertes multipliziert mit der Klassenzahl, geteilt durch die Summe der Klassenzahlen.

s 2 = k i v i 2 x ¯ 2 k i k i 1

Die Quadratwurzel aus der Varianz wird als Standardabweichung bezeichnet. Sie besitzt die gleiche Maßeinheit wie Ihre Daten und kann daher in Ihr Histogramm eingezeichnet werden.