2. Einführung in die mathematischen Methoden

Kovarianz und Korrelation (1/2)

Wir haben gesehen, dass Daten korreliert sein können, d.h. beim Anstieg eines Parameters nimmt auch ein zweiter Parameter zu. In diesem Fall weisen die Streudiagramme die Struktur einer Linie auf, die in dem Diagramm diagonal von unten links nach oben rechts verläuft. Wie kann man solche Korrelationen messen und wie lassen sie sich veranschaulichen?

Um dies zu tun, wird die Varianzgleichung aus dem Kapitel Streuungsmaße abgeändert und als Kovarianz bezeichnet. Aus der Kovarianz wird die Korrelation abgeleitet.

Die Varianzgleichung war:

s x 2 = x i 2 ( x i x i ) n n1 = x i 2 n ( x ¯ ) 2 n1

Ähnlich lässt sich die Kovarianz zwischen den Variablen x und y einer Stichprobe folgendermaßen berechnen:

s xy = ( x i x ¯ ) ( y i y ¯ ) n1

Nun können wir eine Matrix aus den Werten der Varianz und der Kovarianz bilden:

=( S x 2 S xy S xy S y 2 )

In dieser Matrix sind nur zwei Variable (x und y) enthalten, daher entsteht ein (2,2)-Datenfeld. Das kann man für jede Variablenzahl machen; für n Variablen würde man also eine (n,n)-Matrix der Kovarianz erhalten. In einer Kovarianz-Matrix stellen die diagonalen Elemente von oben links bis unten rechts die Varianzen dar. Die Werte, die nicht auf dieser Diagonalen liegen, sind die Werte der Kovarianz.



Die Korrelation zwischen x und y ist dann:

cor r xy = s xy s x s r
Zoom Sign
Correlated ellipses at one standard deviation
Korrelierte Ellipsen bei einer Standardabweichung von eins.

Die Korrelationsmatrix wird also gebildet, indem die Werte in jeder Zeile durch die Standardabweichung in dieser Zeile und die Werte in jeder Spalte durch die Standardabweichung in dieser Spalte geteilt werden. Für zwei Variablen erhalten wir

Korrelationsmatrix=( 1 cor r xy cor r xy 1 )