4. Die Qualität der Regressionsgleichung (1/3)
Bei der Auswertung mit linearer Regression stellt sich die Frage: "Wie gut ist die mit Hilfe der Regressionsgleichung erhaltene Ausgleichgerade?" Eine solche Frage kann beantwortet werden, indem man das Bestimmtheitsmaß, den R2-Wert, betrachtet.
Sie erinnern sich daran, dass die Summe der Quadrate der Residuen bei der Methode der kleinsten Quadrate für die Ausgleichsgerade möglichst gering wird, d.h. minimal wird, mit .
Dieser Wert wird Quadratsumme der Residuen oder SSE (vom englischen Sums of Squares due to Error) genannt.
Es gibt zwei weitere Typen von Residuen, die man betrachten kann:
- Abweichungen von den Mittelwerten der Beobachtungen und
- Abweichungen der Regressionsgeraden von diesen Mittelwerten
Abweichung vom Mittelwert
= Abweichung zwischen Regressionsgerade und Mittelwert
+ Residuen der Beobachtungsdaten
Diese Gleichung bezieht sich auf alle Abweichungen, sodass wir sie auch in summierter und quadrierter Form verwenden können, sofern die Beobachtungen nicht miteinander korrelieren.
In Fällen, in denen eine Korrelation zwischen den Beobachtungen besteht, würden sich beim Quadrieren der Produkte für jedes Produkt Werte ergeben, welche diese Beziehung zerstören würden; besteht keine Korrelation, sind die Produkte alle gleich Null.
In dieser Gleichung ist . Der Ausdruck auf der linken Seite wird als Gesamtsumme der Quadrate (vom englischen Total Sums of Squares - SST) bezeichnet. Der verbleibende Term wird Quadratsumme der Regression oder SSR (vom englischen Sums of Squares due to the Regression) genannt, . Es ist also:
SST und SSE lassen sich relativ einfach berechnen, daher nutzen wir diese beiden üblicherweise, um das Bestimmtheitsmaß R2 zu erhalten.
Denken Sie daran, dass die Methode der kleinsten Quadrate zur Folge hat, dass der SSE-Wert minimal wird. Ist SSE = 0 , was eintritt, wenn alle Datenpunkte genau auf der Ausgleichsgeraden liegen, dann ist R2 = 1,0. Ergibt sich bei der Regression kein Zusammenhang zwischen den Variablen, dann ist SSE = SST und R2 = 0,0. Es gilt 0,0 < R2 < 1,0, und so erklärt die Regression die Abweichungen der Punkte auf der y-Achse im Verhältnis zu den x-Werten desto besser, je näher das Bestimmtheitsmaß an dem Wert 1,0 liegt.