2. Mit Zeitreihen arbeiten

Lineare Regressionsanalyse (1/3)

Wir untersuchen eine Methode zur Bestimmung von Ausgleichsgeraden am Beispiel der Zeitreihen zur Temperatur im Wattenmeer. Möglicherweise interessieren wir uns eher für die Temperaturen im Juli statt im Oktober, da wir im Sommer unsere Ferien am Meer verbringen. Die Juli-Daten sind unten dargestellt, links wie gemessen und über den Monat gemittelt, und rechts mit einigen geratenen Ausgleichsgeraden angenähert (zum Umschalten auf die Überschriften klicken). Welche Linie wäre wohl die beste Näherung?

Der Einfachheit halber ändern wir die Variablen vom Jahr zu x und von der Temperatur zu y, und setzen x=1 am 1. Januar 2003. Der Juli ist der siebte Monat im Jahr, daher liegt der erste Datenpunkt im Diagramm bei x=( 1+( 7 / 12 ) )=1,58 , und so weiter. Aus der Tabelle der Wattdaten entnehmen wir die Wassertemperaturen im Juli 2003 bis 2008:

Jahr xi yi
2003 1,58 19,69
2004 2,58 17,38
2005 3,58 18,98
2006 4,58 21,12
2007 5,58 18,23
2008 6,58 18,67
Zoom Sign
Punkte im Diagramm
Das gleiche Diagramm wie oben links, aber in x/y-Koordinaten. Die Datenpunkte sind P(xi,yi), mit i=1, ... , 6.

Es gibt in der analytischen Geometrie mehrere Möglichkeiten zur Berechnung von Linien. Man könnte zwei Punkte suchen, die auf der Geraden liegen, und die Gerade durch diese Punkte bestimmen; dies ist die Zwei-Punkte-Form der Geradengleichung. In unserem Fall bietet es sich an, einen Punkt auf der Gerade und ihre Steigung zu verwenden; dies ist die Punkt-Steigungs-Form. Wir werden diese Form zur Berechnung der Ausgleichsgerade anwenden.



Schritt 1: Der Schwerpunkt

Der Schwerpunkt P( x ¯ , y ¯ ) der Daten liegt auf der Ausgleichsgeraden. Er kann aus dem arithmetischen Mittel der xi und yi-Werte der Datenpunkte bestimmt werden, siehe Ergänzung 1 für eine ausführliche Darstellung. Sei n eine ganze Zahl, die die Anzahl der Datenpunkte angibt; in unserem Fall ist n=6. Es folgt:

x ¯ = 1 n i=1 n x i = x 1 + x 2 + x 3 + x 4 + x 5 + x 6 6 =4,08
y ¯ = 1 n i=1 n y i = y 1 + y 2 + y 3 + y 4 + y 5 + y 6 6 =19,01
Zoom Sign
Der Schwerpunkt im Diagramm
Der Schwerpunkt P( x ¯ , y ¯ ) der Datenpunkte, mit x ¯ =4,08 und y ¯ =19,01 .

Schritt 2: Die Steigung

Die Abstände der Datenpunkte zu ihrer Ausgleichsgeraden sollen so klein wie möglich sein. Wie lassen sich diese Abstände definieren? Die beiden folgenden Abbildungen erläutern zwei mögliche Ansätze.

Version 2 ergäbe deutlich kompliziertere Gleichungen als Version 1, und - was hier nicht weiter gezeigt ist - die Ausgleichsgerade wäre von der Skalierung der x- und y-Achse abhängig. Man könnte auch eine dritte Version überlegen, bei der die horizontalen Abstände zwischen den Datenpunkten und den Punkten auf der Gerade betrachtet werden.

In unseren Berechnungen nutzen wir Version 1, d.h. die vertikalen Abstände zwischen den Daten und den Punkten auf der Geraden. Dieses Verfahren wird als lineare Regression bezüglich x bezeichnet.