16.2 Varianz "um" die Regressionsgerade und Varianz "auf" der Regressionsgeraden

Wir betrachten wieder die lineare Regression einer Variablen Y auf eine Variable X. Für den umgekehrten Fall gelten analoge Überlegungen.

Wir präzisieren die erste Zielsetzung aus den Vorbemerkungen in folgender Weise: Die Gesamtvarianz   der ursprünglichen Messwerte yi soll in zwei Komponenten zerlegt werden. Die erste dieser Komponenten soll sich auf die auf die gemeinsame Variation der beiden Variablen beziehen, die sich in der Varianz der geschätzten i-Werte spiegelt. Die zweite Komponente hingegen berücksichtigt die dann noch bei den yi-Werten verbleibende Variation, die durch die Varianz der Fehler ei wiedergeben wird. Oder anders formuliert: In der ersten Komponente geht es um die den beiden Variablen gemeinsame Variation, während die zweite Komponente die unabhängige Variation von yi wiedergibt.

Betrachten wir zur weiteren Diskussion dieses Ansatzes Abbildung 1. In dieser Abbildung sind zunächst links die Verteilung der y-Werte (Kurve fy) und rechts die Regressionsgerade Gy/x dargestellt. Außerdem sind als Beispiele die Werte x1 bis x3 gekennzeichnet. Die für diese x-Werte geschätzten -Werte liegen auf der Regressionsgeraden. Nun wissen wir aber, dass zu einem xi-Wert mehrere y-Werte gehören. Alle zu einem xi gehörenden y-Werte bilden ihrerseits Verteilungen fy/xi. Drei dieser Verteilungen sind in Abbildung 1 eingezeichnet.

Wie lässt sich nun für die erste Komponente die Varianz der geschätzten -Werte definieren? Dies verläuft nach der uns bekannten Varianzdefinition, also:

    ( a )

Wegen (( 7 ) in Kapitel 15) geht ( a ) über in:

( 1 )

 

Abbildung 1: Zur Erläuterung der Varianz auf der Regressionsgeraden
und der Varianz um die Regressionsgerade

 

bezieht sich auf die -Werte, die alle auf der Regressionsgeraden liegen. Aus diesem Grunde wird diese Varianz auch Varianz auf der Regressionsgeraden genannt. Bei der Prognose stellt diese Komponente den systematischen Bestandteil dar; deswegen wird die Varianz auf der Regressionsgeraden auch als systematische Varianz bezeichnet und mit abgekürzt.

Betrachten wir nun die zweite Komponente. Bei der Prognose der yi-Werte werden Fehler begangen. Diese Fehler spiegeln sich (s. Abbildung 1) in den Verteilungen fy/xi. Betrachten wir beispielsweise fy/x1 in Abbildung 1, die die Verteilung aller zu x1 gehörenden y-Werte wiedergibt. Zu allen diesen Werten wird bei der Regression der eine  1-Wert geschätzt. Gehören nun zu x1 n1 y-Werte, so lässt sich die Summe der bei xi vorliegenden Fehlerquadrate als

    ( b )

festhalten. Für die gesamte Stichprobe mit dem Umfang N erhalten wir:

    ( c )

( c ) wird nun in der Form von ( 2 ) als Varianz für die zweite Komponente definiert.

( 2 )

2 ) gibt die Streuung der wirklichen Messwerte yi um die Regressionsgerade wieder. Deswegen wird als Varianz um die Regressionsgerade bezeichnet. Der Index "y/x" verweist darauf, dass für jeden x-Wert die Varianzanteile gesondert betrachtet werden. Da diese Varianz auch den bei der Regression vorliegenden Fehler spiegelt, wird die Varianz um die Regressionsgerade auch Fehlervarianz genannt und mit abgekürzt.

In einer zwar algebraisch einfachen, dennoch aber sehr langwierigen Umformung lässt sich nun zeigen, dass sich systematische Varianz und Fehlervarianz zur Gesamtvarianz aufaddieren, dass also ( 3 ) gilt.

( 3 )

Drücken wir die wichtige Beziehung ( 3) noch einmal in Worten aus:

Der durch ( 3 ) erfasste Sachverhalt ist in Abbildung 2 noch einmal graphisch in Form eines Varianzdiagramms dargestellt.

 

Abbildung 2: Varianzdiagramm für den additiven Zusammenhang
zwischen systematischer, Fehler- und Gesamtvarianz

 

( 3 ) wird im nachfolgenden Abschnitt zur abschließenden Diskussion der Beziehungen zwischen Korrelation, Regression und Varianz dienen.


[zurück]- [Seitenkopf] - [weiter]