3  GLM – BLUE

Veröffentlichungsdatum

2024-03-05

## Loading required package: viridisLite

3.1 Die Folien

full screen

Der Vorlesungsmitschnitt

3.2 OLS

Eine der einfacheren und grundlegenden Methoden um die b’s zu bestimmen ist die Methode der kleinsten Quadrate bzw. OLS, was das Akronym für Ordinary Least Squares ist. Mit dieser Methode legt die Mathematik eine Gerade in eine Punktwolke, weil sie es nicht visuell und intuitiv machen kann. Das Prinzip ist recht einfach: Man versucht b’s zu finden, für die die Fehler möglichst klein sind. Das ist im Grunde die Optimierungsaufgabe der OLS-Methode. Genau das machen wir auch, wenn wir eine Gerade in eine Punktwolke legen, wir bauen sie so ein, dass sie «optimal reinpasst» also die Abstände zu den einzelnen Punkten minimal sind.


Sehr gut hier zum anschauen und spielen:

OLS-App

OLS-App

Als Beispiel hatte ich in der Vorlesung gebracht, dass man auch mal überlegen könnte, welcher Wert eine Verteilung einer Variablen optimal repräsentieren würde. Wenn wir dieses Optimierungsproblem an OLS übergeben würden, dann würden wir sagen: Suche einen Wert a aus allen möglichen a-Werten, der für eine Variable x die kleinsten quadrierten Abstände hat. Damit es OLS versteht würden wir schreiben: \(\text{OLS bitte minimiere folgende Gleichung:} \sum_i{(x_i-a)^2}\)

Jetzt wissen wir, dass die quadrierten Abweichungen gross sein müssen, wenn a links vom Optimum liegt und immer kleiner wird, wenn wir uns dem optimalen a-Wert annähern. Dann wird die Summe der quadratischen Abstände wieder grösser. Also haben wir eine Funktion, die einer quadratischen Funktion folgt (dass die so aussieht, müssen wir garnicht wissen, aber es hilft vielleicht der Vorstellung). Wenn wir wissen wollen, wo diese Funktion ihr Minimum hat, dann können wir die Funktion ableiten und dann nach der Nullstelle der abgeleiteten Funktion suchen. An der Stelle liegt dann der a-Wert, der die Streuung einer jeden Variablen optimal abbildet, weil wir diese Ableitung völlig abstrakt und ohne konkrete Werte gemacht haben und sie daher immer gilt. Also:

\[\begin{align} \frac{df}{da} = & \sum_i{(x_i-a)^2}^{\prime} = 0 \label{eq-OLS-Ableitung} \\ 0 = & \sum_i{[x_i^2 - 2x_ia + a^2]}^{\prime} \label{eq-OLS-Ableitung2} \end{align}\]

In der ersten Zeile das df/da bedeutet, dass abgeleitet (differenziert) werden soll und zwar die Funktion f nach a. In der zweiten Zeile sehen wir dann schon die Ableitung nach Ableitungsregeln (wer extrem Bock hat, kann sich die ja nochmal angucken) und gleich auch schon mit 0 gleichgesetzt.

In der nächsten Zeile (eq-Umstellen1) wird ein bischen aufgelöst und umgestellt (müssen Sie nicht können).

\[\begin{align} 0 = & -2\sum_i{x_i} + 2na & |:2n\ |+\sum_i{x_i} \label{eq-Umstellen1}\\ \frac{\sum_i{x_i}}{n} = & a \label{eq-Umstellen2} \\ a = &\overline{x} \label{eq-Mittelwert-Optimum} \end{align}\]

Am Ende kommt als Lösung für den nach OLS besten Repräsentanten einer Variablen heraus: \(\frac{\sum_i{x_i}}{n} = a\) (eq-Umstellen2). Der linke Teil ist genau die Definition von \(\overline{x}\), also dem Mittelwert. Damit haben wir mit einer Ableitungen der OLS herausgefunden, dass der Mittelwert die kleinste Summe der quadrierten Abstände jedes Wertes zu einem Wert a hat, also der gesuchte beste Repräsentant für eine Variable der Wert \(a=\overline{x}\) ist (eq-Mittelwert-Optimum). Dasselbe könnten wir für die Formel \(Y_i = b_1 + b_2X_i + e_i\) machen. Wenn wir (mit ein paar Annahmen) das für jedes \(b_1\) bis \(b_3\) machen würden, dann hätten wir die b’s mit OLS bestimmt. Da das ungleich komplizierter ist als für den Mittelwert, schlage ich vor, wir lassen das an dieser Stelle.

Wir suchen mit Hilfe der OLS-Funktion die b’s für das Modell:

\[\begin{align} Y_i = & b_1 + b_2X_{i2} + b_3X_{i3} + e_i &&|\ -(b_1 + b_2X_{i2} + b_3X_{i3}) \\ e_i = & Y_i - b_1 - b_2X_{i2} - b_3X_{i3} \label{eq-2.41} \end{align}\]

Da es gleich um die \(e_i\) gehen wird, haben wir schon mal die Regressionsgleichung nach \(e_i\) umgestellt.

Ausgangspunkt für die Ableitung der OLS-Funktion ist die Idee, den vom Modell nicht erklärten Rest, also die Residuen (\(e_i\)) zu minimieren. Die Residuen sind wie folgt definiert und können nach Formel \(\eqref{eq-2.41}\) auch als Umstellung der Regressionsgleichung geschrieben werden:

\[\begin{align} e_i=Y_i-\hat{Y}_i=Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3} \label{eq-2.4} \end{align}\]

Die Residuen werden minimmiert, wenn die Summe der quadrierten Fehler aka Residuen (auch Error e) minimiert werden, also die Summe \(\sum_{i=1}^n e_i^2\) möglichst klein ist. Für die Summe der quadrierten Fehler (Sum of Squared Errors: SSE) können wir schreiben:

\[\begin{align} \sum_{i=1}^n e_i^2=\sum_{i=1}^n\left(Y_i-\hat{Y}_i\right)^2=\sum_{i=1}^n\left(Y_i-b_1-b_2 X_2-b_3 X_{i 3}\right)^2 \label{eq-2.5} \end{align}\]

Wenn wir die Summe der quadrierten Fehler (SSE) minimieren wollen, leiten wir die SSE nach den gesuchten b ab (das \(\partial\) steht für differenzieren, also ableiten; das \(\partial b\) unter dem Bruchstrich bedeutet, dass nach b abgeleitet wird und nicht etwa, dass irgendwie durch b geteilt wird):

\[\begin{align} \frac{\partial S S E}{\partial b}&=\frac{\partial\left(\sum_{i=1}^n e_i^2\right)}{\partial b}\\ {}&=\frac{\partial\left(e_1^2\right)}{\partial b}+\frac{\partial\left(e_2^2\right)}{\partial b}+\cdots+\frac{\partial\left(e_i^2\right)}{\partial b}\\ {}& =\sum_{i=1}^n \frac{\partial\left(e_i^2\right)}{\partial b} \label{eq-2.6} \end{align}\]

Nach den Ableitungsregeln kann man die Ableitung einer Summe zerlegen in die Ableitung der einzelnen Summanden. Das steht in \(\eqref{eq-2.6}\). Nach den ableitungsregeln kann man daraus Folgendes machen (schauen Sie nur darauf, wonach jeweils abgeleitet wird. Alle anderen Teile fallen weg. In \(\eqref{eq-2.4}\) wird zB nach \(b_1\) abgeleitet, und die Ableitung einer Konstanten (\(b_1\)) ist 1 und mit dem Minuszeichen davor, bleibt eben -1 übrig. In \(\eqref{eq-2.6}\) wird nach \(b_2\) abgeleitet. Darum bleibt aus der Formel \(b_2X_{i 3}\) übrig, was nach Ableitungsregeln \(X_{i 2}\) entspricht und wieder mit einem Minuszeichen aus der Formel versehen ist.):

\[\begin{align} & \frac{\partial\left(e_i^2\right)}{\partial b}=\frac{\partial\left(e_i^2\right)}{\partial e_i} \frac{\partial e_i}{\partial b}=2 e_i \frac{\partial e_i}{\partial b} \label{eq-2.7} \end{align}\]

und nach Gleichung \(\eqref{eq-2.4}\), \[ \begin{gathered} \frac{\partial e_i}{\partial b_1}=\frac{\partial\left(Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3}\right)}{\partial b_1}=-1, \end{gathered} \tag{3.1}\]

\[ \begin{gathered} \frac{\partial e_i}{\partial b_2}=\frac{\partial\left(Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3}\right)}{\partial b_2}=-X_{i 2}, \end{gathered} \tag{3.2}\]

\[ \begin{gathered} \frac{\partial e_i}{\partial b_3}=\frac{\partial\left(Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3}\right)}{\partial b_3}=-X_{i 3} . \end{gathered} \tag{3.3}\]

Jetzt müssen alle Formeln von Gleichung 3.1 bis Gleichung 3.3 zusammengefügt und die einzelnen Ableitungen gleich 0 gesetzt werden, um die Gesamtfunktion zu minimieren:

\[\begin{align} \frac{\partial S S E}{\partial b_1} & =2 \sum_{i=1}^n e_i \frac{\partial e_i}{\partial b_1}=2 \sum_{i=1}^n\left(Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3}\right)(-1) \\ & =-2 \sum_i Y_i+2 \sum_i b_1+2 b_2 \sum_i X_{i 2}+2 b_3 \sum_i X_{i 3} \end{align}\]

dafür können wir schreiben: \[ -\sum_i Y_i+n b_1+b_2 \sum_i X_{i 2}+b_3 \sum_i X_{13}=0 \tag{3.4}\]

Jetzt wollen wir die SSE noch für bzw. nach \(b_2\) ableiten: \[ \frac{\partial S S E}{\partial b_2}=2 \sum_{i=1}^n e_i \frac{\partial e_i}{\partial b_2}=2 \sum_{i=1}^n\left(Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3}\right)\left(-X_{i 2}\right) \]

oder nach der Zerlegung der Summe in die einzelnen Summanden, die jeweils mit \(-X_{i 2}\) multipliziert wird und sich darum immer das Vorzeichen umkehrt.

\[ -\sum_i Y_i X_{i 2}+b_1 \sum_i X_{i 2}+b_2 \sum_i X_{i 2}^2+b_3 \sum_i X_{i 3} X_{i 2}=0 \tag{3.5}\]

Nun fehlt nur noch die Ableitung der SSE nach \(b_3\): \[ \frac{\partial S S E}{\partial b_3}=2 \sum_{i=1}^n e_i \frac{\partial e_i}{\partial b_3}=2 \sum_{i=1}^n\left(Y_i-b_1-b_2 X_{i 2}-b_3 X_{i 3}\right)\left(-X_{i 3}\right) \]

und wie bei \(b_2\): \[ \begin{gathered} -\sum_i Y_i X_{i 3}+b_1 \sum_i X_{i 3}+b_2 \sum_i X_{i 2} X_{i 3}+b_3 \sum_i X_{i 3}^2=0 . \end{gathered} \tag{3.6}\]

Jetzt teilen wir jeweils die Gleichung 3.4 bis Gleichung 3.6 durch die Fallzahl, also \(n\), woraus sich ergibt (etwas konventionaller geschrieben und erstmal übersichtlicher):

\[\begin{align} b_1+a_1 b_2+a_2 b_3 & =c_1, \\ a_1 b_1+a_3 b_2+a_4 b_3 & =c_2, \\ a_2 b_1+a_4 b_2+a_3 b_3 & =c_3, \end{align}\]

wobei sich hinter den a’s und c’s folgende Elemente verbergen, die am Ende eigentlich immer recht einfach (\(\bar{X}_2\) und so) ausfallen:

\[ \begin{gathered} a_1=\frac{1}{n} \sum X_{i 2}=\bar{X}_2, \quad a_2=\frac{1}{n} \sum X_{i 3}=\bar{X}_3, \quad a_3=\frac{1}{n} \sum X_{i 2}^2, \\ a_4=\frac{1}{n} \sum X_{i 2} X_{i 3}, \quad a_5=\frac{1}{n} \sum X_{i 3}^2, \\ c_1=\frac{1}{n} \sum Y_i=\bar{Y}, \quad c_2=\frac{1}{n} \sum Y_i X_{i 2}, \quad c_3=\frac{1}{n} \sum Y_i X_{i 3} . \end{gathered} \tag{3.7}\]

Durch Einsetzten erhalten wir also: \[ \bar{Y}=b_1+b_2 \bar{X}_2+b_3 \bar{X}_3 \quad \text { umgestellt } \quad b_1=\bar{Y}-b_2 \bar{X}_2-b_3 \bar{X}_3 \tag{3.8}\]

und Gleichung 3.5 sowie Gleichung 3.6 sind

\[\begin{align} & \bar{X}_2 b_1+\left(\frac{1}{n} \sum X_{i 2}^2\right) b_2+\left(\frac{1}{n} \sum X_{i 2} X_{i 3}\right) b_3=\frac{1}{n} \sum Y_i X_{i 2} \label{eq-2.12}\\ & \bar{X}_3 b_1+\left(\frac{1}{n} \sum X_{i 2} X_{i 3}\right) b_2+\left(\frac{1}{n} \sum X_{i 3}^2\right) b_3=\frac{1}{n} \sum Y_i X_{i 3} . \label{eq-2.13b} \end{align}\]

Wenn man jetzt das \(b_1\) aus Gleichung 3.8 einsetzt, ergibt sich

\[\begin{align} & b_2\left(\frac{1}{n} \sum X_{i 2}^2-\bar{X}_2^2\right)+b_3\left(\frac{1}{n} \sum X_{i 2} X_{i 3}-\bar{X}_2 \bar{X}_3\right)=\left(\frac{1}{n} \sum Y_i X_{i 2}-\bar{Y} \bar{X}_2\right) \\ & b_2\left(\frac{1}{n} \sum X_{i 2} X_{i 3}-\bar{X}_2 \bar{X}_3\right)+b_3\left(\frac{1}{n} \sum X_{i 3}^2-\bar{X}_3^2\right)=\left(\frac{1}{n} \sum Y_i X_{i 3}-\bar{Y} \bar{X}_3\right) \label{eq-2.13n1} \end{align}\]

Die Varianzen der Variable X ist \(\left[V_X=(1 / n) \sum X_i^2-\bar{X}^2\right]\) und die Kovarianz von \(X\) und \(Y\) ist \(\left[C_{X Y}=(1 / n) \sum X_1 Y_i-\bar{X} \bar{Y}\right]\), also kann man für die \(\eqref{eq-2.13n1}\) etwas übersichtlicher schreiben: \[ b_2 V_{X_2}+b_3 C_{X_2 X_3}=C_{Y X_2}, \quad b_2 C_{X_2 X_3}+b_3 V_{X_3}=C_{Y X_3} \]

Das ist damit auch das Ergebnis der ganzen Ableitung: Die b’s lassen sich aus den Varianzen und Kovarianzen der Variablen bestimmen!

Um eine noch übersichtlichere Schreibweise zu bekommen, lassen wir jetzt noch die Subscripte der ganzen X weg. Also schreiben wir ddie Varianzt von \(X_2\) nicht mehr als \(V_{X_2}\), sondern einfach als \(V_2\) und die Kovarianz zwischen \(X_2\) und \(X_3\) statt \(C_{X_2 X_3}\) als \(C_{2 3}\). Dann vereinfacht sich das Ganze für \(b_2\) zu:

\[\begin{align} b_2=\left(V_3 C_{Y 2}-C_{23} C_{Y 3}\right) /\left(V_2 V_3-C_{23}^2\right) . \label{eq-2.15} \end{align}\]

und für \(b_3\):

\[\begin{align} & b_3=\left(V_2 C_{Y 3}-C_{23} C_{Y 2}\right) /\left(V_2 V_3-C_{23}^2\right) . \label{eq-2.16} \end{align}\]

Und weil die Korrelelation \(r_{Y 2} = C_{Y 2} / S_2S_Y\) ist und die Varianz \(V = S^2\), kann man für die ?eq-2.15 kann man, statt der Covarianzen und Varianzen, Korrelationen schreiben:

\[\begin{align} b_2 = \frac{\left(V_3 C_{Y 2}-C_{23} C_{Y 3}\right)}{\left(V_2 V_3-C_{23}^2\right)}=\frac{r_{Y 2}-r_{23} r_{Y 3}}{\left(1-r_{23}^2\right)} \frac{S_Y}{S_2} . \label{eq-2.15} \end{align}\]

(Wer Lust hat, zeigt, dass das die \(\eqref{eq-2.15}\) stimmt.)

Ich habe Ihnen eine Excel-Datei gebaut, mit der Sie sich das Prinzip von OLS interaktiv anschauen können:

OLS-xlsx

OLS-xlsx


Welche Funktion und Eigenschaften hat OLS


3.3 Vorraussetzung für BLUE

Damit unsere b’s aus der OLS die besten linearen unverzerrten Schätzer (BLUE:Best Linear Unbiased Estimator) für die \(\beta\)s sind, müssen ein paar Voraussetzungen erfüllt sein. Diese Voraussetzungen gucken wir uns in diesem Kapitel an. Zusammengefasst sind es:

V1. Die UVs und die AV dürfen keine Konstanten sein.

V2. Das Skalenniveau der UVs muss metrisch oder dichotom (0/1) sein.

V3. Die Werte der X müssen fix sein.

V4. Das Modell muss voll spezifiziert sein. D.h.: Keine Korrelation mit externen Variablen.

V5. Es darf keine perfekte oder heftige Multikollinearität geben.

V6. Die Residuen müssen bei jedem Wert jeder UV gleich streuen (Homoskedastizität).

V7. Die Residuen müssen grob normalverteilt sein.

V8. Die Residuen dürfen nicht autokorreliert sein.


Was verbirgt sich hinter demm Akronym BLUE (ausgeschrieben)?

Best Linear Unbiased Estimator


Ein Koeffizient soll seinen zugehörigen Parameter unverzerrt schätzen, also zB \(b_2\) das \(\beta_2\) oder auch \(\overline{x}\) das \(\mu\). Da wir Zufallsstichproben ziehen, sind die Koeffizienten zu ihren Parametern sehr selten genau gleich. Vielmehr streuen die Kennwerte um den wahren Parameter, wenn man viele Stichproben aus einer Grundgesamtheit zieht. Diese Streuungen der Kennwerte um den wahren Wert des Parameters kennen Sie als Normalverteilung.

In der Abbildung 3.1 ist ein fiktives Beispiel für einen Parameter als rote Linie dargestellt (es könnte ein \(\overline{x}\) oder ein \(b_2\)). Der soll geschätzt werden. Wenn wir eine Stichprobe ziehen, kommt ein Wert der blauen Linie heraus. Wenn wir das elendig oft machen, kommt eine Verteilung raus, die in der Regel die Form einer Normalverteilung hat, wie sie in der Abbildung dargestellt ist. Wenn diese Kennwertverteilung um den wahren Parameter symmetrisch verteilt ist, also ihr Maximum gleich dem Parameter ist, sprechen wir von einem «erwartungstreuen» Kennwert. In der Abbilung ist der Kennwert nicht erwartungstreu. Sie fragen sich vielleicht, wann soetwas vorkommt. Das passiert, wenn zum Beispiel eine verzerrte Stichprobe gezogen wird. Nehmen wir an, es die Wahrscheinlichkeit geschätzt werden, dass Leute abstimmen gehen. Die liegt im Beispiel der Abbildung 3.1 bei 50% der Abstimmungsberechtigten. Wenn wir allerdings eine Befragung gemacht hätten, wo wir ganz repräsentativ die gesamte Wohnbevölkerung befragt hätten, wären viele Befragte in der Stichprobe, die nicht abstimmungsberechtigt wären. Wir hätten also praktisch unser Modell unterspezifiziert, weil wir nicht berücksichtigt haben, dass es in der Wohnbevölkerung zwei Gruppen gibt, wobei eine abstimmungberechtigt ist und die andere nicht.

Der Erwartungswert ist der Mittelwert der Kennwertverteilung. Die Schreibweise \(E(b_2)\) kommt nun daher, dass wir fragen, ob ein Kennwert erwartungstreu ist, also ob der Erwartungswert gleich dem zu schätzenden Parameter ist, also bei \(b_2\) das \(\beta_2\). Ob ein Kennwert erwartungstreu ist, können wir für jede Art von Kennwert fragen, also zum Beispiel Korrelationskoeffizienten, Covarianz, Varianz, Standardabweichung, Regressionskoeffizienten standardisiert oder nicht.

Abbildung 3.1: Nicht erwartungstreuer Kennwert eines Parameters

3.4 Variablenskalierung (V1.-V2.)

Die beiden ersten Voraussetzungen (V1. und V2.) betreffen die Skalierung der Variablen.

3.4.0.1 Variablen dürfen keine Konstanten sein (V1.)

Die UVs und die AV dürfen keine Konstante sein. Das ist insofern recht trivial, als dass eine Konstante mit nichts kovariieren kann, weil Konstanten nicht variieren. Je grösser «\(\pi\), desto \(...\)» macht einfach keinen Sinn. Da Konstanten nicht variieren (keine Varianz haben), können sie nicht kovariieren und können daher in keinen Erklärungsmodellen als Variablen einbezogen werden. An dieser Stelle klingt das sehr trivial. Und doch kommt es immer wieder vor, dass in Hypothesen Variablen einfliessen, die in der gewählten Stichprobe konstant sind. Zum Beispiel ist in der Hypothese «Wenn über Sport berichtet wird, zählen Superlative besonders.» Das Konstrukt «über Sport berichtet» ist eine Konstante, wenn nur der Sportteil untersucht werden soll. Hypothesen sind keine Annahmen über Zusammenhänge mehr, wenn eines der Konstrukte, die in Hypothesen zusammengebracht werden, in den Daten eine Konstante ist. Oftmals kommen solche Hypothesen mit Konstanten zustande, wenn der Fokus auf eine Ausprägung einer Variablen gelegt wird und die Abweichung von dieser Ausprägung nicht erhoben wird. Annahmen über den Wandel von Kriegsberichterstattung kann als zeitlicher Prozess nicht untersucht werden, wenn nur das Heute untersucht wird. Oft genug kommen Konstanten in Hypothesen vor, wenn das Forschungsinteresse aus dem Interesse der Forschenden eigentlich deskriptiv ist, also nur die Verteilung von einzelnen Variablen gefragt ist, und dann posthoc Hypothesen formuliert werden sollen, weil das von den Dozierenden oder Reviewern verlangt bzw. erwartet wird. ;-)

3.4.0.2 Variablen sollen metrisch sein (V2.)

Die AV und die UVs sollen metrisch sein. Das klingt nach einer recht harten Voraussetzung. Allerdings gibt es die schöne Eigenschaft von Dummyvariablen (0/1), dass sie sich verhalten wie metrische Variablen, weil ihr Mittelwert und ihre Streuung sinnvoll interpretierbar sind. Dummyvariablen können also gut als UVs eingesetzt werden. Nun ist diese spezielle Form der dichotomen Variable (zwei Ausprägungen) nur die eine Form der nominalen Variablen. Dichotome Variablen können immer als Dummyvariable dargestellt werden. Man muss ja nur eine Ausprägung in 0 umkodieren und die andere in 1. Bei den kategorialen Variablen gibt es mehr Ausprägungen. Zum Beispiel Gender mit 1 = weiblich, 2 = männlich, 3 = divers1. Das Gute wiederum ist, dass kategoriale Variablen vollständig mit Dummyvariablen abgebildet werden können. Das geht dann so: Man baut eine Variable «Weiblich», die die Ausprägungen 1 = «trifft zu» und 0 = «trifft nicht zu» hat. Dann gibt es eine zweite Variable für «männlich» mit 0 und 1 und auch eine Dummy für «Divers». Diesem Vorgehen sind eigentlich keine Grenzen gesetzt. Man könnte also auch noch erweitern oder differenzieren in «transgender», «genderqueer», «genderfluid», «bigender», «pangender», «trigender», «agender», «demigender», «abinär» und zur Sicherheit in Deutschland auch «Taucher»2.

In den linearen Modellen können Sie also auch kategoriale Variablen einbauen3. Auch die AV kann eine Dummyvariable sein. Das führt allerdings zu ein paar Problemen mit dem einfachen linearen Modell. Deshalb werden bei einer AV mit nur den Ausprägungen 0 und 1 logistische Regressionen gerechnet. Damit befassen wir uns später. Es geht auch, dass die AV kategorial ist. Das ist dann so ähnlich wie mit den Dummys als UV, weil dann mehrere Regressionen mit mehreren Dummys für die AV gerechnet werden. Das wird multinominale Regression genannt (auch bekannt als Diskriminanzanalyse).

Dann bleiben im Grunde nur die ordinalen Variablen übrig, die mehr Informationen über Ordnung der Ausprägungen (Rangordnung) enthalten, aber die Zahlenwerte (numerisches Relativ) mit ihren identischen Abständen (1 zu 2 wie 2 zu 3 und 3 zu 4 usw.) nicht abbilden, dass die Abstände der gemessenen Ausrägungen (empirisches Relativ) nicht annähernd gleich sind (1 = «arm», zwei = «reich», 3 gleich «superreich»). Dafür gibt es drei Lösungen, um ordinale Variablen auch in lineare Modelle einbeziehen zu können.

  1. Ordinale Variablen werden als metrisch oder quasimetrisch behandelt und wie metrische in ein Modell aufgenommen. Das geschieht praktisch häufig, wenn z.B. Schulnoten einfach in ein lineares Modell aufgenommen werden. Wir wissen, dass die Abstände zwischen der Schweizer Bestnote 6.0 und 5.5 nicht genauso gross sind, wie zwischen 5.5 und 5.0 oder gar 4.0 und 3.5. Dennoch sind die Schätzer der linearen Modelle relativ robust gegen diese Verletzung. Gerade wenn es eigentlich nur darum geht, zu prüfen, ob Schulnoten einen signifikanten Effekt auf eine AV haben, dann kann man diese ordinalen Variablen getrost als «quasimetrisch» verwenden. In diesen Fällen sollte man nur etwas vorsichtiger sein, wenn eine Signifikanzschwelle nur knapp gerissen wurde oder b als Effekt nur knapp die Schwelle der Interpretierbarkeit übersprungen hat, dann sollte man bescheiden sein und klar machen, dass aufgrund der Datenlage und dem Skalennivau der Variablen die Zahlen nicht überinterpretiert werden sollten.

  2. Es gibt auch die Möglichkeit, ordinale Variablen als kategoriale Variablen zu behandeln (womit ihr Datenniveau aber eigentlich herabgestuft wird). Dann würden wir die Ausprägungen der ordinalen UVs wiederum in Dummyvariablen umkodieren und nur die Dummys interpretieren. Im besten Fall werden in solche Interpretationen die zugrundeliegende Rangfolge der Dummys berücksichtigt, also die erste Gruppe mit der zweiten, die zweite mit der Dritten und dann die erste mit der Dritten, aber mit Rücksicht auf die Bedeutung der Rangfolge.

  3. Wenn eine oder mehrere UVs klar ordinal sind, also die Abstände zwischen den Zahlenwerte deutlich auseinandergehen oder vielleicht sogar variieren (Laufwettkampf mit mal sehr knappen Unterschieden und mal sehr grossen von Platz eins zu Platz zwei, wenn Kipchoge mitläuft), dann sollten die ordinalen nicht einfach als metrische betrachtet werden. Wenn solche ordinalen Variablen zentral sind, dann kann auch nicht einfach auf Dummys ausgewichen werden. Dafür gibt es aber inzwischen Analysemethoden der ordinalen Regression, die in diesen Fällen eingesetzt werden können. Mit dem Verständnis der normalen linearen Modelle ist es nicht mehr schwer, sich so gut selbständig in die ordinale Regression einzuarbeiten, dass sie gewinnbringend eingesetzt werden kann.

3.5 Modellspezifikation und Multikollinearität (V3.-V5.)

Die Fehlervarianz \(s^2\) ist definiert als Abstand zwischen den Fehlern \(e_i\) und dem Durchschnitt der Fehler, wobei wir davon ausgehen, dass wir die Fehler um 0 streuen, also die Regressionsgerade erwartungstreu schätzt und keinen Bias hat:

\[ s^2=\frac{1}{n-3} \sum\left(e_i-\bar{e}\right)^2=\frac{1}{n-3} \sum e_i^2 . \tag{3.9}\]

Es wird also vorausgesetzt, dass \(\bar{e}=0\). Interessant ist noch der Zähler vor der Summe mit \(n-3\) der zeigt, dass drei Kennwerte in die Berechnung für das Regressionsmodell eingegangen sind, die alle für sich auch eine Fehlerstreuung haben, weshalb wir nicht durch n teilen, sondern bei n-3 Freiheitsgraden eben durch n-3.

Die Fehlervarianz (Wir machen das mit der Varianz, weil lauter Wurzeln die Übersichtlichkeit nicht gerade steigern würden.) der Regressionskoeffizienten, also der b’s ist durch folgende Formel definiert:

\[\begin{align} s_{b_2}^2&=\frac{s^2}{n} \frac{1 / V_2}{1-r_{23}^2} \label{eq-2.152} \end{align}\]

Also ist die Fehlervarianz von \(b_2\) wie beim Standardfehler \(s_{\bar{x}}\) gleich der der Varianz der Fehler \(s^2\) geteilt durch n. Die Streuung der Fehler können wir durch gute Modellbildung verringern. Die Fallzahl n können wir durch die Vergrösserung der Stichprobe erhöhen (das kostet einfach Ressourcen aka Geld). Wir können also die Sicherheit bzw. Unsicherheit unserer Messungen durch die Vergrösserung der Stichproben verkleinern.

In der \(\eqref{eq-2.152}\) steht aber mehr. Es volgt noch \(\frac{1}{V_2}\). Das bedeutet, dass die Streuung der Regressionskoeffizienten auch etwas mit \(V_2\) der Varianz von \(X_2\) zu tun hat. Je mehr Varianz die Variable \(X_2\) hat, desto kleiner ist die Streuung von \(b_2\). Anders ausgedrückt: Je mehr Varianz beziehungsweise Unterschiede in der UV vorhanden ist, mit der Unterschiede in der AV aufgeklärt werden können, desto besser können wir den Zusammenhang beziehungsweise die grösse von \(b_2\) schätzen. Wenn alle unsere Befragten fast dieselbe Antwort gegeben hätten, woran soll man dann festmachen, wann sich \(Y\) aufgrund von \(X_2\) wie ändert? Wenn die UV breit streut, also von allem was drin ist, dann kann man auch schauen, was wie mit der AV, also \(Y\) einhergeht. Darum ist die Varianz von \(V_2\) umgekehrt proportional zur Fehlerstreuung \(s^2_{b_2}\).

Am Ende steht noch ein Faktor: \(\frac{1}{1-r^2_{23}}\). In diesem Teil steckt die Musik für das aktuelle Kapitel: Hier wird die Multikollinearität abgebildet. Wenn nähmlich die Quadrierte Korrelation zwischen \(X_2\) und \(Y\) gross ist, dann wird \(1-r_{23}^2\) klein und damit geht die Fehlervarianz \(s_{b_2}^2\) hoch. Wenn wir uns mal nur diesen «Multikollinearitätsfaktor» anschauen, dann wird deutlich, dass, wenn die Varianz der Variablen \(X_2\) von der Variablen \(X_3\) sagen wir zu 50% aufgeklärt wird, dann steht unter dem Bruch 0,5 und damit der Faktor 2 für die Varianz der Fehler von \(b_2\). Darum wird dieser Faktor auch «Varianz-Inflations-Faktor» genann, oder kurz: VIF. Das Prinzip ist ähnlich wie bei dem Faktor \(\frac{1}{V_2}\), für den wir oben bemerkt haben, dass wenig Erklärungsvarianz zu wackeligen b’s führt, also solchen mit hoher Fehlerstreuung. In der multivariaten Regression rechnen wir aber immer die gemeinsame Varianz der UVs gegenseitig heraus. Wir nehmen also der Variablen \(X_2\) viel Erklärungskraft, wenn wir mehrere weiter UVs in das Modell mit aufnehmen, die \(X_2\) zu grossen Prozentanteilen Varianz klauen. Es kann also \(V_2\) von \(X_2\) in der Erhebung mehr oder weniger Varianz haben, oder es wird ihm durch andere UVs im Modell noch Varianz genommen. Der VIF ist in der \(\eqref{eq-2.152}\) mit kleinem r geschrieben. Das liegt daran, dass es sich hier um das quadrierte bivariate r handelt, dass recht vertraut aussieht. Wenn wir mehr als zwei UVs haben, also neben \(X_2\) und \(X_3\) noch ein \(X_4\), dann würden wir unter dem Bruch das multiple \(R^2\) hinschreiben und im Subscipt an erster Stelle die Kennung der Variablen zu der das \(s_{b_2}^2\) geschätzt werden soll, also \(X_2\) und dann alle anderen UVs hinter einem Punkt. Wir würden also schreiben: \(R^2_2.34\), wenn wir noch die Varialben \(X_3\) und \(X_4\) im Modell berücksichtigen. Damit das nicht zu lang wird, deuten wir das nur an und schreiben bei noch mehr Variablen einfach \(R^2_2.34...\).

Das Gleiche gilt natürlich für die Fehlervarianz vn \(b_3\), also \(s_{b_3}^2\) spiegelbildlich:

\[\begin{align} s_{b_3}^2=\frac{s^2}{n} \frac{1 / V_3}{1-r_{23}^2} \label{eq-2.153} \end{align}\]

Die Standardfehler von \(b_2\) und \(b_3\) sind einfach die Wurzeln, also \(\sqrt{s_{b_2}}\) beziehungsweise \(\sqrt{s_{b_3}}\).

3.6 V3. Fixe X

Dass die UVs fix sein sollen, bedeutet im Grunde nur, dass sich die UVs nicht ständig ändern sollen, sondern in unserer GG (beziehungsweise Auswahlgesamtheit) stabil sind. Wenn sich zum Beispiel die Berichterstattung insgesamt häufig stark ändert, dann wäre es nicht gut, wenn wir mit der Stichprobe einer Inhaltsanalyse arbeiten, die in einer sehr speziellen Zeit erhoben wurde (z.B. ein Kriegsanfang). Diese Stichprobe in einer «Spezialzeit» würde zu verzerrt geschätzten b’s in der Normalzeit führen [vgl. @Wolling2015]. Da wir nicht davon ausgehen können und wollen, dass unsere Theorien in der Sozialwissenschaft immer und ewig gelten, verlangen wir nur mittelfristig gültige Theorien («middle range theory» [@Merton2012]) und dass unsere Variablen mittelfristig relativ stabil bzw. fix sind. Das bedeutet insbesondere, dass wir bei der Stichprobenziehung aufpassen müssen, dass wir nicht eine sehr spezielle Stichprobe in einer ganz besonderen Phase erheben, die Effekte hat, die sonst sehr untypisch sind. Das ist das, was mit fixe X gemeint ist.

Im Folgenden soll abgeleitet werden, warum die fixierten X für die Schätzung von erwartungstreuen (also unverzerrten) b’s wichtig ist. gleich in der ersten Formel führen wir eine neue vereinfachte Nomenklatur ein. Es soll ab hier V für die Varianz stehen und C für die Covarianz, während die Subscripte kennzeichnen, von welcher Variablen die Varianz gemeint ist und welche zwei Variablen die Covarianz aufweisen. Also ist zB $V_3C_{2y} das Produkt aus der Varianz von \(X_3\) und der Covarianz von \(Y\) und \(X_2\). unter dem Bruch steht ein «D» in dem wir die konstante Differenz von $V_2V_3-C_^2{23} erstmal verstecken, weil sie uns nicht sonderlich interessiert.

\[\begin{align} b_2 & =\frac{V_3 C_{2 Y}-C_{23} C_{3 Y}}{D} \end{align}\]

Also gut: Da wir wissen wollen, unter welchen Bedingungen unsere b’s nicht erwartungstreu wären, nehmen wir die Gleichung für die Differenz der tatsächlichen Werte \(Y_i\) und dem tatsächlichen Mittelwert von \(Y\), also \(\overline{Y}\):

\[\begin{align} & =\frac{(1 / n) \sum_{i=1}^n\left\{\left[V_3\left(X_{i 2}-\bar{X}_2\right)-C_{23}\left(X_{i 3}-\bar{X}_3\right)\right]\left(Y_i-\bar{Y}\right)\right\}}{D} \end{align}\]

Das ist viel, aber wenn man sich traut hinzuschauen, sieht man schnell, dass oben links vom -Zeichen einfach die Regressionsgleichen für 2 UVs steht, die wir schätzen wollen und rechts vom -Zeichen steht in Klammern dieselbe Formel, aber immer für die Mittelwerte der UVs (\(\overline{X_2}\) und \(\overline{X_3}\) sowie \(\overline{U}\)). In der zweiten Zeile werden die Mittelwerte ihren UVs zugeordnet.

\[\begin{align} Y_i-\bar{Y} & =\beta_1+\beta_2 X_{i 2}+\beta_3 X_{i 3}+U_i-\left(\beta_1+\beta_2 \bar{X}_2+\beta_3 \bar{X}_3+\bar{U}\right) \\ & =\beta_2\left(X_{i 2}-\bar{X}_2\right)+\beta_3\left(X_{i 3}-\bar{X}_3\right)+\left(U_i-\bar{U}\right) \end{align}\]

Der Mittelwert des unbekannten Rests \(\overline{U}\) ist der Mittelwert der Fehlerterme in der Stichprobe. Wenn wir das überall einsetzen, wird es noch unübersichtlicher, aber, wenn Sie das Muster erkenne, wird deutlich, dass statt der Variablen jetzt überall die Differenzen der Variablen und ihren Mittelwerten stehen:

\[\begin{align} & b_2=\frac{1}{N D}\left\{\sum_{i=1}^n\left[V_3\left(X_{i 2}-\bar{X}_2\right)-C_{23}\left(X_{i 3}-\bar{X}_3\right)\right]\right. \\ &\left.\times\left[\beta_2\left(X_{i 2}-\bar{X}_2\right)+\beta_3\left(X_{i 3}-\bar{X}_3\right)+\left(U_i-\bar{U}\right)\right]\right\} \\ &=\frac{1}{D}\left\{\frac{\beta_2}{N} V_3 \sum\left(X_{i 2}-\bar{X}_2\right)^2-\frac{\beta_2}{N} C_{23} \sum\left(X_{i 3}-\bar{X}_3\right)\left(X_{i 2}-\bar{X}_2\right)\right. \\ &+\frac{\beta_3}{N} V_3 \sum\left(X_{i 2}-\bar{X}_2\right)\left(X_{i 3}-\bar{X}_3\right)-\frac{\beta_3}{N} C_{23} \sum\left(X_{i 3}-\bar{X}_3\right)^2 \\ &\left.+\frac{1}{N} \sum\left[V_3\left(X_{i 2}-\bar{X}_2\right)-C_{23}\left(X_{i 3}-\bar{X}_3\right)\right]\left(U_i-\bar{U}\right)\right\} \end{align}\]

Die erste elendige Summe kann geschrieben werden als: \(\beta_2 V_3(1 / N) \Sigma\left(X_{i 2}-\bar{X}_2\right)^2\) was sich zu \(\beta_2 V_3 V_2\) deuuutlich vereinfachen lässt.

Jetzt knöpfen wir uns zwei wesentliche Teile vor: Den Erwartungswert der Covarianz aus \(X_2\) und dem unbekannten Rest \(U\) \((E(C_{2 U}))\), sowie den Erwartungswert \(E(C_{2 U})\):

\[\begin{align} E\left(C_{2 U}\right)&=\frac{1}{N} \sum\left(X_{i 2}-\bar{X}_2\right) E\left(U_i-\bar{U}\right)\\ &=\frac{1}{N} \sum\left(X_{i 2}-\bar{X}_2\right)\left(\bar{U}_i-\mu\right)\\ &=C_{2 \bar{U}_i} \end{align}\]

Das bedeutet, dass nach der Ableitung rauskommt, dass der Erwartungswert der Covaranz zwischen \(X_2\) und dem unbekannten Rest die Covarianz zwischen \(X_2\) und dem Mittelwert vom unbekannten Rest U ist (das Gleiche kann man für \(E(C_{3 U})\) ableiten, aber das sparen wir uns [wer will, kann ja]). Wenn jetzt jedes \(U_i\) gleich um \(\bar{U}\) streut, dann ist \(E(U_i-\bar{U})=0\). Es dürfen also die UVs nicht mit dem unbekannten Rest korrelieren. Das tun sie nicht, wenn im Rest nur Rauschen ist und keine Erklärungsvariablen, die wir nicht im Modell haben.

Jetzt schauen wir uns die nächsten Elemente an. Das ist zum Einen die Konstante \(b_1\):

\[\begin{align} b_1 & =\bar{Y}-b_2 \bar{X}_2-b_3 \bar{X}_3=\beta_1+\beta_2 \bar{X}_2+\beta_3 \bar{X}_3+\bar{U}=b_2 \bar{X}_2-b_3 \bar{X}_3 \\ & =\beta_1+\left(\beta_2-b_2\right) \bar{X}_2+\left(\beta_3-b_3\right) \bar{X}_3+\bar{U} \end{align}\]

Wenn wir davon wieder den Erwartungswert suchen, ergibt sich:

\[ E(b_1) = E(\beta_1) + E(\beta_2-b_2)\bar{X}_2 + E(\beta_3-b_3)\bar{X}_3 + E(\bar{U}) \]

Es ist dann \(b_1\) ein erwartungstreuer Schätzer von \(\beta_1\), wenn die \(U_i\) unabhängig sind von \(X_2\) und \(X_3\) und \(b_2\) sowie \(b_3\) unverzerrt sind, also gilt: \(E(\beta_2-b_2) = 0\) und \(E(\beta_3-b_3) = 0\). Und es müssen die Erwartungswerte der Unbekannten Null sein, also \(E(\bar{U})=0\).

Wann sind also \(b_2\) und \(b_3\) erwartungstreu und unverzerrt? Wir nehem also erstmal wieder unsere mit \(\beta\)s gespickte Formel: \[\begin{align} b_2 & =\frac{\beta_2 V_3 V_2-\beta_2 C_{23}^2+\beta_3 V_3 C_{23}-\beta_3 C_{23} V_3}{D}+\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{D} \\ & =\frac{\beta_2\left(V_2 V_3-C_{23}^2\right)}{D}+\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{D}\\& =\beta_2+\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{D} . \end{align}\]

Wichtig ist wieder die letzte Zeile der Ableitung. Hier zeigt sich, dass \(b_2\) gleich \(\beta_2\) ist, wenn der zweite Summand rechts gleich Null ist. Das ist er wieder, wenn es keine Covarianz zwischen \(X_2\) und \(U\) gibt.

Für \(b_3\) gilt dasselbe: \[ b_3=\beta_3+\frac{V_2 C_{3 U}-C_{23} C_{2 U}}{D} \text {. } \]

Wenn wir jetzt wieder den Erwartungswert suchen, um zu sehen, wovon er abhängig ist, schreiben wir: \[\begin{align} & E\left(b_2\right)=E\left(\beta_2\right)+E\left[\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{D}\right] \end{align}\]

Da die wahren Regressionkoeffizienten \(\beta\) Konstanten sind, können wir sie einfach so hinschreiben, ohne das E() drumrum. Aus Den Ausdrücken für die Erwartungswerte können wir auch \(V_2\) und \(V_3\) rausholen, weil das auch Konstanten sind: \[\begin{align} & E\left(b_2\right)=\beta_2+\frac{V_3 E\left(C_{2 U}\right)}{D}-\frac{C_{23} E\left(C_{3 U}\right)}{D}, \end{align}\]

Und wieder gilt, dass es darauf ankommt, dass es keine Covarianz zwischen den Variablen im Modell gibt und dem unbekannten Rest \(U\), damit die b’s die \(\beta\)s erwartungstreu schätzen.

Wie oben im einfachen Teil schon gesagt, können wir nicht statistisch prüfen, ob unsere Annahmen stimmen. Wir müssen also kritisch und erfinderisch nach Forschungsmethoden suchen, um aus dem Unbekannten die Einflussgrössen zu holen, die eventuell noch mit unseren Konzepten in unseren theoretischen Modellen korrelieren!

3.6.0.1 V4. Voll spezifizierte Modelle

Unsere B’s sind nur dann unverzerrt, wenn das Modell voll spezifiziert ist in Bezug auf Einflüsse, die mit unseren B’s in Wirklichkeit zusammenhängen. Wenn wir vergessen in unsere Überlegungen und Messungen einzubeziehen, dass die Storchenpopulation einer Gegend nur darum mit der Geburtenrate zu tun hat, weil in ländlichen Regionen die Geburtenrate höher ist und mehr Störche leben als in der Stadt; wenn wir also diesen Dritteinfluss vergessen, dann scheint es einen Zusammenhang zwischen Geburtenrate und Storchenpopulation zu geben. Wir würden falsche Schlüsse ziehen, weil der Zusammenhang verzerrt geschätzt würde. Journalistinnen vom Berliner Kurier könnten glauben, dass der Storch die Kinder bringt. Wir müssen also theoretisch erarbeiten, welche Einflüsse von Bedeutung sein könnten für unsere AV oder den Zusammenhang zwischen den UVs und der AV beeinflussen könnten. Das ist Theoriearbeit. Dieser Zusammenhang muss sich auch mathematisch in der Statistik abbilden, was er auch tut.

Wenn wir mal annehmen, dass die wahren Zusammenhänge gut durch die Formel (eq-3.81) dargestellt wären, aber die Theorie zu dem Thema auf dem Stand ist, dass die einfacheren Zusammenhänge aus der Formel (eq-3.82) gelten, also eine wichtige Einflussgrösse (\(X_4\)) nicht berücksichtigt wurde. Wenn dem so wäre, dann würde das Unbekannte (\(U_i\)) in Formel (eq-3.82) nicht nur den einfachen stochastischen Rest umfassen, sondern zusätzlich \(\beta_4X_{i4}\). Dann wäre der Erwartungswert (also der Wert, um den unsere Stichprobenparameter b streuen) nicht mehr das erhoffte \(\beta_2\) sondern \(\beta_2 + \beta_4b_{42}\), wie in Formel (eq-3.83). Das würde zu einem Fehler führen, der bei \(\frac{r_{42}-r_{32}r_{43}}{1-r^2_{32}}\sqrt{\frac{V_4}{V_2}}\) liegt. Wenn wir also ewig Stichproben ziehen würden und jedes Mal ein \(b_2\) bestimmen würden, dann würden diese \(b_2\)s nicht um \(\beta_2\) streuen. Das Mass, um das wir uns verschätzen würden, wäre so gross wie in (eq-Spez4) notiert. Auch unsere Signifikanztests wären falsch und die Konfidenzintervalle würden an der falschen Stelle liegen. Unsere ganze Analyse wäre falsch.

\[\begin{align} \text{wahr:} Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4}+U_i \label{eq-3.81} \\ \text{geschätzt: } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} +U^\star_i \text{\qquad wobei \quad } U^\star_i = \beta_4X_{i4}+U_i \label{eq-3.82}\\ \text{also: } E(b_2) =& \beta_2 + \beta_4b_{42} \label{eq-3.83}\\ \text{mit: } b_{42}=&\frac{r_{42}-r_{32}r_{43}}{1-r^2_{32}}\sqrt{\frac{V_4}{V_2}} \label{eq-3.84} \end{align}\]

Wie geht man nun mit dieser Tyrannei um, dass man alle Einflüsse kennen sollte, die schlicht unbekannt sind. Nur Chuck Norris weiss, wann ein Modell voll spezifiziert ist. Wir können nie wissen, wann wir am Ende der Wissenschaft angekommen sind, weil wir alles vollständig und für immer gültig spezifiziert haben. Es geht bei dieser Überlegung der Spezifikation mehr darum, dass wir die Spezifikation der bestehenden Modelle verbessern. Das kann heissen, dass wir falsche Alltagsvorstellungen korrigieren, indem wir den Kindern irgendwann sagen, dass das bivariate Regressionsmodell mit den Störchen und den Kindern, nicht voll spezifiziert ist und Sex, Verhütung und viele mehr einen gewissen Einfluss hat auf die Geburtenrate. Wir klären aber nicht nur in der Alltagswelt auf, sondern verbessern auch unsere Modelle stetig, indem wir uns fragen, welche Einflussgrössen bei der Erklärung eines Phänomens noch eine Rolle spielen könnten.

Die statistisch, mathematische Anforderung an die Modellspezifikation bedeutet also, dass wir unsere Theorie gut und gründlich entwickeln müssen. Bei einer schlechten Theorie und entsprechend zu wenig erfasster oder einbezogener Modells sind unsere Ergebnisse verzerrt und damit falsch oder mindestens nicht state of the art. Darum muss man immer erst schauen, was der Forschungsstand ist. Der kann repliziert und damit kontrolliert werden, und wenn wir das Modell weiter spezifizieren und neue Ergebnisse erlangen, dann haben wir die Theorie erweitert und einen wissenschaftlichen Mehrwert geschaffen. Es werden auch noch Generationen nach uns und Ihnen kommen, die unsere Theorien überarbeiten und dabei feststellen, dass wir unserer Modelle unterspezifiziert hatten. Das ist dann der wissenschaftliche und zivilisatorische Fortschritt. Wissenschaft wird also nicht irgendwann fertig sein und wichtig bleiben.

Das Basismodell für die wahre zu schätzende Realität sei wieder: \(Y_i=\beta_1+\beta_2 X_{i 2}+\beta_3 X_{i 3}+\beta_4 X_{i 4} + U_i\). Das heisst, es kommt ein Dritteinfluss hinzu, der als \(\beta_4X_{i 4}\) Teil des ganzen Kausalzusammenhangs ist. Im Folgenden untersuchen wir, was passiert, wenn eben dieses \(\beta_4X_{i 4}\) nicht im Modell ist, dieses also unterspezifiziert ist. Also: \[ Y_i=\beta_1+\beta_2 X_{i 2}+\beta_3 X_{i 3}+\beta_4 X_{i 4}+U_i, \]

Aber statt dieses vollständige Modell zu schätzen, nehmen wir mal ein unterspezifziertes Modell, wobei im \(U_i^*\) das \(\beta_4X_{i 4}\) steckt, also:

\[ Y_i=\beta_1+\beta_2 X_{i 2}+\beta_3 X_{i 3}+U_i^* \quad \text { wobei } \quad U_i^*=\beta_4 X_{i 4}+U_i \]

Auch das schauen wir uns genauer für \(b_2\) an und tauschen alles entsprechend aus, wenn wir das auch noch für \(b_3\) machen wollten:

\[\begin{align} & b_2=\frac{V_3 C_{2 Y}-C_{23} C_{3 Y}}{V_2 V_3-C_{23}^2}=\beta_2+\frac{V_3 C_{2 U^*}-C_{23} C_{3 U^*}}{V_2 V_3-C_{23}^2}, \end{align}\]

Wenn man jetzt \(U_i^*=\beta_4 X_{i 4}+U_i\) an den Stellen einsetzt, wo \(U^*\) stand, wird es wieder voll, vereinfacht sich aber auch gleich wieder:

\[\begin{align} C_{2 U^*} & =\frac{1}{n} \sum\left(X_{i 2}-\bar{X}_2\right)\left(U_i^*-\bar{U}^*\right)\\ &=\frac{1}{n} \sum\left(X_{i 2}-\bar{X}_2\right)\left(\beta_4 X_{i 4}+U_i-\beta_4 \bar{X}_4-\bar{U}\right) \\ & =\frac{1}{n} \beta_4 \sum\left(X_{i 2}-\bar{X}_2\right)\left(X_{i 4}-\bar{X}_4\right)+\frac{1}{n} \sum\left(X_{i 2}-\bar{X}_2\right)\left(U_i-\bar{U}\right) \\ & =\beta_4 C_{24}+C_{2 U} \end{align}\]

Nehmen wir jetzt wieder die Erwartungswerte von \(b_2\) und \(b_3\), mit der Grundannahme, dass die \(X\) fix sind und \(E\left(U_i\right)=0\), dann geht es gut weiter mit: \[\begin{align} & E\left(b_2\right)=\beta_2+\beta_4\left(\frac{V_3 C_{24}-C_{23} C_{34}}{V_2 V_3-C_{23}^2}\right)+E\left[\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{V_2 V_3-C_{23}^2}\right]=\beta_2+\beta_4 b_{42} \end{align}\]

Und genau das bringt uns zu der Formel, die beschreibt, um wie viel wir das \(b_2\) verzerrt schätzen, wenn wir die wichtige Einflussgrösse \(X_4\) nicht mit im Modell haben (für \(b_3\) gilt wieder das Gleiche mit ein bisschen ausgetauschten Subscripten.):

\[ b_{42}=\frac{\left(r_{42}-r_{32} r_{43}\right)}{1-r_{32}^2} \sqrt{\frac{V_4}{V_2}} \]

3.6.0.2 Keine perfekte oder heftige Multikollinearität (V5.)

Wenn perfekte Multikollinearität vorliegt, dann kann eine Variable perfekt aus den übrigen Variablen vorhergesagt werden (technischer: eine UV ist eine Linearkombination der übrigen UVs). Ein lineares Modell gibt dann keine Antwort auf die ihm gestellte Frage, wenn zwei UVs identisch sind, also untrennbar verwoben. Das liegt daran, dass die Frage an das lineare Modell ist: «Wie starkt ist der Effekt jeder einzelnen UV, wenn die Effekte der übrigen UV herausgerechnet werden?». Wenn eine Variable eine Linearkombination der übrigen Variablen ist, dann bleibt von ihr exakt nichts übrig, wenn die Linearkombination der übrigen Variablen aus ihr herausgerechnet werden. Ist ihre Varianz dadurch 0, ist sie im Grunde eine Konstante, und wie in V1. diskutiert, kann mit Konstanten keine Kovarianz und damit auch kein lineares Modell gerechnet werden. Jedes Statistikprogramm würde also an dieser Stelle aussteigen und ihnen sagen, dass das Modell so nicht gerechnet werden kann, weil perfekte Multikollinearität vorliegt. Das muss also nicht extra getestet werden.

Perfekte Multikollinearität entsteht meistens, wenn eine Variable aus dem Rohdatensatz umkodiert wurde und die Originalvariable und die einfach umkodierte mit im Modell sind. Die schuldige Variable findet man recht schnell. Etwas weniger direkt ersichtlich ist so eine perfekte Multikollinearität durch Datenaufbereitung, wenn ein Index und alle Variablen, aus denen der Index berechnet wurden, mit in das Modell aufgenommen wurden. Wenn Sie also z.B. die Durchschnittsnote im Abi in das Modell packen und alle Noten der einzelnen Fächer auch, die zusammen exakt die Durchschnittsnote ergeben. Suchen Sie in solchen Fällen nach den Indizes. Wenn Sie in dem Beispiel die Durchschnittsnote rausnehmen oder ein paar Fächer, die ihnen für die Erklärung der AV nicht so wichtig erscheinen, dann wird das Problem der perfekten Multikollinearität schnell gelöst sein.

Etwas Multikollinearität ist allerdings nicht nur erlaubt, sondern der Grund dafür, dass wir multivariate Modelle rechnen. Wären die UVs untereinander alle unkorreliert, dann wären alle B’s dieselben, wenn nur bivariate Regressionen gerechnet werden würden. In der Formel (eq-Bs1) für \(b_2\) sieht man das auch sehr gut: Wenn \(r_{23} = 0\), also keine Multikollinearität beim Modell mit zwei UVs (\(X_2\) und \(X_3\)), dann kommt für \(b_2\) dasselbe raus, wie ohne \(X_3\) (in (eq-Bs1) wird $r_{23} = 0 gesetzt und in (eq-Bs3) sieht man, dass \(X_3\) oder \(r_3\) keine Rolle spielen).

\[\begin{align} b_2& = \frac{r_{Y2}-r_{23}r_{Y3}}{(1-r_{23}^2)}\frac{S_y}{S_2} \label{eq-Bs1}\\ b_2& = \frac{r_{Y2}-0\cdot r_{Y3}}{(1-0^2)}\frac{S_y}{S_2} \label{eq-Bs2}\\ b_2& = r_{Y2}\frac{S_y}{S_2} \label{eq-Bs3} \end{align}\]

Wenn es etwas Multikollinearität gibt, wird das Produkt aus \(r_{23}r_{Y3}\) aus dem bivariaten \(b_2\) subtrahiert (herausgerechnet). Zusätzlich wird mit einer Korrektur unter dem Bruchstrich von \(1-r^2_{23}\) angepasst. In Worten bedeutet das so viel wie: Wenn wir untersuchen wollen, ob der Storch (UV) die Kinder bringt (AV), aber wissen, dass das auch noch mit Urbanität (\(X_3\)) zusammenhängt, dann müssen wir berücksichtigen (herausrechnen) wie stark Urbanität (\(X_3\)) und Storchenpopulation (\(X_2\)) zusammenhängen (\(r_23\)), wenn bzw. in dem Masse, wie auch die Geburtenrate (Y) mit der Urbanität zusammenhängt (\(r_{Y2}\)). Das steht über dem Bruch der Formel (eq-Bs1). Da wir nicht mehr mit den vollen 100% der Varianz von \(X_2\) rechnen können, wird unter dem Bruchstrich der Formel (eq-Bs1) auch noch herausgerechnet, um wie viel \(X_2\) durch \(X_3\) beklaut wird (\(1-r^2_{23}\)). Über diesen Teil der Formel lohnt es sich, etwas länger nachzudenken.

Toleranz und VIF

Wenn Multikollinearität bedeutet, dass eine Variable durch eine andere stark bestimmt wird, haben wir für die Bestimmtheit einer Variablen durch andere ein Mass: Das Bestimmtheitsmass \(R^2\). In der Formel (eq-Bs1) steht unter dem Bruch ein \(r^2_{23}\), das man besser auch schreiben könnte als \(R^2_{2.3}\), einfach um deutlicher zu machen, dass es um eine multiple Korrelation geht und darum, dass die Regression auf \(X_2\) gemeint ist, von allen übrigen Variablen. Wenn es mehr als nur die \(X_3\) gibt, würden wir in der Formel für \(b_2\) schreiben \(R^2_{2.34567...}\) und bei \(b_3\) \(R^2_{3.24567...}\). Nun ist Multikollinearität nichts Gutes, sondern ein Problem. Darum steht in Formel (eq-Bs1) auch \(1-r^2_{23}\). Hier ist also angegeben, wie viel von den 100% Varianz von \(b_2\) übrig bleiben, wenn man herausgerechnet hat, wie stark die übrigen UVs die Variable \(X_2\) bestimmen (\(R^2_{2.34567...}\)). Man könnte auch sagen, dass damit für die Multikollinearität angegeben ist, wie stark ihre Toleranz gegenüber den übrigen Variablen ist. Wenn also zum Beispiel die übrigen Variablen 40% der Variable \(X_2\) erklären, dann wäre die Toleranz \(1-0.4\), also 60%. Diesen Toleranzwert (TOL) sollte man sich bei jeder Regression mit rausgeben lassen, um zu prüfen, wie stark die einzelnen Variablen von Multikollinearität betroffen sind. In Publikationen sieht man diese Werte oft nicht, weil sie von den Forschenden geprüft und für nicht problematisch befunden wurden (wenn diese Forschenden gründlich arbeiten).

Multikollinearität hat vor allem auch eine Bedeutung für die Fehlervarianz der B’s, also wie unsicher oder wackelig die b’s sind. Darum steckt in der Formel für die \(s_{b_2}^2\) auch das \(1-R_{23}^2\) unter dem Bruchstrich des Faktors drin, der hinten steht. Dieser hintere Faktor ist demnach der Faktor, um den die Fehlervarianz der B’s steigt, wenn die Toleranz (\(1-R_{2.3}^2\)) klein ist, weil die jeweilige UV stark durch die übrigen Variablen bestimmt wird (\(R_{2.3}^2\)). Mit diesem Faktor wird auch gearbeitet, indem in Regressionsanalysen in Outputs häufig der Varianz-Inflations-Faktor (VIF) mit angezeigt wird. Wenn also zum Beispiel die Varianz der Variablen \(X_2\) zu 90% durch die übrigen Variablen im Modell aufgeklärt wird, dann ist die Wert TOL nur noch \(1-.9 = .1\). Der Variablen \(X_2\) würden also nur noch 10% seiner Ursprungsvarianz bleiben, um die AV erklären zu können. Das ist nicht viel, worauf eine stabile Regressionsgerade angepasst werden könnte. Darum wackelt das \(b_2\) viel mehr, als wenn die anderen Variablen nicht berücksichtigt worden wären. Die Unsicherheit wurde um den Faktor \(\frac{1}{1-R^2_{2.34567...}}\) inflationiert, also um das Zehnfache! Da muss man sich dann schon fragen, was da eigentlich übrig bleibt.

\[\begin{align} s_{b_2}^2&=\frac{s^2}{n}\cdot\frac{1}{V_2}\cdot\frac{1}{1-R_{2.3}^2} \label{eq-sb1}\\ s_{b_3}^2&=\frac{s^2}{n}\cdot\frac{1}{V_3}\cdot\frac{1}{1-R_{3.2}^2} \label{eq-sb2} \end{align}\]

3.7 Homoskedastizität (V6.)

Gehen wir davon aus, dass \(b_2\) unverzerrt ist, entspricht ist die Fehlervarianz durch die Streuung der \(b_2\) um den wahren Wert \(\beta_2\) definiert:

\[\begin{align} b_2-\beta_2&=\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{D} \\ \operatorname{var}\left(b_2\right)&=E\left[b_2-E\left(b_2\right)\right]^2\\ {}&=E\left(b_2-\beta_2\right)^2\\ {}&=E\left(\frac{V_3 C_{2 U}-C_{23} C_{3 U}}{D}\right)^2 \\ {}&=\frac{1}{D^2} E\left(V_3^2 C_{2 U}^2-2 V_3 C_{23} C_{2 U} C_{3 U}+C_{23}^2 C_{3 U}^2\right) \\ {}&=\frac{1}{D^2}\left[V_3^2 E\left(C_{2 U}^2\right)-2 V_3 C_{23} E\left(C_{2 U} C_{3 U}\right)+C_{23}^2 E\left(C_{3 U}^2\right)\right] \end{align}\] {#eq-3.5}

Um das Problem in Teile zu zerlegen, die uns Auskunft über die Streuung der b’s geben, ziehen wir nacheinander die Teile der Formel heraus, die mit Erwartungen \(E()\) versehen sind, also \(E(C_{2U}^2)\) (für \(E(C_{3U}^2)\) spiegelbildlich) und \(E(C_{2U} C_{3U})\). Es geht also wieder darum, wie die Covarianz der UVs mit dem unbekannten Rest aussieht und wie es um das Produkt dieser Covarianzen bestellt ist.

Auflösen von \(E(C_{2U}^2)\)

Für die Covarianz setzen wir erstmal die bekannte Formel ein. Da der Erwartungswert ja gedanklich die Wiederholung von Stichproben ist, ergeben sich lauter Covaranzen mit jeweils unterschiedlichen \(U_i-\bar{U}\) in einer laaaangen Summe.

\[\begin{align} E\left(C_{2 U}^2\right) &=E\left\{\frac{1}{n^2}\left[\sum\left(X_{i 2}-\bar{X}_2\right)\left(U_i-\bar{U}\right)\right]^2\right\} \\ &=\frac{1}{n^2} E {\left[\left(X_{12}-\bar{X}_2\right)\left(U_1-\bar{U}\right)+\left(X_{22}-\bar{X}_2\right)\left(U_2-\bar{U}\right)\right.} \\ &\left.+\cdots+\left(X_{n 2}-\bar{X}_2\right)\left(U_T-\bar{U}\right)\right]^2 \end{align}\]

Um die ganze lange Summe herum steht ein Quadrat. Das lösen wir jetzt auf, indem wir es in die Klammer reinziehen und nach binomischer Formel umstellen:

\[\begin{align} &=\frac{1}{n^2} E\left[\sum_{i=1}^n\left(X_{i 2}-\bar{X}_2\right)^2\left(U_i-\bar{U}\right)^2\right. \\ &\left.+2 \sum_{i=1}^{n-1} \sum_{s=i+1}^n\left(X_{i 2}-\bar{X}_2\right)\left(X_{s 2}-\bar{X}_2\right)\left(U_i-\bar{U}\right)\left(U_s-\bar{U}\right)\right] \end{align}\]

Das Ziel der Übung ist, dass wir die Erwartungswerte definieren als Erwartungswert der Streuung von \(X_2\) und einem Teil, wo der Erwartungswert nur für U’s drinsteht. Dann können wir nämlich etwas über Bedingungen für die U’s sagen. Also:

\[\begin{align} &=\frac{1}{n^2}[\sum_{i=1}^n(X_{i 2}-\bar{X}_2)^2 E(U_i-\bar{U})^2 \\ .+2 \sum_{i=1}^n \sum_{s=t+1}^n(X_{i 2}-\bar{X}_2)(X_{s 2}-\bar{X}_2) E(U_i-\bar{U})(U_s-\bar{U})] \end{align}\]

Aus der Bedingung der fixierten X können wir für \(E(U_i-\bar{U})(U_s-\bar{U})\) das \(\sigma_{is}\) einsetzen. Damit verschwinden also die U’s aus der Gleichung, was ja unser Ziel war:

Das gilt also, wenn \(\sigma_i^2=E\left(U_i-\bar{U}\right)^2\) und \(\sigma_{i s}=E\left(U_i-\bar{U}\right)\left(U_s-\bar{U}\right)\). Wenn wir diese Umstellung für \(E\left(C_{2 U} C_{3 U}\right)\) und \(E\left(C_{3 U}^2\right)\) ebenfalls durchführen kommen wir zu: \[\begin{align} E\left(C_{3 U}^2\right)&=\frac{1}{n^2}\left[\sum\left(X_{i 3}-\bar{X}_3\right)^2 \sigma_i^2+2 \sum \sum\left(X_{i 3}-\bar{X}_3\right)\left(X_{s 3}-\bar{X}_3\right) \sigma_{i s}\right], \\ E\left(C_{2 U} C_{3 U}\right)&=\frac{1}{n^2}\left[\sum\left(X_{i 2}-\bar{X}_2\right)\left(X_{i 3}-\bar{X}_3\right) \sigma_i^2\right. \\ &\left.+2 \sum \sum\left(X_{i 2}-\bar{X}_2\right)\left(X_{s 3}-\bar{X}_3\right) \sigma_{i s}\right] \text {. } \\ & \end{align}\]

OK, das sind schon sehr komplizierte Formeln. Mit weiteren Annahmen über die Fehlerverteilung können wir das aber weiter vereinfachen. Damit erhalten wir Auskünfte über weitere Eigenschaften der OLS-Schätzer im Vergleich zu anderen Schätzern. Wenn die Fehlerterme homoskedastisch sind, also überall gleich (und überall denselben Mittelwert haben), dann ergibt sich folgende Vorraussetzung, die wir «Homoskedastizität» nennen:

\[ E\left(U_i-\bar{U}\right)^2=\sigma_i^2=\sigma^2 \quad \text { für alle } i. \]

Heisst also, dass die Streuung der b’s für alle Fälle gleich sein soll und nicht in Abhängigkeit der \(X_i\) mal schmaler und mal breiter um den wahren Wert \(\beta\) streuen.

Wenn nun alle Fälle unabhängig voneinander, also in einer ordentlichen Zufallsstichprobe gezogen wurden, dann sind sie unabhängig voneinander und korrelieren nicht miteinander. Das bedeutet, die Covarianz im unbekannten Rest ist 0, für unterschiedliche Fälle: \[ E\left(U_i-\bar{U}\right)\left(U_s-\bar{U}\right)=\sigma_{i s}=0 \quad \text { für } \quad i \neq s . \]

Wenn wir diese beiden Annahmen haben, dass die Fehler überall gleich sind (Homoskedastizität) und die Fehler unkorreliert sind, dann vereinfachen sich die Terme der Erwartungswerte von oben zu:

\[\begin{align} & E\left(C_{2 U}^2\right)=\frac{1}{n^2} \sum\left(X_i-X_2\right)^2 \sigma^2=\frac{\sigma^2 V_2}{n}, \\ & E\left(C_{3 U}^2\right)=\frac{\sigma^2 V_3}{n}, \end{align}\]

Wenn wir die jetzt wieder in die ?eq-3.5 einsetzen, dann wird es wieder komplizierter, aber bei Weitem nicht so kompliziert wie oben: \[\begin{align} \operatorname{var}\left(b_2\right) & =\frac{\sigma^2}{n D^2}\left[V_3^2 V_2-2 V_3 C_{23}^2+C_{23}^2 V_3\right]=\frac{\sigma^2 V_3}{n D^2}\left[V_3 V_2-C_{23}^2\right] \\ & =\frac{\sigma^2 V_3}{n D}=\frac{1}{n} \sigma^2\left[\frac{V_3}{V_2 V_3-C_{23}^2}\right]=\frac{\sigma^2}{n}\left[\frac{1 / V_2}{1-r_{23}^2}\right] . \end{align}\]

Für \(b_3\) wieder nach demselben Prinzip: \[ \operatorname{var}\left(b_3\right)=\frac{1}{n} \sigma^2\left[\frac{V_2}{V_2 V_3-C_{23}^2}\right]=\frac{\sigma^2}{n}\left[\frac{1 / V_3}{1-r_{23}^2}\right] . \]

Nur zum Spass: Was Sie jetzt probieren könnten: Zeigen Sie, dass im bivariaten Fall (also nur \(X_2\) als UV) Folgendes gilt, indem Sie alles rauskürzen, was die Beziehung der UVs untereinander wiedergibt:

\(\operatorname{var}\left(b_2\right)=\sigma^2 / \Sigma\left(X_i-\bar{X}\right)^2=\sigma^2 / n \operatorname{var}(X).\)

Homoskedastizität bedeutet, dass die Streuung der Fehler um die Regressionsgerade überall ungefähr gleich (homo) gross sein sollte. Heteroskedastizität bedeutet, dass die Fehlerstreuung um unsere Regressionsgerade mit der grösse unserer UVs unterschiedlich ist, also z.B. grösser wird, weil Kodierer:innen wenn sie sehr lange nacheinander (weil vielleicht in letzter Minute) kodieren, mit der Zeit immer mehr Fehler machen. Oder weil Kodierer:innen regelmässig ein bisschen kodieren und dabei immer besser werden und immer weniger Fehlerstreuung entsteht. Wenn diese Streuung um die Regressionsgerade mit einer Variablen korreliert wie in Abb. @ref(fig:Heteroskedastizitaet), dann sind die Standardfehler der b’s nicht gut und gültig geschätzt. Mithin sind die t-Werte nicht korrekt, damit die p-Werte und Konfidenzintervalle falsch und schliesslich unsere Entscheidung über die Gültigkeit oder auch die Entscheidbarkeit der Hypothese (H0 oder H1) falsch.

Heteroskedastizität

Neben diesem breiter oder schmaler werden der Streuung um die Regressionsgerade entsteht Heteroskedastizität oftmals, wenn wir eine Gerade in einen kurvlinearen Zusammenhang einpassen. In der Abb. @ref(fig:Hetero-Nicht-Linearitaet) ist gut zu erkennen, dass in (a) die Verteilung der standardisierten Fehler recht gleichmässig ist. In (b) geht eben die Schultüte (bzw. Tüte Marroni) auseinander und stellt damit Heteroskedastizität dar. In (c) kommt die Heteroskedastizität durch eine erzwungene Gerade bei gegebener kurvlinearer Beziehung zwischen den Variablen (das sieht in (b) recht kubisch aus). In (d) wäre es beides zusammen, also ein (vermutlich quadratischer) Zusammenhang, bei dem mit steigendem X auch noch die Streuung steigt.

Nicht-Linearität der Beziehungen

Lösen kann man die Probleme mit der Heteroskedastizität, indem man GLS rechnet, also (Generalized Least Squares) und dabei zunächst das korrekte b bestimmst, dann die Streuung berechnet und im 2-Stage-Least-Squares mit den gewichteten Residuen rechnen würde. Das zu vermitteln geht über diesen Kurs hinaus. Einfacher ist es mit den kurvilinearen Beziehungen. Die können wir linearisieren. Wir schauen uns also die Verteilung der Residuen an und wenn wir da so eine kurvlineare Beziehung sehen, dann modellieren wir die so, dass sie linear geschätzt werden kann. Das ist gut in Abb. @ref(fig:Kurvlineare) abgebildet. Dabei ist nicht entscheidend, dass Sie jetzt schon den Aufbau der Formel verstehen, sondern, dass es komplexere Formeln gibt als die einfache additiv lineare, und durch diese Formeln doch wieder das lineare Modell angewendet werden kann, weil die Formeln für eine «Linearisierung» (Transformation) sorgen.

Linearisierung kurvlinearer Beziehungen

The proof that \(b_2\) is best is only sketched here. A complete proof is shown in Appendix 5.1. The proposition to be demonstrated is that, among all linear and unbiased estimators of \(\beta_2\) and \(\beta_3\), the least squares estimators \(b_2\) and \(b_3\) have the minimum variance when assumptions A.1-A.4 hold. We first define an arbitrary linear estimator \(b_2^{\#}\). Linear refers to the fact that the estimator is a linear function of the \(Y_i, b_2^{\#}=\Sigma C_{i 2}^{\#}\left(Y_i-\bar{Y}\right)\), where \(C_{i 2}^{\#}\) is any set of weights. (The weights are \[ C_{i 2}=\frac{1}{n} \frac{V_3\left(X_{i 2}-\bar{X}_2\right)-C_{23}\left(X_{i 3}-\bar{X}_3\right)}{D} \]

for the least squares estimator of \(\beta_2\).) With complete generality, we can write \(C_{i 2}^{\#}\) as the least squares weight plus an arbitrary number \(g_{i 2}, C_{i 2}^{\#}=C_{i 2}+g_{i 2}\). The restriction of unbiasedness implies that \(E\left[\Sigma C_{i 2}^{\#}\left(Y_i-\bar{Y}\right)\right]=\beta_2\). However, for OLS we showed that \(E\left[\Sigma C_{i 2}\left(Y_i-\bar{Y}\right)\right]=\beta_2\). This implies that \(E\left[\Sigma g_{i 2}\left(Y_i-\right.\right.\) \(\bar{Y})]=0\) since \(E\left[\Sigma C_{i 2}^{\#}\left(Y_i-\bar{Y}\right)\right]=E\left[\Sigma C_{i 2}\left(Y_i-\bar{Y}\right)+\Sigma g_{i 2}\left(Y_i-\bar{Y}\right)\right]\). Using this restriction and assumption A.4, the variance of \(b_2^{\#}\) is

\[ \operatorname{var}\left(b_2^{\#}\right)=\operatorname{var}\left(b_2\right)+\sigma^2 \sum_{i=1}^n g_{i 2}^2, \]

where \(\operatorname{var}\left(b_2\right)\) is the variance of the least squares estimator. Since \(g_{i 2}^2 \geqslant 0\), \(\operatorname{var}\left(b_2^{\#}\right)\) cannot be less than the variance of the least squares estimator \(b_2\). Further, it can equal \(\operatorname{var}\left(b_2\right)\) only if each perturbation \(\left(g_{i 2}\right)\) from the least squares weight is identically zero. (Similar developments can be done for \(b_1\) and \(b_3\).)

An important aspect of this development, however, is that we have accepted and used the assumptions about the error distribution and fixed \(X\) ’s. That is, this proof holds when \(E\left(U_i-\bar{U}\right)=0, E\left(U_i-\bar{U}\right)^2=\sigma^2\), and \(E\left(U_i-\right.\) \(\bar{U})\left(U_s-\bar{U}\right)=0\) for all \(i\) and \(s \neq i\).

3.8 Verteilung der Residuen (V7. und V8.)

Ein Modell und die zugrundeliegenden Beziehungen ist oft dann gut, wenn die Verteilung der nicht erklärten Varianzanteile sich wie eine einfache Zufallsverteilung verhält bzw. wie Schrott.

3.8.1 Normalverteilung der Fehler (V7.)

Die Residuen (also der nicht erklärte Rest bzw. Modellfehler oder einfach Fehler) bezieht sich immer auf die nicht erklärte Streuung in der AV. Wenn wir also unser Modell haben und mit unseren Daten berechnen, dann bekommen wir vorhergesagte Werte und den Rest. Wenn wir den Rest anschauen, dann sollte der nicht zu stark von einer Normalverteilung abweichen.

In der Abb. @ref(fig:Hetero1) sieht man recht gut, dass links eine relativ gleichmässige Verteilung vorliegt, also kein Zusammenhang zwischen Fehlern und geschätzten Werten zu erkennen ist (Wäre perfekt 0, wenn die rote Linie exakt auf der gestrichelten Null-linie liegen würde.). Im zweiten Fall namens «Case 2» sieht man deutlich, dass es hier eine kuvlineare Abweichung gibt. Hier würde es sich sicher lohnen, ein quadratisches Modell anzupassen.

Residuen gegenüber Modell

In der Grafik @ref(fig:Hetero2) sind Normal Q-Q-Plots abgebildet. Bei dieser visuellen Darstellung werden die standardisierten Residuen gegen die theoretischen Quantile abgetragen, wobei «theoretisch» hier die zu erwartende Verteilung nach Wahrscheinlichkeitstheorie also nach Normalverteilung. Wenn die Punkte alle auf der Gerade liegen, dann ist der Normalverteilung der Residuen nicht stark widersprochen. Wenn sie, wie im zweiten Fall (typisch Case 2!) abweichen, dann ist die Annahme der Normalverteilung verletzt. Dann würden wir nach einem R-Paket suchen, das mit diesem Problem umgehen kann.

Normal Q-Q

If \(U_i \sim N\left(0, \sigma^2\right)\), and independent of \(U_s\), then the \(b\) ’s, which are linear functions of \(U_i\), are normally distributed with a variance given in Eq. (3.5a), that is, \(b_2 \sim N\left(\beta_2, \sigma^2 / n V_2\left(1-r_{23}^2\right)\right)\). This implies that \[ Z_2=\left(b_2-\beta_2\right) / \sigma_{b_2} \quad \text { and } \quad Z_3=\left(b_3-\beta_3\right) / \sigma_{b_3} \]

are distributed according to the standard normal distribution \(N(0,1)\). (This distribution is discussed in Appendix I.) Since the Z’s are \(N(0,1)\), standard tables of cumulative normal distributions would yield the probability of \(Z\) being greater than any given value, or in turn would give the probability of the estimated value being more than any given distance from the true value of \(\beta\), i.e., \(b-\beta\). However, (3.16) depends upon \(\sigma\), which is unknown. \(s^2\) is an unbiased estimator of \(\sigma^2\) and is substituted for \(\sigma\) in our expression for \(\sigma_b\). However, any inferences employing \(s^2\) will not be as precise as they would be if we knew \(\sigma^2\) and did not have to rely upon the random variable \(s^2\). In order to allow for this additional imprecision, we do not use probabilities from the normal distribution. Instead, we shall rely upon the \(t\)-distribution. The definition of the \(t\)-distribution is as follows: if \(Z\) is a standard normal variable, i.e., \(Z\) is \(N(0,1)\), and if \(W^2\) is an independently distributed chisquared with \(n-3\) degrees of freedom, then \(Z / \sqrt{W^2 /(n-3)}\) is distributed according to the \(t\)-distribution with \(n-3\) degrees of freedom. We have demonstrated that \((b-\beta) / \sigma_b\) is \(N(0,1)\). It can further be shown that (Hoel, 1962, pp. 262-268) \[ W^2=\sum e_i^2 / \sigma^2 \quad \text { is } \quad \chi_{n-3}^2 . \]

For \(b_2\) we get \[\begin{align} t_{b_2} & =\frac{Z}{\sqrt{W^2 /(n-3)}}=\frac{\left(b_2-\beta_2\right) / \sigma_{b_2}}{\sqrt{\sum e_i^2 / \sigma^2(n-3)}} \\ & =\frac{\left(b_2-\beta_2\right)}{(\sigma / n)\left[1 / V_2\left(1-r_{23}^2\right)\right]} \frac{1}{\sqrt{\sum e_i^2} / \sigma \sqrt{n-3}}=\frac{b_2-\beta_2}{(s / n)\left(\left(1 / V_2\right) /\left(1-r_{23}^2\right)\right)} \\ & =\frac{b_2-\beta_2}{s_{b_2}}, \end{align}\] where \(s^2=\sum e_i^2 /(n-3)\). This variable \(t_{b_2}\) is distributed as Student’s \(t\) with \(n-3\) degrees of freedom.

\[ t_b=|b| / s_b>t_{\text {crit }(\alpha / 2, n-3)}, \]

\(t_{\text {crit }(\alpha / 2, n-3)}\) is the critical value for \(n-3\) degrees of freedon ificance level of \(\alpha\). The significance level \(\alpha\) is the size of a type I probability of rejecting the null hypothesis when it is in fact ole terms, the further \(b\) is from zero (i.e., the higher \(t_b\) ), the less lik \(\beta\) is really zero. The general form of the hypothesis test for \(H_0\) : \[ t_b=\left|b-\beta^*\right| / s_b . \]

\(>t_{\text {crit }(\alpha / 2, n-3)}\), the null hypothesis is rejected. In other words

3.8.2 Unabhängigkeit der Fehler (V8.)

Die Unabhängigkeit der Fehler ist eigentlich nur dann ein echtes Problem, wenn die Fehler in eine Reihenfolge gebracht werden können. Das wiederum passiert eher nur bei Zeitreihen, also wenn die Werte einer Erhebung zeitlich angeordnet sind. Dafür gibt es dann allerdings die recht komplexen Zeitreihenanalysen, die eher Statistik IV im Master darstellen. Wir können uns in der R-Übung mal den Durbin-Watson-Test anschauen (zum Spass die Formel (eq-DWT), wo man schon sieht, dass nicht der Index i für Fälle, sondern t durchläuft für time), der prüft, ob die Fehler autokorreliert sind, also hoch mit der um eine Zeiteinheit versetzten Version ihrer selbst korrelieren. Was Sie mitnehmen sollten ist, dass sie bei Erhebungen über die Zeit (Longitudinalstudien), noch prüfen müssen, ob bzw. inwieweit die Fehler miteinander korrelieren.

\[\begin{align} d =& \frac{\sum_{i=2}^n(e_i-e_{i-1})^2}{\sum_{i=1}^n e^2_i} \label{eq-DWT} \end{align}\]

LEF 3

Essayfragen 3

E3.1 Welches sind die Voraussetzungen für die Schätzung von Regressionen?

E3.2 Was bedeutet «Bias»?

E3.3 Was sagt Ihnen der Toleranzwert TOL?

E3.4 Was bedeutet Multikollinearität?

E3.5 Welche Kennwerte kennen Sie, mit denen Sie Multikollinearität abschätzen können?

E3.6 Wie reagieren a) p-Werte und b) Konfidenzintervalle auf Multikolliniearität?

E3.7 Warum kann man die volle Modellspezifikation nicht überprüfen?

E3.8 Was haben Theoriearbeit und Modellspezifikation miteinander zu tun?

E3.9 Was bedeutet es, dass die Variablen fix sein sollen?

MC-Fragen 3

MC 3.1.

MC 3.1: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.2.

MC 3.2: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.3.

MC 3.3: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.4.

MC 3.4: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.5.

MC 3.5: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.6.

MC 3.6: Sind folgende Aussagen richtig oder falsch?

Punkte:

Insgesamt von Punkten, was % und etwa einer entspricht.


  1. In einem offiziellen Anmeldeformular, das in Deutschland für Impfungen aufgeschaltet war, stand als dritte Option «Taucher», was der Autor für eine nicht sehr gelungene Übersetzung des Wortes «divers» hält.↩︎

  2. Noch besser ist es, wenn die Geschlechterfrage in Fragebögen halboffen gestaltet ist und die offenen Antworten in Dummys kodiert werden.↩︎

  3. Wenn nur kategoriale Variablen in der oder den UVs stecken, haben wir das, was mal Varianzanalyse genannt wurde.↩︎