Statistik und Datenanalyse: Aufbau

Regression – Voraussetzungen für BLUE

Benjamin Fretwurst
PDF-Version der Folien

Orga

Orga

Syllabus
Abmeldung vom Leistungsnachweis via Antrags-Cockpit möglich
Prüfungsrelevanz von R
Pakete laden in R für die Übung
Ihre Fragen? Kritiken? Hinweise?

Lernziele

Grundprinzipien der Regression

Die Regressionsgleichung
Das OLS-Prinzip
Die Voraussetzungen für BLUE
1. Fixe X und Y
2. keine perfekte Multikollinearität
3. keine hohe Multikollinearität
4. erschöpfende Modellspezifikation
5. Homoskedastizität
6. Linearität der Zusammenhänge

editor: render-on-save: true

1 Die bivariate Regressionsgleichung

\begin{align} \text{GG: } & Y_i = \beta_1 + \beta_2X_{i2} + U_i \\ \text{Stichprobe: } & Y_i = b_1 \, + b_2X_{i2} \, +e_i \\ \end{align}

Modell und Schätzung

Das Regressionsmodell für die Zusammenhänge in der GG wird durch die Berechnung der b’s in der Stichprobe geschätzt. Die «Variablen» (Y und X) sind fix. Es bleiben nur die b’s zu schätzen, von denen die Lage der Regressionsgerade abhängt und damit die Fehler (Errors) aka Residuen e_i. Subtrahiert man in der Formel oben b_1 + b_2X_{i 2}, erhält man:
e_i = Y_i - (b_1 - b_2X_{i2}), woraus sich b_1 und b_2 ableiten lassen:

\begin{align} b_1 & = \overline{Y} - b_2\overline{X}_2\\ b_2 & = r_{Y2}\frac{S_Y}{S_2}\\b \end{align}

1.1 Die Schätzer streuen je nach Stichprobe

Die b’s sind Stichprobeneigenschaften, wobei b_1 und b_2 an der Realisation der Stichprobe hängen, also «schwanken».

2 Regression multivariat mit 2 UV’s

Regressionsgleichung

\begin{align} Y_i&=\beta_1 + \beta_2X_{i2} + \beta_3X_{i3}+U_i\\ Y_i&=b_1 \, + b_2X_{i2} \, + b_3X_{i3} \, + e_i \end{align}

2.1 OLS

Grundidee OLS

Wir suchen die b’s. Die gesuchten b’s sollen eine Regressionsgerade ergeben, die «optimal» in der Punktwolke der gemessenen Werte liegt. Wir suchen also die b’s, die die kleinsten quadrierten Abweichungen zwischen den vom Modell vorhergesagten und den gemessenen Werten ergibt. Das «Prinzip der kleinsten Quadrate» wird als OLS bezeichnet (Ordenary Least Squares).

\begin{align} \sum_{i=1}^n{e_i^2} & \rightarrow minimal \\ \sum_{i=1}^n{(Y_i - \hat{Y_i})^2} & \rightarrow minimal \end{align}

2.2 Die Formel für b nach OLS

\begin{align} b_2&=(r_{Y2}-r_{23}r_{Y3})\frac{1}{1-R_{2.3}^2}\frac{S_y}{S_2} \end{align}

In Worten

Der Anstieg der «Regressionsgeraden» für X_2 ergibt sich aus der Korrelation r_{Y2} zwischen X_2 und Y, die um den vermittelten Zusammenhang über die Drittvariable, also das Produkt aus r_{23} und r_{Y3} reduziert wird. Der Rest sind Korrekturen damit, wie stark X_2 von den übrigen Variablen erklärt wird \frac{1}{1-R^2_{2.3}} und quasi die Umkehr der Standardisierung \frac{S_Y}{S_2}.

3 BLUE – Best Linear Unbiased Estimators

«Linear Estimator»

Die «Linear Estimator» sind die b’s, also b_1, b_2, … b_k.

«Unbiased»

«Unbiased» bedeutet, dass wir unverzerrte Schätzer, also unverzerrte b’s haben wollen. Die b’s scätzen ihre \betas unverzerrt, wenn die Streuung der b’s um die wahren \betas herum liegen (man sagt auch: «erwartungstreu»).

«Best» bezeichnet die Effizienz der Schätzer b

Die besten Schätzer erhalten wir, wenn die Standardfehler der b’s (se_b) minimal sind.

«Unbiased», also Unverzerrtheit der b’s

Die Variablen (X und Y) müssen fix sein

Wir müssen also davon ausgehen, dass die erhobenen Variablen bei einer nächsten Ziehung nicht ganz anders aussehen würden.

im U_i darf nur Rauschen sein

Es darf im Unbekannten U_i keine Variable stecken, die mit den UV’s korreliert. Der Erwartungswert dieser Covarianz muss 0 sein: E(C_{2U}) = 0 = E(C_{3U}).

Modellspezifikation

Wir sollten aus der Theorie und in der Operationalisierung keine Variable vergessen, die mit den UVs zusammenhängt! Theoriearbeit besteht in der Suche nach der vollen Modellspezifikation! Die perfekte Modellspezifikation wäre das Ende der Forschung zu einem fixen Phänomen.

Unterspezifikation

Die Grösse des Bias bei Unterspezifikation

Gibt es eine X_{i4} mit einem wahren \beta_4 und ist dieses mit X_2 sowie Y korreliert, dann ist b_2 ein verzerrter Schätzer für \beta_2.

Verzerrung von b_2 wenn eine Einflussgrösse X_4 nicht mitgeschätzt wird

\begin{align} \text{wahr:\ } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4}+U_i\\ \text{geschätzt:\ } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} +U^\star_i \text{\quad wobei \quad } U^\star_i = \beta_4X_{i4}+U_i\\ \rightarrow E(b_2) =& \beta_2 + \beta_4b_{42}\\ \text{mit:\ } b_{42}=&\frac{r_{42}-r_{32}r_{43}}{1-r^2_{32}}\sqrt{\frac{V_4}{V_2}} \end{align}

3.1 Multikollinearität

Definition

Multikollinearität bedeutet, dass die Varianz einer Variablen durch eine oder mehrere übrige UVs teilweise aufgeklärt wird.

herausgerechnete Erklärungskraft

Wird einer Variablen viel Erklärungsvarianz (R_{2.34...}) weggerechnet, dann hat sie kaum noch welche, um die AV zu erklären.

Wann ein Problem

Der Grund für Regressionsanalysen
Problem hoher Multikollinearität (TOL < .5)
Standardfehler ➪ Schätzqualität schlecht (VIF > 2)

Steigende Fehlerstreuung bei Multikollinearität

Fehlervarianz von b_2

s_{b_2}^2=\frac{s_e^2}{n}\cdot\frac{1}{V_2}\cdot\frac{1}{1-R_{2.34...}^2}

Die Fehlerstreuung des Regressionskoeffizienten b ist proportional zur Streuung der Fehler e_i und umgekehrt proportional zur Fallzahl n, der Varianz V_2 (also von X_2) und zu Multikollinearität bzw. Toleranz TOL = 1-R^2_{2.34...}.

Toleranz ist die exklusive Varianz einer UV

TOL_{b_2} = 1-R^2_{2.34...}

Toleranz ist der Prozentsatz Varianz, der nicht durch die übrigen UVs rausgerechnet wird.

Der Varianz-Inflation-Factor VIF

VIF_{b_2} = \frac{1}{(1-R^2_{2.34...})} = \frac{1}{TOL_{b_2}}

3.2 Linearität

3.3 Heteroskedastizität

Heteroskedastizitätsproblem und -lösung

Probleme

Die Residuen hängen mit X zusammen.
Standardfehler der b verzerrt
nichtlineare Zusammenhänge unerkannt

Lösungen

Gibt es
Generalized least Squares (GLS)
Kurvlineare Schätzungen

3.4 Annahmen zur Residualverteilung

Normalverteilung und Unabhängigkeit der Residuen

Schaut man sich visuell an. Wenn sie stark verletzt ist (z.B. bimodal) oder extrem schief, dann andere Methode.

Unabhängigkeit der Fehler

Die Fehler können nur voneinander abhängig sein, bei zeitlich geordneten Erhebungen, also Zeitreihenanalysen. Das braucht uns also erstmal nicht kümmern.

Multivariat normalvereilt

editor: render-on-save: true

Übung 1 a+b

Ü1.1 Erstellen Sie eine Quarto-Datei.qmd

Öffnen Sie R-Studio
In R-Studio ➪ File ➪ New File ➪ Quarto Document…
Klicken Sie unten links auf «Create Empty Document»
(Wählen Sie als title «Erste Regression»)
Fügen Sie einen r-Chunk hinzu mit diesem Schalter:
speichern Sie an einem günstigen Ort
(am besten in der Cloud + nicht auf Desktop)

Ü1.2 Installieren Sie ein paar Pakete

Kopieren Sie in Ihre Datei:

## die einfache Variante
install.packages("tidyverse")

## die Quelle mit angegeben und alle abhängigen Pakete mit installieren
install.packages(c("ggpubr", "corrr", "olsrr"),
   repos = "https://cloud.r-project.org/", 
   dependencies = TRUE)

## damit auch Developer-Versionen installiert werden können:
install.packages("devtools")

## Versuch über die Developer-Versionen
devtools::install_github("kassambara/ggpubr", force = TRUE)

# wird nur installiert, wenn es nicht schon in der aktuellsten Version da ist. Sonst auch forcen.
devtools::install_github("strengejacke/sjmisc")

devtools::install_github("strengejacke/sjlabelled")

devtools::install_github("joon-e/soscisurvey")

Ü1.3 Laden Sie die Daten

Laden Sie den Fragebogen hier runter und schauen ihn an.

Laden Sie die Daten und lassen Sie mal die Variablenlabel raus:

R-Code anzeigen

Daten_import <- soscisurvey::read_sosci("https://www.soscisurvey.de/StatAufbau/?act=qcN2DTzo30W0BXnj8Rr6CZuN")

DATEN <- Daten_import 

DATEN  |>
  sjlabelled::get_label()

                                                                                                               CASE 
                                                                                   "Interview-Nummer (fortlaufend)" 
                                                                                                           QUESTNNR 
                                                                     "Fragebogen, der im Interview verwendet wurde" 
                                                                                                               MODE 
                                                                                                  "Interview-Modus" 
                                                                                                            STARTED 
                                                      "Zeitpunkt zu dem das Interview begonnen hat (Europe/Berlin)" 
                                                                                                               A006 
                                                                                                          "Consent" 
                                                                                                               A101 
                                                                                                       "Eisbrecher" 
                                                                                                               A201 
                                                                                                          "Studium" 
                                                                                                               A202 
                                                                                                  "Sonstige Fächer" 
                                                                                                            E101_02 
                                                                               "Noten: Statistik \"Einführung\" KW" 
                                                                                                           E101_02a 
                                            "Noten: Statistik \"Einführung\" KW: hatte ich nicht/ weiss nicht mehr" 
                                                                                                           E101_05a 
                                     "Noten: Statistik einführend andere Fächer: hatte ich nicht/ weiss nicht mehr" 
                                                                                                           E101_06a 
                                "Noten: Statistik fortgeschritten andere Fächer: hatte ich nicht/ weiss nicht mehr" 
                                                                                                           E101_01a 
                                               "Noten: Mathematik in der Schule: hatte ich nicht/ weiss nicht mehr" 
                                                                                                            E101_03 
                                                                                  "Noten: Informatik in der Schule" 
                                                                                                           E101_03a 
                                               "Noten: Informatik in der Schule: hatte ich nicht/ weiss nicht mehr" 
                                                                                                            E101_04 
                                                                                         "Noten: Gesamtnote Matura" 
                                                                                                           E101_04a 
                                                      "Noten: Gesamtnote Matura: hatte ich nicht/ weiss nicht mehr" 
                                                                                                            E102_01 
                                               "Statistik_Einführung: Statistik Einführung ist mir leichtgefallen." 
                                                                                                            E102_02 
                                           "Statistik_Einführung: Statistik Einführung hat mir viel Spass gemacht." 
                                                                                                            E102_03 
                               "Statistik_Einführung: Für mich schaffen Formeln erst echte Klarheit und Präzision." 
                                                                                                            E102_04 
                                                     "Statistik_Einführung: Die Arbeit mit R fand ich schrecklich." 
                                                                                                            E102_05 
                                                     "Statistik_Einführung: Von Formeln bekomme ich Panikattacken." 
                                                                                                            E102_06 
                                  "Statistik_Einführung: Statistik braucht ich nach dem Studium sicher nie wieder!" 
                                                                                                            E201_01 
                                                         "Erwartungen STAT A: Ich habe Angst vor Statistik Aufbau!" 
                                                                                                            E201_02 
                                                          "Erwartungen STAT A: Ich freu mich auf Statistik Aufbau!" 
                                                                                                            E201_03 
                                                 "Erwartungen STAT A: Statistik Einführung ist mir leichtgefallen." 
                                                                                                            E201_04 
                                                  "Erwartungen STAT A: Statistik Einführung hat mir Spass gemacht." 
                                                                                                            E201_06 
                                                 "Erwartungen STAT A: Es hat mir Spass gemacht, mit R zu arbeiten." 
                                                                                                            E201_07 
                                                       "Erwartungen STAT A: Die Arbeit mit R fand ich schrecklich." 
                                                                                                            E201_08

“Erwartungen STAT A: Ich will in Statistik Aufbau nur die Prüfung bestehen. Über eine 4.0 wäre ich schon glücklich.” E201_09 “Erwartungen STAT A: Ich will in Statistik Aufbau mit einer 6.0 abschliessen und tue alles dafür.” E201_10 “Erwartungen STAT A: Ich möchte viel mehr über Statistik wissen.” E201_11 “Erwartungen STAT A: Ich freue mich schon darauf, nach dem Semester alles wieder über Statistik zu vergessen.” E201_12 “Erwartungen STAT A: Formeln schrecken mich total ab.” E201_13 “Erwartungen STAT A: Für mich schaffen Formeln erst echte Klarheit und Präzision.” E201_14 “Erwartungen STAT A: Ich will nach dem Studium Data-Scientist:in werden!” E202_15 “Erwartungen ML: Ich finde das Thema Machine Learning spannend.” E202_16 “Erwartungen ML: Gerne würde ich selbst Machine-Learning-Modelle bauen können.” E202_14 “Erwartungen ML: Ich will nach dem Studium im Bereich Data Science arbeiten.” E202_17 “Erwartungen ML: Ich fände es interessant, nach dem Studium als Assistentin wissenschaftlich an der Uni zu arbeiten.” E202_18 “Erwartungen ML: Ich suche mir sicher einen Job, bei dem ich nie wieder etwas mit Statistik zu tun habe.” E202_19 “Erwartungen ML: Das einzige was mich beim Learning interessiert ist meine Kaffee Machine.” F101_01 “Feminismus: Ich unterstütze die Ideen und Ziele des Feminismus.” F101_02 “Feminismus: Geschlechterungleichheit ist ein ernsthaftes gesellschaftliches Problem.” F101_03 “Feminismus: Ich glaube, dass Frauen und Männer in allen Bereichen des Lebens gleichberechtigt sein sollten.” F101_04 “Feminismus: Geschlechterstereotypen und Rollenerwartungen sind ein Hindernis für die Gleichstellung der Geschlechter.” F101_05 “Feminismus: Es ist wichtig, für Geschlechtergerechtigkeit und Frauenrechte aktiv einzutreten.” F101_06 “Feminismus: Ich würde mich selbst als Feminist/Feministin bezeichnen.” F101_07 “Feminismus: Es ist wichtig, dass auch mündlich richtig gegendert wird (Gendersprechpause).” PS01_01 “Persönlichkeitsstärke S: Gewöhnlich rechne ich bei dem, was ich mache, mit Erfolg.” PS01_02 “Persönlichkeitsstärke S: Ich bin selten unsicher, wie ich mich verhalten soll.” PS01_03 “Persönlichkeitsstärke S: Ich übernehme gern Verantwortung.” PS01_04 “Persönlichkeitsstärke S: Ich übernehme bei gemeinsamen Unternehmungen gern die Führung.” PS01_05 “Persönlichkeitsstärke S: Es macht mir Spass, andere Menschen von meiner Meinung zu überzeugen.” PS01_06 “Persönlichkeitsstärke S: Ich merke öfter, dass sich andere nach mir richten.” PS01_07 “Persönlichkeitsstärke S: Ich kann mich gut durchsetzen.” PS01_08 “Persönlichkeitsstärke S: Ich bin anderen oft einen Schritt voraus.” PS01_09 “Persönlichkeitsstärke S: Ich besitze vieles, worum mich andere beneiden.” PS01_10 “Persönlichkeitsstärke S: Ich gebe anderen Ratschläge/Empfehlungen.” PS01_11 “Persönlichkeitsstärke S: Ich stehe zu meiner persönlichen Meinung.” PS01_12 “Persönlichkeitsstärke S: Ich bin leicht zu verunsichern.” PS04_01 “Big 5: gründlich arbeitet.” PS04_02 “Big 5: kommunikativ, gesprächig ist.” PS04_03 “Big 5: manchmal etwas grob zu anderen ist.” PS04_04 “Big 5: originell ist, neue Ideen einbringt.” PS04_05 “Big 5: sich oft Sorgen macht.” PS04_06 “Big 5: zurückhaltend ist.” PS04_07 “Big 5: verzeihen kann.” PS04_08 “Big 5: eher faul ist.” PS04_09 “Big 5: aus sich herausgehen kann, gesellig ist.” PS04_10 “Big 5: künstlerische Erfahrungen schätzt.” PS04_11 “Big 5: leicht nervös wird.” PS04_12 “Big 5: Aufgaben wirksam und effizient erledigt.” PS04_13 “Big 5: rücksichtsvoll und freundlich mit anderen umgeht.” PS04_14 “Big 5: eine lebhafte Fantasie, Vorstellungen hat.” PS04_15 “Big 5: entspannt ist, mit Stress gut umgehen kann.” R101_01 “RAQ: Statistik bringt mich zum Weinen.” R101_02 “RAQ: Meine Freunde werden denken, ich sei dumm, weil ich nicht mit R umgehen kann.” R101_03 “RAQ: Standardabweichungen begeistern mich.” R101_04 “RAQ: Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift.” R101_05 “RAQ: Ich verstehe Statistik nicht.” R101_06 “RAQ: Ich habe wenig Erfahrung mit Computern.” R101_07 “RAQ: Alle Computer hassen mich.” R101_08 “RAQ: Ich war noch nie gut in Mathe.” R101_09 “RAQ: Meine Freunde sind besser in Statistik als ich.” R101_10 “RAQ: Computer sind nur zum Spielen nützlich.” R101_11 “RAQ: Ich war in der Schule schlecht in Mathematik.” R101_12 “RAQ: Leute versuchen dir zu sagen, dass R die Statistik leichter verständlich macht, aber das stimmt nicht.” R101_13 “RAQ: Ich mache mir Sorgen, dass ich wegen meiner Inkompetenz mit Computern irreparable Schäden verursachen werde.” R101_14 “RAQ: Computer haben ihren eigenen Willen und gehen absichtlich immer dann kaputt, wenn ich sie benutze.” R101_15 “RAQ: Computer sind darauf aus, mich zu überlisten.” R101_16 “RAQ: Ich weine offen, wenn von zentraler Tendenz die Rede ist.” R101_17 “RAQ: Ich falle in ein Koma, wenn ich eine Gleichung sehe.” R101_18 “RAQ: R stürzt immer ab, wenn ich versuche, es zu benutzen.” R101_19 “RAQ: Alle schauen mich an, wenn ich R benutze.” R101_20 “RAQ: Ich kann nicht schlafen, weil ich an Signifikanzen denke.” R101_21 “RAQ: Ich wache unter meiner Bettdecke auf und denke, dass ich unter einer Normalverteilung gefangen bin.” R101_22 “RAQ: Meine Freunde sind besser in R als ich.” R101_23 “RAQ: Wenn ich gut in Statistik bin, werden die Leute denken, ich sei ein Streber.” R101_24 “RAQ: Ich mag Statistik, würde das aber nie vor meinen Freunden zugeben.” SC02 “DQ Overall” SC03 “DQ Relunctance” SC04 “DQ Meaningless Responses” SC07_01 “Lügenitems: Ich sage immer, was ich denke.” SC07_02 “Lügenitems: Ich bin manchmal ärgerlich, wenn ich meinen Willen nicht bekomme.” SC07_03 “Lügenitems: Ich bin immer gewillt, einen Fehler, den ich mache, auch zuzugeben.” SC07_04 “Lügenitems: Ich habe gelegentlich mit Absicht etwas gesagt, was die Gefühle des anderen verletzen könnte.” SD04_01 “Alter (Geburtsjahr): Geburtsjahr” SD05 “Geschlecht (zum kombinieren)” SD07 “Land (D/A/CH)” SD19_01 “NullmessungsID: Erste zwei Buchstaben des Vornamens Ihrer Mutter …” SD19_02 “NullmessungsID: Erste zwei Buchstaben des Vornamens Ihres Vaters …” SD19_03 “NullmessungsID: Geburtstag im Monat (als Zahl also 1-12) …” T101 “OSs” TIME001 “Verweildauer Seite 1” TIME002 “Verweildauer Seite 2” TIME003 “Verweildauer Seite 3” TIME004 “Verweildauer Seite 4” TIME005 “Verweildauer Seite 5” TIME006 “Verweildauer Seite 6” TIME007 “Verweildauer Seite 7” TIME008 “Verweildauer Seite 8” TIME009 “Verweildauer Seite 9” TIME010 “Verweildauer Seite 10” TIME011 “Verweildauer Seite 11” TIME012 “Verweildauer Seite 12” TIME013 “Verweildauer Seite 13” TIME014 “Verweildauer Seite 14” TIME015 “Verweildauer Seite 15” TIME016 “Verweildauer Seite 16” TIME017 “Verweildauer Seite 17” TIME018 “Verweildauer Seite 18” TIME_SUM “Verweildauer gesamt (ohne Ausreißer)” LASTDATA “Zeitpunkt als der Datensatz das letzte mal geändert wurde” FINISHED “Wurde die Befragung abgeschlossen (letzte Seite erreicht)?” Q_VIEWER “Hat der Teilnehmer den Fragebogen nur angesehen, ohne die Pflichtfragen zu beantworten?” LASTPAGE “Seite, die der Teilnehmer zuletzt bearbeitet hat” MAXPAGE “Letzte Seite, die im Fragebogen bearbeitet wurde” A202_10 “Sonstige Fächer: anderes, und zwar” E101_05 “Noten: Statistik einführend andere Fächer” E101_01 “Noten: Mathematik in der Schule” SD18_01 “Anmerkungen (offen): [01]” SD07_04 “Land (D/A/CH): Anderes Land” A201_04 “Studium: andere, und zwar” E101_06 “Noten: Statistik fortgeschritten andere Fächer”

Ü1.4 Rechnen Sie ein Regressionsmodell

Modell_1 <- lm(E201_10 ~ E102_02, data = DATEN)

summary(Modell_1)

Call: lm(formula = E201_10 ~ E102_02, data = DATEN)

Residuals: Min 1Q Median 3Q Max -1.2726 -0.7684 -0.2641 0.7274 2.7274

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.28105 0.16912 7.575 2.60e-12 E102_02 0.49578 0.06668 7.435 5.73e-12 —

Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1

Residual standard error: 0.9151 on 162 degrees of freedom (3 observations deleted due to missingness) Multiple R-squared: 0.2544, Adjusted R-squared: 0.2498 F-statistic: 55.28 on 1 and 162 DF, p-value: 5.729e-12

Was sehen Sie?

Wie gross ist R^2?
Wie gross ist die bivariate Korrelation r? (selbst ausrechnen)
Ist der Zusammenhang positiv oder negativ?
Ist der Zusammenhang signifikant?

Ü1.5 Verändern Sie das Regressionsmodell

Kopieren Sie den r-Chunk der letzten Folie und setzen Sie andere Variablen ein: Nehmen Sie die Variablen für «Statistik Einführung hat mir Spass gemacht» und erklären Sie damit: «Ich freu mich auf Statistik Aufbau!».

Beantworten wieder die Fragen:

Wie gross ist R^2?
Wie gross ist die bivariate Korrelation r? (selbst ausrechnen)
Ist der Zusammenhang positiv oder negativ?
Ist der Zusammenhang signifikant?

Ü1.6 b_2 aus Korrelationen und SDs berechnen

Note

Lassen Sie die Korrelationen durchlaufen, schauen Sie sich an, wo was steht und setzen Sie es in die Formel für b_2 ?@eq-FormelFuerBs, um es zu berechnen.

R-Code anzeigen

DATEN |> 
  select(E201_10, E102_02, E102_04) |> 
  # sjlabelled::label_to_colnames() |> 
  apaTables::apa.cor.table()

Means, standard deviations, and correlations with confidence intervals

Variable M SD 1 2
1. E201_10 2.35 1.37

E102_02 2.19 1.42 .68**
[.59, .76]
E102_04 3.53 1.61 .25** .23**
[.10, .39] [.08, .37]

Note. M and SD are used to represent mean and standard deviation, respectively. Values in square brackets indicate the 95% confidence interval. The confidence interval is a plausible range of population correlations that could have caused the sample correlation (Cumming, 2014). * indicates p < .05. ** indicates p < .01.

Ü1.7 Berechnen Sie b_2 mit Hilfe einer Regressionsanalyse

Modell1 <- lm(E201_10 ~ E102_02 + E102_04, data = DATEN)

summary(Modell1, digits = digits, maxsum = maxsum)

Call: lm(formula = E201_10 ~ E102_02 + E102_04, data = DATEN)

Residuals: Min 1Q Median 3Q Max -1.3852 -0.7194 -0.2281 0.5642 2.7439

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.57016 0.32129 4.887 2.46e-06 E102_02 0.47210 0.07031 6.714 3.08e-10 E102_04 -0.06458 0.06102 -1.058 0.292

Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1
R 0.509 RMSE 0.915 R-Squared 0.260 Coef. Var 37.790 Adj. R-Squared 0.250 MSE 0.837 Pred R-Squared 0.235 MAE 0.736

RMSE: Root Mean Square Error MSE: Mean Square Error MAE: Mean Absolute Error

3.5 ANOVA

           Sum of                                               
          Squares         DF    Mean Square      F         Sig.

Regression 47.235 2 23.617 28.221 0.0000

Residual 134.735 161 0.837

Total 181.970 163

3.6 Parameter Estimates

3.7 model Beta Std. Error Std. Beta t Sig lower upper

(Intercept) 1.570 0.321 4.887 0.000 0.936 2.205 E102_02 0.472 0.070 0.480 6.714 0.000 0.333 0.611 E102_04 -0.065 0.061 -0.076 -1.058 0.292 -0.185 0.056 —————————————————————————————


olsrr::ols_vif_tol(Modell1)

Variables Tolerance VIF 1 E102_02 0.8987008 1.112717 2 E102_04 0.8987008 1.112717

Ü1.9 Schauen Sie sich die Residualplotts an

R-Code anzeigen

olsrr::ols_plot_resid_fit(Modell1)

Plot der Residuen

Ü1.10 Testen Sie auf Homoskedastizität

R-Code anzeigen

# Führe einen Breusch-Pagan-Test aus
olsrr::ols_test_breusch_pagan(Modell1)

Breusch Pagan Test for Heteroskedasticity
Ho: the variance is constant
Ha: the variance is not constant

Data
Response : E201_10
Variables: fitted values of E201_10

Test Summary
DF = 1
Chi2 = 2.305095
Prob > Chi2 = 0.1289504

Was sagt Ihnen das?

Ü1.11 Gucken Sie sich den N-Q-Q-Plot an

R-Code anzeigen

# Führe einen Normal-Q-Q-Plot aus
olsrr::ols_plot_resid_qq(Modell1)

Normal-Q-Q-Plot

Ü1.12 Und das Histogramm

R-Code anzeigen

# Mache mal ein Histogramm der Residuen. Die sollten annähernd normalverteilt sein. 
olsrr::ols_plot_resid_hist(Modell1)

Histogramm der Residuen

Ü1.13 Jetzt auf Normalverteilung testen

# Führe Tests auf signifikante Verletzungen 
# der Normalverteilungsannahme aus.

olsrr::ols_test_normality(Modell1)

Test Statistic pvalue
Shapiro-Wilk 0.9349 0.0000 Kolmogorov-Smirnov 0.127 0.0101 Cramer-von Mises 15.381 0.0000 Anderson-Darling 3.2969 0.0000

Ü1.14 Fazit

Was ist Ihr Fazit aus der Regressionsrechnung?

Weiterführung

Predictors	B	std.error	BETA	t	p
(Intercept)	1.57	0.32	---	4.89	0.00
E102_02	0.47	0.07	0.48	6.71	0.00
E102_04	-0.06	0.06	-0.08	-1.06	0.29
^a R² = 0.25 (F = 28, df = 161, p = 161), R²adj. = 0.25

LEF 3

Essayfragen 3

E3.1 Welches sind die Voraussetzungen für die Schätzung von Regressionen?

E3.2 Was bedeutet «Bias»?

E3.3 Was sagt Ihnen der Toleranzwert TOL?

E3.4 Was bedeutet Multikollinearität?

E3.5 Welche Kennwerte kennen Sie, mit denen Sie Multikollinearität abschätzen können?

E3.6 Wie reagieren a) p-Werte und b) Konfidenzintervalle auf Multikolliniearität?

E3.7 Warum kann man die volle Modellspezifikation nicht überprüfen?

E3.8 Was haben Theoriearbeit und Modellspezifikation miteinander zu tun?

E3.9 Was bedeutet es, dass die Variablen fix sein sollen?

MC-Fragen 3

MC 3.1.

MC 3.1: Sind folgende Aussagen richtig oder falsch?

MC_3_1 = [
    ["Mit OLS werden die Voraussetzungen für Regressionen geprüft.", "falsch"],
    ["Die Regressionskoeffizienten werden verzerrt geschätzt, wenn die Variablen nicht fix sind. ", "richtig"],
    ["Bivariate Regressionen sind in der Regel unterspezifiziert.", "richtig"],
    ["Die Suche nach der vollständigen Modellspezifikation macht wissenschaftlichen Fortschritt aus.", "richtig"]
]

viewof answers_3_1 = quizInput({
  questions: MC_3_1,
  options: ["richtig", "falsch"]
})

Punkte_3_1 = {
const Sum = 
    (answers_3_1[0] == MC_3_1[0][1])*1 + 
    (answers_3_1[1] == MC_3_1[1][1])*1 + 
    (answers_3_1[2] == MC_3_1[2][1])*1 + 
    (answers_3_1[3] == MC_3_1[3][1])*1 

var Punkte_3_1 = Sum - 2
if (Punkte_3_1 < 1) {Punkte_3_1 = 0}
return(Punkte_3_1)
}

Punkte:

MC 3.2.

MC 3.2: Sind folgende Aussagen richtig oder falsch?

MC_3_2 = [
    ["BLUE ist das Akronym für Beta Linear Unknown Error.", "falsch"],
    ["Ist die Multikollinearität stark (TOL < .5) ist der Standardfehler des b inflationiert, der p-Wert grösser und das KI grösser. ", "richtig"],
    ["Wenn die Multikollinearität perfekt ist, ist das Modell-R² = 1.", "falsch"],
    ["Multikollinearität betrifft oft nur zwei Variablen gegenseitig.", "richtig"]
]

viewof answers_3_2 = quizInput({
  questions: MC_3_2,
  options: ["richtig", "falsch"]
})

Punkte_3_2 = {
const Sum = 
    (answers_3_2[0] == MC_3_2[0][1])*1 + 
    (answers_3_2[1] == MC_3_2[1][1])*1 + 
    (answers_3_2[2] == MC_3_2[2][1])*1 + 
    (answers_3_2[3] == MC_3_2[3][1])*1 

var Punkte_3_2 = Sum - 2
if (Punkte_3_2 < 1) {Punkte_3_2 = 0}
return(Punkte_3_2)
}

Punkte:

MC 3.3.

MC 3.3: Sind folgende Aussagen richtig oder falsch?

MC_3_3 = [
    ["Homoskedastitzität beschreibt die Anforderung, dass die Residuen normalverteilt sind.", "falsch"],
    ["Heteroskedastizität lässt die Standardfehler der b's verzerrt schätzen.", "richtig"],
    ["Homoskedastizität ist oft eine Folge nichtlinearer Zusammenhänge. ", "falsch"],
    ["Nichtlineare Zusammenhänge können nicht mit linearen Modellen analysiert werden.", "falsch"]
]

viewof answers_3_3 = quizInput({
  questions: MC_3_3,
  options: ["richtig", "falsch"]
})

Punkte_3_3 = {
const Sum = 
    (answers_3_3[0] == MC_3_3[0][1])*1 + 
    (answers_3_3[1] == MC_3_3[1][1])*1 + 
    (answers_3_3[2] == MC_3_3[2][1])*1 + 
    (answers_3_3[3] == MC_3_3[3][1])*1 

var Punkte_3_3 = Sum - 2
if (Punkte_3_3 < 1) {Punkte_3_3 = 0}
return(Punkte_3_3)
}

Punkte:

MC 3.4.

MC 3.4: Sind folgende Aussagen richtig oder falsch?

MC_3_4 = [
    ["Jede UV muss normalverteilt sein, damit Regressionen gerechnet werden dürfen.", "falsch"],
    ["Die abhängige Variable muss metrisch sein, um eine  einfache Regression rechnen zu dürfen.", "richtig"],
    ["Wenn die Residuen normalverteilt sind, dürfen keine Regressionen gerechnet werden. ", "falsch"],
    ["Bei Querschnitterhebungen spielt die Anforderung untereinander unabhängiger Fehler keine Rolle.", "richtig"]
]

viewof answers_3_4 = quizInput({
  questions: MC_3_4,
  options: ["richtig", "falsch"]
})

Punkte_3_4 = {
const Sum = 
    (answers_3_4[0] == MC_3_4[0][1])*1 + 
    (answers_3_4[1] == MC_3_4[1][1])*1 + 
    (answers_3_4[2] == MC_3_4[2][1])*1 + 
    (answers_3_4[3] == MC_3_4[3][1])*1 

var Punkte_3_4 = Sum - 2
if (Punkte_3_4 < 1) {Punkte_3_4 = 0}
return(Punkte_3_4)
}

Punkte:

MC 3.5.

MC 3.5: Sind folgende Aussagen richtig oder falsch?

MC_3_5 = [
    ["Die Normalverteilung der Residuen schaut man sich in Statistikpaketen visuel an.", "richtig"],
    ["Wenn ein b nicht signifikant ist, dann gibt es keine Beziehung zwischen zwei Variablen.", "falsch"],
    ["Die Linearität der Beziehungen ist eine Eigenschaft jeder UV auf die AV.", "richtig"],
    ["Der VIF gibt an, um welchen Faktor die Fehlervarianz bei Multikollinearität grösser ist, als ohne Multikollinearität.", "richtig"]
]

viewof answers_3_5 = quizInput({
  questions: MC_3_5,
  options: ["richtig", "falsch"]
})

Punkte_3_5 = {
const Sum = 
    (answers_3_5[0] == MC_3_5[0][1])*1 + 
    (answers_3_5[1] == MC_3_5[1][1])*1 + 
    (answers_3_5[2] == MC_3_5[2][1])*1 + 
    (answers_3_5[3] == MC_3_5[3][1])*1 

var Punkte_3_5 = Sum - 2
if (Punkte_3_5 < 1) {Punkte_3_5 = 0}
return(Punkte_3_5)
}

Punkte:

MC 3.6.

MC 3.6: Sind folgende Aussagen richtig oder falsch?

MC_3_6 = [
    ["Wenn eine UV wenig Varianz hat, ist der Standardfehler seines Regressionskoeffizienten gross.", "richtig"],
    ["Je grösser die Multikollinearität zwischen einer UV und den übrigen Variablen im Modell, desto grösser der Standardfehler seines Regressionskoeffizienten.", "richtig"],
    ["Der VIF ist umgekehrt proportinal zum TOL.", "richtig"],
    ["Wenn man die Fallzahl der Stichprobe verdoppelt, halbieren sich die Standardfehler der b's.", "falsch"]
]

viewof answers_3_6 = quizInput({
  questions: MC_3_6,
  options: ["richtig", "falsch"]
})

Punkte_3_6 = {
const Sum = 
    (answers_3_6[0] == MC_3_6[0][1])*1 + 
    (answers_3_6[1] == MC_3_6[1][1])*1 + 
    (answers_3_6[2] == MC_3_6[2][1])*1 + 
    (answers_3_6[3] == MC_3_6[3][1])*1 

var Punkte_3_6 = Sum - 2
if (Punkte_3_6 < 1) {Punkte_3_6 = 0}
return(Punkte_3_6)
}

Punkte:

Punkte_3_max = 12

Punkte_3_Gesamt = Punkte_3_1 + Punkte_3_2 + Punkte_3_3 + Punkte_3_4 + Punkte_3_5 + Punkte_3_6

Prozent_3_Gesamt = round(100*Punkte_3_Gesamt/Punkte_3_max, 0)

Note_3_grob = round((round(Punkte_3_Gesamt/Punkte_3_max,1)*10+2)/2, 1)

Insgesamt von Punkten, was % und etwa einer entspricht.

round = (n, places) => {
  if (!places) return Math.round(n);
  const d = 10 ** places;
  return Math.round(n * d) / d;
}

function quizInput({ questions, options}) {
  let answers = questions.map(() => null);
  let root = htl.html`<div
      style="
        display: grid;
        grid-template-columns: 10% 10% 70% 10%;"
    >
      ${options.map(
        (opt) => htl.html`<div style="font-weight: bold; font-size: HUGE">${opt}</div>`
      )}
      <div style="font-weight: bold">Aussagen</div>
      <div style="font-weight: bold"></div>
      ${Array.from(questions.entries(), ([i, [question, correct]]) =>
        quizInputRow({
          question,
          options,
          correct,
          onChange: (newAnswer) => {
            answers[i] = newAnswer;
            root.value = answers;
            root.dispatchEvent(new CustomEvent("input"));
          }
        })
      )}
    </div>`;
  root.value = answers;
  return root;
}

function quizInputRow({
  question,
  options,
  correct,
  onChange = () => {}
}) {
  let root = htl.html`<div>`;

  function setAnswer(answer, initial = false) {
    morph(
      root,
      htl.html`<div style="display: contents"> 
      <form style="display: contents">
        ${options.map(
          (opt) =>
            htl.html`<label>&emsp;</label> 
            <input  
              name=${question} &emsp;
              type="radio"
              value="${opt}"
              checked=${opt === answer}
              onChange=${() => setAnswer(opt)}
            >
            </input>`
        )}
      </form>
      <div>${question}</div>
      <div> &emsp; ${
       answer === null ? "" : answer === correct ? "💚" : "❌"
      }</div>
    </div>`
    );

    root.value = answer;
    if (!initial) {
      root.dispatchEvent(new CustomEvent("input"));
      onChange(answer);
    }
  }

  setAnswer(null, true);
  return root;
}

morph = require("https://bundle.run/nanomorph@5.4.2")

Take Home – Ausblick – Vokabeln

Take Home

Note

Sie kennen die Voraussetzungen für BLUE
Schätzer sind unverzerrt, wenn die Modelle voll spezifiziert sind
Schätzt man nicht lineare Zusammenhänge linear, macht man falsche Schlüsse
Hängt die Streuung der Fehler mit den UVs zusammen, schätzt man die Standardfehler falsch (damit t-Wert, p-Wert, KI)
Bei perfekter Multikollinearität können exklusive Effekte nicht geschätzt werden
Sind die Fehler nicht unabhängig, verschätzt man sich in den Standardfehlern
Etwas Multikollinearität ist der Grund für multivariate Analysen

Ausblick

Übung 1 (a und b)

Vokabeln 🔗

:::