Statistik und Datenanalyse: Aufbau

Regression – Voraussetzungen für BLUE

Benjamin Fretwurst
PDF-Version der Folien

Orga

Orga

  • Syllabus
  • Abmeldung vom Leistungsnachweis via Antrags-Cockpit möglich
  • Prüfungsrelevanz von R
  • Pakete laden in R für die Übung
  • Ihre Fragen? Kritiken? Hinweise?

Lernziele

Grundprinzipien der Regression

  • Die Regressionsgleichung
  • Das OLS-Prinzip
  • Die Voraussetzungen für BLUE
    1. Fixe X und Y
    2. keine perfekte Multikollinearität
    3. keine hohe Multikollinearität
    4. erschöpfende Modellspezifikation
    5. Homoskedastizität
    6. Linearität der Zusammenhänge

editor: render-on-save: true

1 Die bivariate Regressionsgleichung

\begin{align} \text{GG: } & Y_i = \beta_1 + \beta_2X_{i2} + U_i \\ \text{Stichprobe: } & Y_i = b_1 \, + b_2X_{i2} \, +e_i \\ \end{align}

Modell und Schätzung

Das Regressionsmodell für die Zusammenhänge in der GG wird durch die Berechnung der b’s in der Stichprobe geschätzt. Die «Variablen» (Y und X) sind fix. Es bleiben nur die b’s zu schätzen, von denen die Lage der Regressionsgerade abhängt und damit die Fehler (Errors) aka Residuen e_i. Subtrahiert man in der Formel oben b_1 + b_2X_{i 2}, erhält man:
e_i = Y_i - (b_1 - b_2X_{i2}), woraus sich b_1 und b_2 ableiten lassen:

\begin{align} b_1 & = \overline{Y} - b_2\overline{X}_2\\ b_2 & = r_{Y2}\frac{S_Y}{S_2}\\b \end{align}

1.1 Die Schätzer streuen je nach Stichprobe

Die b’s sind Stichprobeneigenschaften, wobei b_1 und b_2 an der Realisation der Stichprobe hängen, also «schwanken».

2 Regression multivariat mit 2 UV’s

Regressionsgleichung

\begin{align} Y_i&=\beta_1 + \beta_2X_{i2} + \beta_3X_{i3}+U_i\\ Y_i&=b_1 \, + b_2X_{i2} \, + b_3X_{i3} \, + e_i \end{align}

2.1 OLS

Grundidee OLS

Wir suchen die b’s. Die gesuchten b’s sollen eine Regressionsgerade ergeben, die «optimal» in der Punktwolke der gemessenen Werte liegt. Wir suchen also die b’s, die die kleinsten quadrierten Abweichungen zwischen den vom Modell vorhergesagten und den gemessenen Werten ergibt. Das «Prinzip der kleinsten Quadrate» wird als OLS bezeichnet (Ordenary Least Squares).

\begin{align} \sum_{i=1}^n{e_i^2} & \rightarrow minimal \\ \sum_{i=1}^n{(Y_i - \hat{Y_i})^2} & \rightarrow minimal \end{align}

2.2 Die Formel für b nach OLS

\begin{align} b_2&=(r_{Y2}-r_{23}r_{Y3})\frac{1}{1-R_{2.3}^2}\frac{S_y}{S_2} \end{align}

In Worten

Der Anstieg der «Regressionsgeraden» für X_2 ergibt sich aus der Korrelation r_{Y2} zwischen X_2 und Y, die um den vermittelten Zusammenhang über die Drittvariable, also das Produkt aus r_{23} und r_{Y3} reduziert wird. Der Rest sind Korrekturen damit, wie stark X_2 von den übrigen Variablen erklärt wird \frac{1}{1-R^2_{2.3}} und quasi die Umkehr der Standardisierung \frac{S_Y}{S_2}.

3 BLUE – Best Linear Unbiased Estimators

«Linear Estimator»

Die «Linear Estimator» sind die b’s, also b_1, b_2, … b_k.

«Unbiased»

«Unbiased» bedeutet, dass wir unverzerrte Schätzer, also unverzerrte b’s haben wollen. Die b’s scätzen ihre \betas unverzerrt, wenn die Streuung der b’s um die wahren \betas herum liegen (man sagt auch: «erwartungstreu»).

«Best» bezeichnet die Effizienz der Schätzer b

Die besten Schätzer erhalten wir, wenn die Standardfehler der b’s (se_b) minimal sind.

«Unbiased», also Unverzerrtheit der b’s

Die Variablen (X und Y) müssen fix sein

Wir müssen also davon ausgehen, dass die erhobenen Variablen bei einer nächsten Ziehung nicht ganz anders aussehen würden.

im U_i darf nur Rauschen sein

Es darf im Unbekannten U_i keine Variable stecken, die mit den UV’s korreliert. Der Erwartungswert dieser Covarianz muss 0 sein: E(C_{2U}) = 0 = E(C_{3U}).

Modellspezifikation

Wir sollten aus der Theorie und in der Operationalisierung keine Variable vergessen, die mit den UVs zusammenhängt! Theoriearbeit besteht in der Suche nach der vollen Modellspezifikation! Die perfekte Modellspezifikation wäre das Ende der Forschung zu einem fixen Phänomen.

Unterspezifikation

Die Grösse des Bias bei Unterspezifikation

Gibt es eine X_{i4} mit einem wahren \beta_4 und ist dieses mit X_2 sowie Y korreliert, dann ist b_2 ein verzerrter Schätzer für \beta_2.

Verzerrung von b_2 wenn eine Einflussgrösse X_4 nicht mitgeschätzt wird

\begin{align} \text{wahr:\ } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4}+U_i\\ \text{geschätzt:\ } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} +U^\star_i \text{\quad wobei \quad } U^\star_i = \beta_4X_{i4}+U_i\\ \rightarrow E(b_2) =& \beta_2 + \beta_4b_{42}\\ \text{mit:\ } b_{42}=&\frac{r_{42}-r_{32}r_{43}}{1-r^2_{32}}\sqrt{\frac{V_4}{V_2}} \end{align}

3.1 Multikollinearität

Definition

Multikollinearität bedeutet, dass die Varianz einer Variablen durch eine oder mehrere übrige UVs teilweise aufgeklärt wird.

herausgerechnete Erklärungskraft

Wird einer Variablen viel Erklärungsvarianz (R_{2.34...}) weggerechnet, dann hat sie kaum noch welche, um die AV zu erklären.

Wann ein Problem

  • Der Grund für Regressionsanalysen
  • Problem hoher Multikollinearität (TOL < .5)
  • Standardfehler ➪ Schätzqualität schlecht (VIF > 2)

Steigende Fehlerstreuung bei Multikollinearität

Fehlervarianz von b_2

s_{b_2}^2=\frac{s_e^2}{n}\cdot\frac{1}{V_2}\cdot\frac{1}{1-R_{2.34...}^2}

Die Fehlerstreuung des Regressionskoeffizienten b ist proportional zur Streuung der Fehler e_i und umgekehrt proportional zur Fallzahl n, der Varianz V_2 (also von X_2) und zu Multikollinearität bzw. Toleranz TOL = 1-R^2_{2.34...}.

Toleranz ist die exklusive Varianz einer UV

TOL_{b_2} = 1-R^2_{2.34...}

Toleranz ist der Prozentsatz Varianz, der nicht durch die übrigen UVs rausgerechnet wird.

Der Varianz-Inflation-Factor VIF

VIF_{b_2} = \frac{1}{(1-R^2_{2.34...})} = \frac{1}{TOL_{b_2}}

3.2 Linearität

Nichtlineare Zusammenhänge

Nichtlineare Zusammenhänge

3.3 Heteroskedastizität

Ursachen für Heteroskedastizität

Ursachen für Heteroskedastizität

Heteroskedastizitätsproblem und -lösung

Probleme

  • Die Residuen hängen mit X zusammen.
  • Standardfehler der b verzerrt
  • nichtlineare Zusammenhänge unerkannt

Lösungen

  • Gibt es
  • Generalized least Squares (GLS)
  • Kurvlineare Schätzungen

3.4 Annahmen zur Residualverteilung

Normalverteilung und Unabhängigkeit der Residuen

Schaut man sich visuell an. Wenn sie stark verletzt ist (z.B. bimodal) oder extrem schief, dann andere Methode.

Unabhängigkeit der Fehler

Die Fehler können nur voneinander abhängig sein, bei zeitlich geordneten Erhebungen, also Zeitreihenanalysen. Das braucht uns also erstmal nicht kümmern.

Multivariat normalvereilt

editor: render-on-save: true

Übung 1 a+b

Ü1.1 Erstellen Sie eine Quarto-Datei.qmd

  1. Öffnen Sie R-Studio
  2. In R-Studio ➪ File ➪ New File ➪ Quarto Document…
  3. Klicken Sie unten links auf «Create Empty Document»
  4. (Wählen Sie als title «Erste Regression»)
  5. Fügen Sie einen r-Chunk hinzu mit diesem Schalter:
  6. speichern Sie an einem günstigen Ort  
    (am besten in der Cloud + nicht auf Desktop)

Ü1.2 Installieren Sie ein paar Pakete

Kopieren Sie in Ihre Datei:

## die einfache Variante
install.packages("tidyverse")

## die Quelle mit angegeben und alle abhängigen Pakete mit installieren
install.packages(c("ggpubr", "corrr", "olsrr"),
   repos = "https://cloud.r-project.org/", 
   dependencies = TRUE)

## damit auch Developer-Versionen installiert werden können:
install.packages("devtools")

## Versuch über die Developer-Versionen
devtools::install_github("kassambara/ggpubr", force = TRUE)

# wird nur installiert, wenn es nicht schon in der aktuellsten Version da ist. Sonst auch forcen.
devtools::install_github("strengejacke/sjmisc")

devtools::install_github("strengejacke/sjlabelled")

devtools::install_github("joon-e/soscisurvey")

Ü1.3 Laden Sie die Daten

Laden Sie den Fragebogen hier runter und schauen ihn an.

Laden Sie die Daten und lassen Sie mal die Variablenlabel raus:

R-Code anzeigen
Daten_import <- soscisurvey::read_sosci("https://www.soscisurvey.de/StatAufbau/?act=qcN2DTzo30W0BXnj8Rr6CZuN")

DATEN <- Daten_import 

DATEN  |>
  sjlabelled::get_label()
                                                                                                               CASE 
                                                                                   "Interview-Nummer (fortlaufend)" 
                                                                                                           QUESTNNR 
                                                                     "Fragebogen, der im Interview verwendet wurde" 
                                                                                                               MODE 
                                                                                                  "Interview-Modus" 
                                                                                                            STARTED 
                                                      "Zeitpunkt zu dem das Interview begonnen hat (Europe/Berlin)" 
                                                                                                               A006 
                                                                                                          "Consent" 
                                                                                                               A101 
                                                                                                       "Eisbrecher" 
                                                                                                               A201 
                                                                                                          "Studium" 
                                                                                                               A202 
                                                                                                  "Sonstige Fächer" 
                                                                                                            E101_02 
                                                                               "Noten: Statistik \"Einführung\" KW" 
                                                                                                           E101_02a 
                                            "Noten: Statistik \"Einführung\" KW: hatte ich nicht/ weiss nicht mehr" 
                                                                                                           E101_05a 
                                     "Noten: Statistik einführend andere Fächer: hatte ich nicht/ weiss nicht mehr" 
                                                                                                           E101_06a 
                                "Noten: Statistik fortgeschritten andere Fächer: hatte ich nicht/ weiss nicht mehr" 
                                                                                                           E101_01a 
                                               "Noten: Mathematik in der Schule: hatte ich nicht/ weiss nicht mehr" 
                                                                                                            E101_03 
                                                                                  "Noten: Informatik in der Schule" 
                                                                                                           E101_03a 
                                               "Noten: Informatik in der Schule: hatte ich nicht/ weiss nicht mehr" 
                                                                                                            E101_04 
                                                                                         "Noten: Gesamtnote Matura" 
                                                                                                           E101_04a 
                                                      "Noten: Gesamtnote Matura: hatte ich nicht/ weiss nicht mehr" 
                                                                                                            E102_01 
                                               "Statistik_Einführung: Statistik Einführung ist mir leichtgefallen." 
                                                                                                            E102_02 
                                           "Statistik_Einführung: Statistik Einführung hat mir viel Spass gemacht." 
                                                                                                            E102_03 
                               "Statistik_Einführung: Für mich schaffen Formeln erst echte Klarheit und Präzision." 
                                                                                                            E102_04 
                                                     "Statistik_Einführung: Die Arbeit mit R fand ich schrecklich." 
                                                                                                            E102_05 
                                                     "Statistik_Einführung: Von Formeln bekomme ich Panikattacken." 
                                                                                                            E102_06 
                                  "Statistik_Einführung: Statistik braucht ich nach dem Studium sicher nie wieder!" 
                                                                                                            E201_01 
                                                         "Erwartungen STAT A: Ich habe Angst vor Statistik Aufbau!" 
                                                                                                            E201_02 
                                                          "Erwartungen STAT A: Ich freu mich auf Statistik Aufbau!" 
                                                                                                            E201_03 
                                                 "Erwartungen STAT A: Statistik Einführung ist mir leichtgefallen." 
                                                                                                            E201_04 
                                                  "Erwartungen STAT A: Statistik Einführung hat mir Spass gemacht." 
                                                                                                            E201_06 
                                                 "Erwartungen STAT A: Es hat mir Spass gemacht, mit R zu arbeiten." 
                                                                                                            E201_07 
                                                       "Erwartungen STAT A: Die Arbeit mit R fand ich schrecklich." 
                                                                                                            E201_08 

“Erwartungen STAT A: Ich will in Statistik Aufbau nur die Prüfung bestehen. Über eine 4.0 wäre ich schon glücklich.” E201_09 “Erwartungen STAT A: Ich will in Statistik Aufbau mit einer 6.0 abschliessen und tue alles dafür.” E201_10 “Erwartungen STAT A: Ich möchte viel mehr über Statistik wissen.” E201_11 “Erwartungen STAT A: Ich freue mich schon darauf, nach dem Semester alles wieder über Statistik zu vergessen.” E201_12 “Erwartungen STAT A: Formeln schrecken mich total ab.” E201_13 “Erwartungen STAT A: Für mich schaffen Formeln erst echte Klarheit und Präzision.” E201_14 “Erwartungen STAT A: Ich will nach dem Studium Data-Scientist:in werden!” E202_15 “Erwartungen ML: Ich finde das Thema Machine Learning spannend.” E202_16 “Erwartungen ML: Gerne würde ich selbst Machine-Learning-Modelle bauen können.” E202_14 “Erwartungen ML: Ich will nach dem Studium im Bereich Data Science arbeiten.” E202_17 “Erwartungen ML: Ich fände es interessant, nach dem Studium als Assistentin wissenschaftlich an der Uni zu arbeiten.” E202_18 “Erwartungen ML: Ich suche mir sicher einen Job, bei dem ich nie wieder etwas mit Statistik zu tun habe.” E202_19 “Erwartungen ML: Das einzige was mich beim Learning interessiert ist meine Kaffee Machine.” F101_01 “Feminismus: Ich unterstütze die Ideen und Ziele des Feminismus.” F101_02 “Feminismus: Geschlechterungleichheit ist ein ernsthaftes gesellschaftliches Problem.” F101_03 “Feminismus: Ich glaube, dass Frauen und Männer in allen Bereichen des Lebens gleichberechtigt sein sollten.” F101_04 “Feminismus: Geschlechterstereotypen und Rollenerwartungen sind ein Hindernis für die Gleichstellung der Geschlechter.” F101_05 “Feminismus: Es ist wichtig, für Geschlechtergerechtigkeit und Frauenrechte aktiv einzutreten.” F101_06 “Feminismus: Ich würde mich selbst als Feminist/Feministin bezeichnen.” F101_07 “Feminismus: Es ist wichtig, dass auch mündlich richtig gegendert wird (Gendersprechpause).” PS01_01 “Persönlichkeitsstärke S: Gewöhnlich rechne ich bei dem, was ich mache, mit Erfolg.” PS01_02 “Persönlichkeitsstärke S: Ich bin selten unsicher, wie ich mich verhalten soll.” PS01_03 “Persönlichkeitsstärke S: Ich übernehme gern Verantwortung.” PS01_04 “Persönlichkeitsstärke S: Ich übernehme bei gemeinsamen Unternehmungen gern die Führung.” PS01_05 “Persönlichkeitsstärke S: Es macht mir Spass, andere Menschen von meiner Meinung zu überzeugen.” PS01_06 “Persönlichkeitsstärke S: Ich merke öfter, dass sich andere nach mir richten.” PS01_07 “Persönlichkeitsstärke S: Ich kann mich gut durchsetzen.” PS01_08 “Persönlichkeitsstärke S: Ich bin anderen oft einen Schritt voraus.” PS01_09 “Persönlichkeitsstärke S: Ich besitze vieles, worum mich andere beneiden.” PS01_10 “Persönlichkeitsstärke S: Ich gebe anderen Ratschläge/Empfehlungen.” PS01_11 “Persönlichkeitsstärke S: Ich stehe zu meiner persönlichen Meinung.” PS01_12 “Persönlichkeitsstärke S: Ich bin leicht zu verunsichern.” PS04_01 “Big 5: gründlich arbeitet.” PS04_02 “Big 5: kommunikativ, gesprächig ist.” PS04_03 “Big 5: manchmal etwas grob zu anderen ist.” PS04_04 “Big 5: originell ist, neue Ideen einbringt.” PS04_05 “Big 5: sich oft Sorgen macht.” PS04_06 “Big 5: zurückhaltend ist.” PS04_07 “Big 5: verzeihen kann.” PS04_08 “Big 5: eher faul ist.” PS04_09 “Big 5: aus sich herausgehen kann, gesellig ist.” PS04_10 “Big 5: künstlerische Erfahrungen schätzt.” PS04_11 “Big 5: leicht nervös wird.” PS04_12 “Big 5: Aufgaben wirksam und effizient erledigt.” PS04_13 “Big 5: rücksichtsvoll und freundlich mit anderen umgeht.” PS04_14 “Big 5: eine lebhafte Fantasie, Vorstellungen hat.” PS04_15 “Big 5: entspannt ist, mit Stress gut umgehen kann.” R101_01 “RAQ: Statistik bringt mich zum Weinen.” R101_02 “RAQ: Meine Freunde werden denken, ich sei dumm, weil ich nicht mit R umgehen kann.” R101_03 “RAQ: Standardabweichungen begeistern mich.” R101_04 “RAQ: Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift.” R101_05 “RAQ: Ich verstehe Statistik nicht.” R101_06 “RAQ: Ich habe wenig Erfahrung mit Computern.” R101_07 “RAQ: Alle Computer hassen mich.” R101_08 “RAQ: Ich war noch nie gut in Mathe.” R101_09 “RAQ: Meine Freunde sind besser in Statistik als ich.” R101_10 “RAQ: Computer sind nur zum Spielen nützlich.” R101_11 “RAQ: Ich war in der Schule schlecht in Mathematik.” R101_12 “RAQ: Leute versuchen dir zu sagen, dass R die Statistik leichter verständlich macht, aber das stimmt nicht.” R101_13 “RAQ: Ich mache mir Sorgen, dass ich wegen meiner Inkompetenz mit Computern irreparable Schäden verursachen werde.” R101_14 “RAQ: Computer haben ihren eigenen Willen und gehen absichtlich immer dann kaputt, wenn ich sie benutze.” R101_15 “RAQ: Computer sind darauf aus, mich zu überlisten.” R101_16 “RAQ: Ich weine offen, wenn von zentraler Tendenz die Rede ist.” R101_17 “RAQ: Ich falle in ein Koma, wenn ich eine Gleichung sehe.” R101_18 “RAQ: R stürzt immer ab, wenn ich versuche, es zu benutzen.” R101_19 “RAQ: Alle schauen mich an, wenn ich R benutze.” R101_20 “RAQ: Ich kann nicht schlafen, weil ich an Signifikanzen denke.” R101_21 “RAQ: Ich wache unter meiner Bettdecke auf und denke, dass ich unter einer Normalverteilung gefangen bin.” R101_22 “RAQ: Meine Freunde sind besser in R als ich.” R101_23 “RAQ: Wenn ich gut in Statistik bin, werden die Leute denken, ich sei ein Streber.” R101_24 “RAQ: Ich mag Statistik, würde das aber nie vor meinen Freunden zugeben.” SC02 “DQ Overall” SC03 “DQ Relunctance” SC04 “DQ Meaningless Responses” SC07_01 “Lügenitems: Ich sage immer, was ich denke.” SC07_02 “Lügenitems: Ich bin manchmal ärgerlich, wenn ich meinen Willen nicht bekomme.” SC07_03 “Lügenitems: Ich bin immer gewillt, einen Fehler, den ich mache, auch zuzugeben.” SC07_04 “Lügenitems: Ich habe gelegentlich mit Absicht etwas gesagt, was die Gefühle des anderen verletzen könnte.” SD04_01 “Alter (Geburtsjahr): Geburtsjahr” SD05 “Geschlecht (zum kombinieren)” SD07 “Land (D/A/CH)” SD19_01 “NullmessungsID: Erste zwei Buchstaben des Vornamens Ihrer Mutter …” SD19_02 “NullmessungsID: Erste zwei Buchstaben des Vornamens Ihres Vaters …” SD19_03 “NullmessungsID: Geburtstag im Monat (als Zahl also 1-12) …” T101 “OSs” TIME001 “Verweildauer Seite 1” TIME002 “Verweildauer Seite 2” TIME003 “Verweildauer Seite 3” TIME004 “Verweildauer Seite 4” TIME005 “Verweildauer Seite 5” TIME006 “Verweildauer Seite 6” TIME007 “Verweildauer Seite 7” TIME008 “Verweildauer Seite 8” TIME009 “Verweildauer Seite 9” TIME010 “Verweildauer Seite 10” TIME011 “Verweildauer Seite 11” TIME012 “Verweildauer Seite 12” TIME013 “Verweildauer Seite 13” TIME014 “Verweildauer Seite 14” TIME015 “Verweildauer Seite 15” TIME016 “Verweildauer Seite 16” TIME017 “Verweildauer Seite 17” TIME018 “Verweildauer Seite 18” TIME_SUM “Verweildauer gesamt (ohne Ausreißer)” LASTDATA “Zeitpunkt als der Datensatz das letzte mal geändert wurde” FINISHED “Wurde die Befragung abgeschlossen (letzte Seite erreicht)?” Q_VIEWER “Hat der Teilnehmer den Fragebogen nur angesehen, ohne die Pflichtfragen zu beantworten?” LASTPAGE “Seite, die der Teilnehmer zuletzt bearbeitet hat” MAXPAGE “Letzte Seite, die im Fragebogen bearbeitet wurde” A202_10 “Sonstige Fächer: anderes, und zwar” E101_05 “Noten: Statistik einführend andere Fächer” E101_01 “Noten: Mathematik in der Schule” SD18_01 “Anmerkungen (offen): [01]” SD07_04 “Land (D/A/CH): Anderes Land” A201_04 “Studium: andere, und zwar” E101_06 “Noten: Statistik fortgeschritten andere Fächer”

Ü1.4 Rechnen Sie ein Regressionsmodell

Modell_1 <- lm(E201_10 ~ E102_02, data = DATEN)

summary(Modell_1)

Call: lm(formula = E201_10 ~ E102_02, data = DATEN)

Residuals: Min 1Q Median 3Q Max -1.2726 -0.7684 -0.2641 0.7274 2.7274

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.28105 0.16912 7.575 2.60e-12 E102_02 0.49578 0.06668 7.435 5.73e-12

Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1

Residual standard error: 0.9151 on 162 degrees of freedom (3 observations deleted due to missingness) Multiple R-squared: 0.2544, Adjusted R-squared: 0.2498 F-statistic: 55.28 on 1 and 162 DF, p-value: 5.729e-12

Was sehen Sie?

  1. Wie gross ist R^2?
  2. Wie gross ist die bivariate Korrelation r? (selbst ausrechnen)
  3. Ist der Zusammenhang positiv oder negativ?
  4. Ist der Zusammenhang signifikant?

Ü1.5 Verändern Sie das Regressionsmodell

Kopieren Sie den r-Chunk der letzten Folie und setzen Sie andere Variablen ein: Nehmen Sie die Variablen für «Statistik Einführung hat mir Spass gemacht» und erklären Sie damit: «Ich freu mich auf Statistik Aufbau!».

Beantworten wieder die Fragen:

  1. Wie gross ist R^2?
  2. Wie gross ist die bivariate Korrelation r? (selbst ausrechnen)
  3. Ist der Zusammenhang positiv oder negativ?
  4. Ist der Zusammenhang signifikant?

Ü1.6 b_2 aus Korrelationen und SDs berechnen

Note

Lassen Sie die Korrelationen durchlaufen, schauen Sie sich an, wo was steht und setzen Sie es in die Formel für b_2 ?@eq-FormelFuerBs, um es zu berechnen.

R-Code anzeigen
DATEN |> 
  select(E201_10, E102_02, E102_04) |> 
  # sjlabelled::label_to_colnames() |> 
  apaTables::apa.cor.table()

Means, standard deviations, and correlations with confidence intervals

Variable M SD 1 2
1. E201_10 2.35 1.37

  1. E102_02 2.19 1.42 .68**
    [.59, .76]

  2. E102_04 3.53 1.61 .25** .23**
    [.10, .39] [.08, .37]

Note. M and SD are used to represent mean and standard deviation, respectively. Values in square brackets indicate the 95% confidence interval. The confidence interval is a plausible range of population correlations that could have caused the sample correlation (Cumming, 2014). * indicates p < .05. ** indicates p < .01.

Ü1.7 Berechnen Sie b_2 mit Hilfe einer Regressionsanalyse

Modell1 <- lm(E201_10 ~ E102_02 + E102_04, data = DATEN)

summary(Modell1, digits = digits, maxsum = maxsum)

Call: lm(formula = E201_10 ~ E102_02 + E102_04, data = DATEN)

Residuals: Min 1Q Median 3Q Max -1.3852 -0.7194 -0.2281 0.5642 2.7439

Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.57016 0.32129 4.887 2.46e-06 E102_02 0.47210 0.07031 6.714 3.08e-10 E102_04 -0.06458 0.06102 -1.058 0.292

Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1
R 0.509 RMSE 0.915 R-Squared 0.260 Coef. Var 37.790 Adj. R-Squared 0.250 MSE 0.837 Pred R-Squared 0.235 MAE 0.736

RMSE: Root Mean Square Error MSE: Mean Square Error MAE: Mean Absolute Error

3.5 ANOVA

           Sum of                                               
          Squares         DF    Mean Square      F         Sig. 
Regression 47.235 2 23.617 28.221 0.0000
Residual 134.735 161 0.837
Total 181.970 163

3.6 Parameter Estimates

3.7 model Beta Std. Error Std. Beta t Sig lower upper

(Intercept) 1.570 0.321 4.887 0.000 0.936 2.205 E102_02 0.472 0.070 0.480 6.714 0.000 0.333 0.611 E102_04 -0.065 0.061 -0.076 -1.058 0.292 -0.185 0.056 —————————————————————————————


olsrr::ols_vif_tol(Modell1) 

Variables Tolerance VIF 1 E102_02 0.8987008 1.112717 2 E102_04 0.8987008 1.112717

Ü1.9 Schauen Sie sich die Residualplotts an

R-Code anzeigen
olsrr::ols_plot_resid_fit(Modell1)

Plot der Residuen

Ü1.10 Testen Sie auf Homoskedastizität

R-Code anzeigen
# Führe einen Breusch-Pagan-Test aus
olsrr::ols_test_breusch_pagan(Modell1)
Breusch Pagan Test for Heteroskedasticity
Ho: the variance is constant
Ha: the variance is not constant
Data
Response : E201_10
Variables: fitted values of E201_10
Test Summary
DF = 1
Chi2 = 2.305095
Prob > Chi2 = 0.1289504

Was sagt Ihnen das?

Ü1.11 Gucken Sie sich den N-Q-Q-Plot an

R-Code anzeigen
# Führe einen Normal-Q-Q-Plot aus
olsrr::ols_plot_resid_qq(Modell1)

Normal-Q-Q-Plot

Ü1.12 Und das Histogramm

R-Code anzeigen
# Mache mal ein Histogramm der Residuen. Die sollten annähernd normalverteilt sein. 
olsrr::ols_plot_resid_hist(Modell1)

Histogramm der Residuen

Ü1.13 Jetzt auf Normalverteilung testen

# Führe Tests auf signifikante Verletzungen 
# der Normalverteilungsannahme aus.

olsrr::ols_test_normality(Modell1)
Test Statistic pvalue
Shapiro-Wilk 0.9349 0.0000 Kolmogorov-Smirnov 0.127 0.0101 Cramer-von Mises 15.381 0.0000 Anderson-Darling 3.2969 0.0000

Ü1.14 Fazit

Was ist Ihr Fazit aus der Regressionsrechnung?

Weiterführung

Predictors B std.error BETA t p
(Intercept) 1.57 0.32 --- 4.89 0.00
E102_02 0.47 0.07 0.48 6.71 0.00
E102_04 -0.06 0.06 -0.08 -1.06 0.29
a R² = 0.25 (F = 28, df = 161, p = 161),
R²adj. = 0.25

LEF 3

Essayfragen 3

E3.1 Welches sind die Voraussetzungen für die Schätzung von Regressionen?

E3.2 Was bedeutet «Bias»?

E3.3 Was sagt Ihnen der Toleranzwert TOL?

E3.4 Was bedeutet Multikollinearität?

E3.5 Welche Kennwerte kennen Sie, mit denen Sie Multikollinearität abschätzen können?

E3.6 Wie reagieren a) p-Werte und b) Konfidenzintervalle auf Multikolliniearität?

E3.7 Warum kann man die volle Modellspezifikation nicht überprüfen?

E3.8 Was haben Theoriearbeit und Modellspezifikation miteinander zu tun?

E3.9 Was bedeutet es, dass die Variablen fix sein sollen?

MC-Fragen 3

MC 3.1.

MC 3.1: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.2.

MC 3.2: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.3.

MC 3.3: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.4.

MC 3.4: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.5.

MC 3.5: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 3.6.

MC 3.6: Sind folgende Aussagen richtig oder falsch?

Punkte:

Insgesamt von Punkten, was % und etwa einer entspricht.

Take Home – Ausblick – Vokabeln

Take Home

Note

  • Sie kennen die Voraussetzungen für BLUE
  • Schätzer sind unverzerrt, wenn die Modelle voll spezifiziert sind
  • Schätzt man nicht lineare Zusammenhänge linear, macht man falsche Schlüsse
  • Hängt die Streuung der Fehler mit den UVs zusammen, schätzt man die Standardfehler falsch (damit t-Wert, p-Wert, KI)
  • Bei perfekter Multikollinearität können exklusive Effekte nicht geschätzt werden
  • Sind die Fehler nicht unabhängig, verschätzt man sich in den Standardfehlern
  • Etwas Multikollinearität ist der Grund für multivariate Analysen

Ausblick

Übung 1 (a und b)

Vokabeln 🔗

:::