Statistik und Datenanalyse: Aufbau

GLM – Regression

Benjamin Fretwurst
PDF-Version der Folien

Orga

nutzen Sie das Forum
Studienteilnahmepunkte
Klausurformat (kein «open book»!)
Ihre Fragen

Lernziele

bivariate Regression
Kennwerte der Regressionsanalysen
multivariate Regression
Übung 1a

1 Regression – bivariat

Anruf Biewald Berliner Kurier

NB: Stimmt es, dass die Geburtenrate mit der Storchenpopulation zusammenhängt? Und haben Sie dazu Daten?
Ich: Stimmt, das ist aber nur ein didaktischer Kalauer um Scheinkorrelationen zu erklären
NB: Könnte ich ein Foto von Ihnen haben?
Ich: Moment, was wollen Sie denn da berichten; ich habe dazu genausowenig gemacht wie jeder andere
NB: Nein, wir wollen nur das Sommerloch füllen und da ist uns die Sache mit den Störchen eingefallen und Sie brauchen wir als Experten, der das Phänomen erklärt.

Die Idee vom Modell

Modellidee

Für das Ergebnis der Datenerhebung wird ein Modell entworfen, das Zusammenhänge einfach darstellt. Da das Modell nie zu 100% das Ergebnis treffen wird, bleibt ein Rest, den wir Modellfehler oder einfach Fehler nennen.

Grundmodell

Ergebnis = (Modell) + Fehler

Beispiel

Mittelwert von x_i = \overline{x} + Fehler_i (die Abweichungen vom Mittelwert)

1.1 Die Regressionsidee

Was ist Regression?

Regression ist ein Weg um die Werte einer Variablen (AV) mit Hilfe einer (UV) oder mehrerer anderer Variablen (UVs) vorherzusagen.

Es handelt sich um ein hypothetisches Model über die Beziehungen zwischen zwei und mehr Variablen.
Das Modell nimmt lineare Beziehungen an.
- Daher wird die Beziehung als gerade Linie dargestellt.
- Darum spricht man auch vom «Linearen Modell».

Notation der (multivariaten) Regression

Wir ändern die Notation etwas

\begin{aligned} Y & = a + bX + e \\ \text{➪ } & = b_1 + b_2X_{2} + e \end{aligned}

Warum?

In Tabellen (auch in R) steht die Konstante (a) in der Spalte der b’s (estimates).
Und weil wir im Multivariaten mehrere X und zugehörige b’s haben, nummerieren wir sie durch, wobei wir in der ersten Zeile mit b_1 für die Konstante anfangen.
Uuuuuund: In der Matrixschreibweise würde man B als Vector für die Regressionskoeffizienten nehmen, wobei die Konstante in der ersten Zeile steht.

1.2 Der Regressionskoeffizient b

Regressionskoeffizient b (aka Steigungskoeffizient) und r

\begin{align} b &= \frac{\sum{(X- \overline{X})(Y- \overline{Y})}}{\sum{(X- \overline{X})^2}} \\ {} & =\frac{\frac{\sum{(X- \overline{X})(Y- \overline{Y})}}{n}}{\frac{\sum{(X- \overline{X})^2}}{n}} \\ {} & =\frac{COV_{YX}}{VAR_X} \\ {} & =\frac{r_{YX} \cdot \cancel{s_X}\cdot s_Y}{s_X\cdot \cancel{s_X}} \\ {} & =r_{YX}\cdot \frac{s_y}{s_X} \\ r_{YX} & = b \cdot \frac{s_X}{s_Y} \end{align}

1.3 Der standardisierte Regressionskoeffizient

Der standardisierte Regressionskoeffizient BETA aka b*

BETA = b\cdot\frac{s_X}{s_Y} = r_{YX}

Beschreibung

Die standardisierten Regressionskoffizienten geben einen Zusammenhang in Standardabweichungen an: Wenn x um eine Standardabweichung grösser ist, um wie viele Standardabweichungen ist dann y grösser (kann negativ sein)?

Wie Korrelationen bzw. partielle Korrelationen

Die BETAs sind den Korrelationen sehr ähnlich: +1 ist ein perfekter positiver Zusammenhang, 0 kein Zusammenhang und -1 ein perfekter negativer Zusammenhang. Interpretieren würde ich ab 0.1, wenn sie signifikant sind.

Korrelation und Regression

Von der Korrelation zur Regression und zurück

1.3.1 Standardfehler der b’s

se_b^2 = \frac{s^2_e}{n\cdot s^2_2} mit s_e^2 = \frac{1}{n-3}\sum{e_i^2}

Die Standardfehler der b’s sind (bei sehr vielen Ziehungen) die «durchschnittliche» Abweichung der b’s von dem wahren Wert \beta. Standardfehler kann man auch für die standardisierten Regressionskoeffizienten (BETA) berechnen.

Varianzzerlegung der Gesamtmodellgüte

\begin{align} Y_i & = \overline{Y} + e_i\\ Y_i & = b_1 + b_2X_i + e_i\\ \hat{Y_i} & = b_1 + b_2X_i \\ Y_i & = \hat{Y_i}+e_i\\ SS_T & = SS_R+SS_M \end{align}

1.4 Das Bestimmtheitsmass R^2

Was sagt das Bestimmtheitsmass R^2?

Das Bestimmtheitsmass R^2 gibt an, wie gut die Werte der AV durch die Werte der UV vorhergesagt werden können.

R^2 = \frac{SS_M}{SS_T}

Anteil der erklärten Varianz der AV durch die UVs.
SS_T: Summe der quadrierten Abweichungen total für die AV (Y).
SS_M: Summe der quadrierten Abweichungen des Modells (\hat{\text{Y}})
R^2 = \frac{\text{aufgeklärte Varianz}}{\text{Gesamtvarianz}}

1.4.1 Bestimmtheistmass und Modellgüte

\begin{align} Y_i & = \overline{Y} + e_i\\ Y_i & = b_1 + b_2X_i + e_i\\ \hat{Y_i} & = b_1 + b_2X_i \\ Y_i & = \hat{Y_i}+e_i\\ SS_T & = SS_R+SS_M \\ R^2 &= \frac{SS_M}{SS_T} \end{align}

1.4.2 Interpretation von R^2

R^2 ist Varianzaufklärung

Das Bestimmtheitsmass R^2 gibt an, wie viel Variant der AV durch die UV’s aufgeklärt werden konnte. R^2 geht von 0 bis 1, bzw., wenn in Prozent ausgedrückt, von 0% bis 100%.

Formel für das korrgigierte R^2_{adj.}

R^2_{adj.} = R^2\cdot\frac{n-k-1}{n-1} bei kleinen Stichproben (wobei k die Anzahl UVs ist).

F-Test (R^2)

Gibt an, ob durch das Modell insgesamt überzufällig gut Varianz aufgeklärt wurde. Also, ob die Nullhypothese zurückgewiesen werden kann, dass die AV nicht durch sämtliche UVs im Modell erklärt werden kann.

1.4.3 Kennwerte von Regressionsanalysen – Signifikanz

t-Werte der b’s oder standardisierten Regressionskoeffizienten (BETA)

Umrechnung der b’s in t-Werte, die sich (bei gegebenem Stichprobenumfang bzw. den Degrees of Freedom) unter der Annahme der Nullhypothese ergeben. Sie sind innerhalb einer Regressionsanalyse vergleichbar. Sie sind für die b’s und BETAS identisch.

p-Werte der b’s bzw. BETAS (p oder sig.)

Geben die Wahrscheinlichkeit an, dass ein in einer Stichprobe gefundenes b zustandekommt, obwohl die Nullhypothese gilt. Ist auch für die b’s und BETAS identisch. Bei p < .05 sprechen wir von einem von 0 signifikant verschiedenen b, wenn das Signifikanzniveau bei 95% liegt (5% Irrtumswahrscheinlichkeit).

2 Regression multivariat

2.1 Das Modell mit 2 UV’s

Regressionsgleichung

\begin{align} Y_i&=\beta_1 + \beta_2X_{i2} + \beta_3X_{i3}+U_i\\ Y_i&=b_1 + b_2X_{i2} + b_3X_{i3}+\varepsilon_i \end{align}

Regressionskoeffizienten b

Die Variablen sind alle im erhobenen Datensatz. Die Regressionsrechnung ermöglicht Aussagen darüber wie die Einflussgrössen wirken, welches Gewicht sie also haben. Jetzt müssen Regressionsgewichte bestimmt werden.

\begin{align} b_2&=\frac{r_{Y2}-r_{23}r_{Y3}}{(1-R_{2.3}^2)}\frac{S_y}{S_2} \end{align}

2.2 Das Modell mit 3 UV’s

Regressionsgleichung

\begin{align} Y_i&=\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4} + U_i\\ Y_i&=b_1 + b_2X_{i2} + b_3X_{i3} + b_4X_{i4}+\varepsilon_i \end{align}

3 Übung 1

3.1 Installieren Sie R und R-Studio (neu)

Eine Anleitung zur Installation finden Sie hier.

Erstellen Sie eine Quarto-Datei.qmd

Öffnen Sie R-Studio
In R-Studio ➪ File ➪ New File ➪ Quarto Document…
Klicken Sie unten links auf «Create Empty Document»
(Wählen Sie als title «Erste Regression»)
Fügen Sie einen r-Chunk hinzu mit diesem Schlater:
speichern Sie an einem günstigen Ort
(am besten in der Cloud + nicht auf Desktop)

Installieren Sie ein paar Pakete

Kopieren Sie in Ihre Datei:

install.packages("tidyverse", "sjmisc", "sjlabelled", "ggpubr", "corrr")

install.packages("devtools")

devtools::install_github("joon-e/soscisurvey")

3.2 Laden Sie die Daten

Laden Sie den Fragebogen hier runter und schauen ihn an

suppressPackageStartupMessages(library(tidyverse))

Daten_import <- soscisurvey::read_sosci("https://www.soscisurvey.de/StatAufbau/?act=qcN2DTzo30W0BXnj8Rr6CZuN")

DATEN <- Daten_import

DATEN  |>
  sjlabelled::get_label()

                                                                                                                   CASE 
                                                                                       "Interview-Nummer (fortlaufend)" 
                                                                                                               QUESTNNR 
                                                                         "Fragebogen, der im Interview verwendet wurde" 
                                                                                                                   MODE 
                                                                                                      "Interview-Modus" 
                                                                                                                STARTED 
                                                          "Zeitpunkt zu dem das Interview begonnen hat (Europe/Berlin)" 
                                                                                                                   A006 
                                                                                                              "Consent" 
                                                                                                                   A101 
                                                                                                           "Eisbrecher" 
                                                                                                                   A201 
                                                                                                              "Studium" 
                                                                                                                   A202 
                                                                                                      "Sonstige Fächer" 
                                                                                                                E101_02 
                                                                                   "Noten: Statistik \"Einführung\" KW" 
                                                                                                               E101_02a 
                                                "Noten: Statistik \"Einführung\" KW: hatte ich nicht/ weiss nicht mehr" 
                                                                                                               E101_05a 
                                         "Noten: Statistik einführend andere Fächer: hatte ich nicht/ weiss nicht mehr" 
                                                                                                               E101_06a 
                                    "Noten: Statistik fortgeschritten andere Fächer: hatte ich nicht/ weiss nicht mehr" 
                                                                                                               E101_01a 
                                                   "Noten: Mathematik in der Schule: hatte ich nicht/ weiss nicht mehr" 
                                                                                                                E101_03 
                                                                                      "Noten: Informatik in der Schule" 
                                                                                                               E101_03a 
                                                   "Noten: Informatik in der Schule: hatte ich nicht/ weiss nicht mehr" 
                                                                                                                E101_04 
                                                                                             "Noten: Gesamtnote Matura" 
                                                                                                               E101_04a 
                                                          "Noten: Gesamtnote Matura: hatte ich nicht/ weiss nicht mehr" 
                                                                                                                E102_01 
                                                   "Statistik_Einführung: Statistik Einführung ist mir leichtgefallen." 
                                                                                                                E102_02 
                                               "Statistik_Einführung: Statistik Einführung hat mir viel Spass gemacht." 
                                                                                                                E102_03 
                                   "Statistik_Einführung: Für mich schaffen Formeln erst echte Klarheit und Präzision." 
                                                                                                                E102_04 
                                                         "Statistik_Einführung: Die Arbeit mit R fand ich schrecklich." 
                                                                                                                E102_05 
                                                         "Statistik_Einführung: Von Formeln bekomme ich Panikattacken." 
                                                                                                                E102_06 
                                      "Statistik_Einführung: Statistik braucht ich nach dem Studium sicher nie wieder!" 
                                                                                                                E201_01 
                                                             "Erwartungen STAT A: Ich habe Angst vor Statistik Aufbau!" 
                                                                                                                E201_02 
                                                              "Erwartungen STAT A: Ich freu mich auf Statistik Aufbau!" 
                                                                                                                E201_03 
                                                     "Erwartungen STAT A: Statistik Einführung ist mir leichtgefallen." 
                                                                                                                E201_04 
                                                      "Erwartungen STAT A: Statistik Einführung hat mir Spass gemacht." 
                                                                                                                E201_06 
                                                     "Erwartungen STAT A: Es hat mir Spass gemacht, mit R zu arbeiten." 
                                                                                                                E201_07 
                                                           "Erwartungen STAT A: Die Arbeit mit R fand ich schrecklich." 
                                                                                                                E201_08 
   "Erwartungen STAT A: Ich will in Statistik Aufbau nur die Prüfung bestehen. Über eine 4.0 wäre ich schon glücklich." 
                                                                                                                E201_09 
                     "Erwartungen STAT A: Ich will in Statistik Aufbau mit einer 6.0 abschliessen und tue alles dafür." 
                                                                                                                E201_10 
                                                      "Erwartungen STAT A: Ich möchte viel mehr über Statistik wissen." 
                                                                                                                E201_11 
         "Erwartungen STAT A: Ich freue mich schon darauf, nach dem Semester alles wieder über Statistik zu vergessen." 
                                                                                                                E201_12 
                                                                 "Erwartungen STAT A: Formeln schrecken mich total ab." 
                                                                                                                E201_13 
                                     "Erwartungen STAT A: Für mich schaffen Formeln erst echte Klarheit und Präzision." 
                                                                                                                E201_14 
                                              "Erwartungen STAT A: Ich will nach dem Studium Data-Scientist:in werden!" 
                                                                                                                E202_15 
                                                       "Erwartungen ML: Ich finde das Thema Machine Learning spannend." 
                                                                                                                E202_16 
                                        "Erwartungen ML: Gerne würde ich selbst Machine-Learning-Modelle bauen können." 
                                                                                                                E202_14 
                                          "Erwartungen ML: Ich will nach dem Studium im Bereich Data Science arbeiten." 
                                                                                                                E202_17 
  "Erwartungen ML: Ich fände es interessant, nach dem Studium als Assistentin wissenschaftlich an der Uni zu arbeiten." 
                                                                                                                E202_18 
              "Erwartungen ML: Ich suche mir sicher einen Job, bei dem ich nie wieder etwas mit Statistik zu tun habe." 
                                                                                                                E202_19 
                            "Erwartungen ML: Das einzige was mich beim Learning interessiert ist meine Kaffee Machine." 
                                                                                                                F101_01 
                                                      "Feminismus: Ich unterstütze die Ideen und Ziele des Feminismus." 
                                                                                                                F101_02 
                                 "Feminismus: Geschlechterungleichheit ist ein ernsthaftes gesellschaftliches Problem." 
                                                                                                                F101_03 
          "Feminismus: Ich glaube, dass Frauen und Männer in allen Bereichen des Lebens gleichberechtigt sein sollten." 
                                                                                                                F101_04 
"Feminismus: Geschlechterstereotypen und Rollenerwartungen sind ein Hindernis für die Gleichstellung der Geschlechter." 
                                                                                                                F101_05 
                        "Feminismus: Es ist wichtig, für Geschlechtergerechtigkeit und Frauenrechte aktiv einzutreten." 
                                                                                                                F101_06 
                                                "Feminismus: Ich würde mich selbst als Feminist/Feministin bezeichnen." 
                                                                                                                F101_07 
                           "Feminismus: Es ist wichtig, dass auch mündlich richtig gegendert wird (Gendersprechpause)." 
                                                                                                                PS01_01 
                                   "Persönlichkeitsstärke S: Gewöhnlich rechne ich bei dem, was ich mache, mit Erfolg." 
                                                                                                                PS01_02 
                                       "Persönlichkeitsstärke S: Ich bin selten unsicher, wie ich mich verhalten soll." 
                                                                                                                PS01_03 
                                                           "Persönlichkeitsstärke S: Ich übernehme gern Verantwortung." 
                                                                                                                PS01_04 
                              "Persönlichkeitsstärke S: Ich übernehme bei gemeinsamen Unternehmungen gern die Führung." 
                                                                                                                PS01_05 
                       "Persönlichkeitsstärke S: Es macht mir Spass, andere Menschen von meiner Meinung zu überzeugen." 
                                                                                                                PS01_06 
                                         "Persönlichkeitsstärke S: Ich merke öfter, dass sich andere nach mir richten." 
                                                                                                                PS01_07 
                                                              "Persönlichkeitsstärke S: Ich kann mich gut durchsetzen." 
                                                                                                                PS01_08 
                                                   "Persönlichkeitsstärke S: Ich bin anderen oft einen Schritt voraus." 
                                                                                                                PS01_09 
                                             "Persönlichkeitsstärke S: Ich besitze vieles, worum mich andere beneiden." 
                                                                                                                PS01_10 
                                                   "Persönlichkeitsstärke S: Ich gebe anderen Ratschläge/Empfehlungen." 
                                                                                                                PS01_11 
                                                   "Persönlichkeitsstärke S: Ich stehe zu meiner persönlichen Meinung." 
                                                                                                                PS01_12 
                                                             "Persönlichkeitsstärke S: Ich bin leicht zu verunsichern." 
                                                                                                                PS04_01 
                                                                                           "Big 5: gründlich arbeitet." 
                                                                                                                PS04_02 
                                                                                 "Big 5: kommunikativ, gesprächig ist." 
                                                                                                                PS04_03 
                                                                           "Big 5: manchmal etwas grob zu anderen ist." 
                                                                                                                PS04_04 
                                                                          "Big 5: originell ist, neue Ideen einbringt." 
                                                                                                                PS04_05 
                                                                                        "Big 5: sich oft Sorgen macht." 
                                                                                                                PS04_06 
                                                                                            "Big 5: zurückhaltend ist." 
                                                                                                                PS04_07 
                                                                                               "Big 5: verzeihen kann." 
                                                                                                                PS04_08 
                                                                                                "Big 5: eher faul ist." 
                                                                                                                PS04_09 
                                                                      "Big 5: aus sich herausgehen kann, gesellig ist." 
                                                                                                                PS04_10 
                                                                            "Big 5: künstlerische Erfahrungen schätzt." 
                                                                                                                PS04_11 
                                                                                           "Big 5: leicht nervös wird." 
                                                                                                                PS04_12 
                                                                      "Big 5: Aufgaben wirksam und effizient erledigt." 
                                                                                                                PS04_13 
                                                             "Big 5: rücksichtsvoll und freundlich mit anderen umgeht." 
                                                                                                                PS04_14 
                                                                    "Big 5: eine lebhafte Fantasie, Vorstellungen hat." 
                                                                                                                PS04_15 
                                                                   "Big 5: entspannt ist, mit Stress gut umgehen kann." 
                                                                                                                R101_01 
                                                                               "RAQ: Statistik bringt mich zum Weinen." 
                                                                                                                R101_02 
                                   "RAQ: Meine Freunde werden denken, ich sei dumm, weil ich nicht mit R umgehen kann." 
                                                                                                                R101_03 
                                                                           "RAQ: Standardabweichungen begeistern mich." 
                                                                                                                R101_04 
                                     "RAQ: Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift." 
                                                                                                                R101_05 
                                                                                   "RAQ: Ich verstehe Statistik nicht." 
                                                                                                                R101_06 
                                                                         "RAQ: Ich habe wenig Erfahrung mit Computern." 
                                                                                                                R101_07 
                                                                                      "RAQ: Alle Computer hassen mich." 
                                                                                                                R101_08 
                                                                                  "RAQ: Ich war noch nie gut in Mathe." 
                                                                                                                R101_09 
                                                                 "RAQ: Meine Freunde sind besser in Statistik als ich." 
                                                                                                                R101_10 
                                                                         "RAQ: Computer sind nur zum Spielen nützlich." 
                                                                                                                R101_11 
                                                                   "RAQ: Ich war in der Schule schlecht in Mathematik." 
                                                                                                                R101_12 
          "RAQ: Leute versuchen dir zu sagen, dass R die Statistik leichter verständlich macht, aber das stimmt nicht." 
                                                                                                                R101_13 
    "RAQ: Ich mache mir Sorgen, dass ich wegen meiner Inkompetenz mit Computern irreparable Schäden verursachen werde." 
                                                                                                                R101_14 
              "RAQ: Computer haben ihren eigenen Willen und gehen absichtlich immer dann kaputt, wenn ich sie benutze." 
                                                                                                                R101_15 
                                                                   "RAQ: Computer sind darauf aus, mich zu überlisten." 
                                                                                                                R101_16 
                                                       "RAQ: Ich weine offen, wenn von zentraler Tendenz die Rede ist." 
                                                                                                                R101_17 
                                                            "RAQ: Ich falle in ein Koma, wenn ich eine Gleichung sehe." 
                                                                                                                R101_18 
                                                           "RAQ: R stürzt immer ab, wenn ich versuche, es zu benutzen." 
                                                                                                                R101_19 
                                                                       "RAQ: Alle schauen mich an, wenn ich R benutze." 
                                                                                                                R101_20 
                                                       "RAQ: Ich kann nicht schlafen, weil ich an Signifikanzen denke." 
                                                                                                                R101_21 
             "RAQ: Ich wache unter meiner Bettdecke auf und denke, dass ich unter einer Normalverteilung gefangen bin." 
                                                                                                                R101_22 
                                                                         "RAQ: Meine Freunde sind besser in R als ich." 
                                                                                                                R101_23 
                                    "RAQ: Wenn ich gut in Statistik bin, werden die Leute denken, ich sei ein Streber." 
                                                                                                                R101_24 
                                              "RAQ: Ich mag Statistik, würde das aber nie vor meinen Freunden zugeben." 
                                                                                                                   SC02 
                                                                                                           "DQ Overall" 
                                                                                                                   SC03 
                                                                                                       "DQ Relunctance" 
                                                                                                                   SC04 
                                                                                             "DQ Meaningless Responses" 
                                                                                                                SC07_01 
                                                                           "Lügenitems: Ich sage immer, was ich denke." 
                                                                                                                SC07_02 
                                        "Lügenitems: Ich bin manchmal ärgerlich, wenn ich meinen Willen nicht bekomme." 
                                                                                                                SC07_03 
                                      "Lügenitems: Ich bin immer gewillt, einen Fehler, den ich mache, auch zuzugeben." 
                                                                                                                SC07_04 
            "Lügenitems: Ich habe gelegentlich mit Absicht etwas gesagt, was die Gefühle des anderen verletzen könnte." 
                                                                                                                SD04_01 
                                                                                     "Alter (Geburtsjahr): Geburtsjahr" 
                                                                                                                   SD05 
                                                                                         "Geschlecht (zum kombinieren)" 
                                                                                                                   SD07 
                                                                                                        "Land (D/A/CH)" 
                                                                                                                SD19_01 
                                                "NullmessungsID: Erste zwei Buchstaben des Vornamens Ihrer Mutter ... " 
                                                                                                                SD19_02 
                                                "NullmessungsID: Erste zwei Buchstaben des Vornamens Ihres Vaters ... " 
                                                                                                                SD19_03 
                                                        "NullmessungsID: Geburtstag im Monat (als Zahl also 1-12) ... " 
                                                                                                                   T101 
                                                                                                                  "OSs" 
                                                                                                                TIME001 
                                                                                                 "Verweildauer Seite 1" 
                                                                                                                TIME002 
                                                                                                 "Verweildauer Seite 2" 
                                                                                                                TIME003 
                                                                                                 "Verweildauer Seite 3" 
                                                                                                                TIME004 
                                                                                                 "Verweildauer Seite 4" 
                                                                                                                TIME005 
                                                                                                 "Verweildauer Seite 5" 
                                                                                                                TIME006 
                                                                                                 "Verweildauer Seite 6" 
                                                                                                                TIME007 
                                                                                                 "Verweildauer Seite 7" 
                                                                                                                TIME008 
                                                                                                 "Verweildauer Seite 8" 
                                                                                                                TIME009 
                                                                                                 "Verweildauer Seite 9" 
                                                                                                                TIME010 
                                                                                                "Verweildauer Seite 10" 
                                                                                                                TIME011 
                                                                                                "Verweildauer Seite 11" 
                                                                                                                TIME012 
                                                                                                "Verweildauer Seite 12" 
                                                                                                                TIME013 
                                                                                                "Verweildauer Seite 13" 
                                                                                                                TIME014 
                                                                                                "Verweildauer Seite 14" 
                                                                                                                TIME015 
                                                                                                "Verweildauer Seite 15" 
                                                                                                                TIME016 
                                                                                                "Verweildauer Seite 16" 
                                                                                                                TIME017 
                                                                                                "Verweildauer Seite 17" 
                                                                                                                TIME018 
                                                                                                "Verweildauer Seite 18" 
                                                                                                               TIME_SUM 
                                                                                 "Verweildauer gesamt (ohne Ausreißer)" 
                                                                                                               LASTDATA 
                                                            "Zeitpunkt als der Datensatz das letzte mal geändert wurde" 
                                                                                                               FINISHED 
                                                           "Wurde die Befragung abgeschlossen (letzte Seite erreicht)?" 
                                                                                                               Q_VIEWER 
                              "Hat der Teilnehmer den Fragebogen nur angesehen, ohne die Pflichtfragen zu beantworten?" 
                                                                                                               LASTPAGE 
                                                                     "Seite, die der Teilnehmer zuletzt bearbeitet hat" 
                                                                                                                MAXPAGE 
                                                                     "Letzte Seite, die im Fragebogen bearbeitet wurde" 
                                                                                                                A202_10 
                                                                                   "Sonstige Fächer: anderes, und zwar" 
                                                                                                                E101_05 
                                                                            "Noten: Statistik einführend andere Fächer" 
                                                                                                                E101_01 
                                                                                      "Noten: Mathematik in der Schule" 
                                                                                                                SD18_01 
                                                                                            "Anmerkungen (offen): [01]" 
                                                                                                                SD07_04 
                                                                                          "Land (D/A/CH): Anderes Land" 
                                                                                                                A201_04 
                                                                                            "Studium: andere, und zwar" 
                                                                                                                E101_06 
                                                                       "Noten: Statistik fortgeschritten andere Fächer"

3.2.1 Schauen Sie sich zwei Variablen an

DATEN  |>
  sjmisc::frq(E102_01, E201_10)

Statistik_Einführung: Statistik Einführung ist mir leichtgefallen. (E102_01) <integer> 
# total N=167 valid N=167 mean=2.58 sd=1.40

Value |                       Label |  N | Raw % | Valid % | Cum. %
-------------------------------------------------------------------
   -9 |           nicht beantwortet |  1 |  0.60 |    0.60 |   0.60
   -2 |               keine Antwort |  0 |  0.00 |    0.00 |   0.60
   -1 |                 weiss nicht |  1 |  0.60 |    0.60 |   1.20
    1 | 1 trifft überhaupt nicht zu | 21 | 12.57 |   12.57 |  13.77
    2 |                           2 | 55 | 32.93 |   32.93 |  46.71
    3 |                           3 | 53 | 31.74 |   31.74 |  78.44
    4 |                           4 | 29 | 17.37 |   17.37 |  95.81
    5 |   5 trifft voll und ganz zu |  7 |  4.19 |    4.19 | 100.00
 <NA> |                        <NA> |  0 |  0.00 |    <NA> |   <NA>

Erwartungen STAT A: Ich möchte viel mehr über Statistik wissen. (E201_10) <integer> 
# total N=167 valid N=167 mean=2.35 sd=1.37

Value |                     Label |  N | Raw % | Valid % | Cum. %
-----------------------------------------------------------------
   -9 |         nicht beantwortet |  1 |  0.60 |    0.60 |   0.60
   -2 |             keine Antwort |  0 |  0.00 |    0.00 |   0.60
   -1 |               weiss nicht |  0 |  0.00 |    0.00 |   0.60
    1 | trifft überhaupt nicht zu | 36 | 21.56 |   21.56 |  22.16
    2 |                         2 | 53 | 31.74 |   31.74 |  53.89
    3 |                         3 | 54 | 32.34 |   32.34 |  86.23
    4 |                         4 | 17 | 10.18 |   10.18 |  96.41
    5 |   trifft voll und ganz zu |  6 |  3.59 |    3.59 | 100.00
 <NA> |                      <NA> |  0 |  0.00 |    <NA> |   <NA>

3.2.2 Schauen Sie sich den Scatterplot an

Schauen Sie sich den Scatterplot an und die Correlation.
Was sehen Sie für ein Problem mit den Daten? Was tun?

 DATEN  |>
  ggpubr::ggscatter(x = "E102_02", y = "E201_10",
    add = "reg.line", cor.coef = TRUE)

3.3 Rechnen Sie

 DATEN  |>
   select(E102_02, E201_10)  |>
   cor()

          E102_02   E201_10
E102_02 1.0000000 0.6815875
E201_10 0.6815875 1.0000000

3.3.1 Rechnen Sie ein Regressionsmodell

 Modell_1 <- lm(E201_10 ~ E102_02, data = DATEN)
 summary(Modell_1)


Call:
lm(formula = E201_10 ~ E102_02, data = DATEN)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.2726 -0.7684 -0.2641  0.7274  2.7274 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.28105    0.16912   7.575 2.60e-12 ***
E102_02      0.49578    0.06668   7.435 5.73e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9151 on 162 degrees of freedom
  (3 observations deleted due to missingness)
Multiple R-squared:  0.2544,    Adjusted R-squared:  0.2498 
F-statistic: 55.28 on 1 and 162 DF,  p-value: 5.729e-12

Wie gross ist R^2?
Wie gross ist die bivariate Korrelation r? (selbst ausrechnen)
Ist der Zusammenhang positiv oder negativ?
Ist der Zusammenhang signifikant?

3.3.2 Verändern Sie das Regressionsmodell

Kopieren Sie den r-Chunk der letzten Folie und setzen Sie andere Variablen ein: Nehmen Sie die Variablen für «Statistik Einführung hat mir Spass gemacht» und erklären Sie damit: «Ich freu mich auf Statistik Aufbau!».

Beantworten Wie wieder die Fragen:

Wie gross ist R^2?
Wie gross ist die bivariate Korrelation r? (selbst ausrechnen)
Ist der Zusammenhang positiv oder negativ?
Ist der Zusammenhang signifikant?

LEF 2

Essayfragen 2

E2.1 Wie ist die Korrelation definiert?

E2.2 Was ist das Analyseziel einer Regression?

E2.3 Wie sind die Regressionskoeffizienten gekennzeichnet? (Welcher Buchstabe)

E2.4 Was ist der Unterschied zwischen BETA und \beta?

E2.5 Was drückt der Standardfehler der Regressionskoeffizienten b aus?

E2.6 Mit welchen Kennwerten kann die Modellgüte insgesamt bewertet werden?

E2.7 Was ist a) R^2_adj. und b) wann würde man es verwenden?

E2.8 Was sagt die Signifikanz des F-Tests für ein Regressionsmodell aus?

MC-Fragen 2

MC 2.2.

MC 2.2: Sind folgende Aussagen richtig oder falsch?

MC_2_1 = [
    ["Die Regressionskoeffizienten (b’s) sind unstandardisiert.", "richtig"],
    ["Die standardisierten Regressionskoeffizienten messen die unbekannten Parameter {tex`\beta`}.", "falsch"],
    ['Die standardisierten Regressionskoeffizienten sind wie Korrelationen interpretierbar.', "richtig"],
    ["Die Standardfehler der b’s sind immer 1.", "falsch"]
]

viewof answers_2_1 = quizInput({
  questions: MC_2_1,
  options: ["richtig", "falsch"]
})

Punkte_2_1 = {
const Sum = 
    (answers_2_1[0] == MC_2_1[0][1])*1 + 
    (answers_2_1[1] == MC_2_1[1][1])*1 + 
    (answers_2_1[2] == MC_2_1[2][1])*1 + 
    (answers_2_1[3] == MC_2_1[3][1])*1 

var Punkte_2_1 = Sum - 2
if (Punkte_2_1 < 1) {Punkte_2_1 = 0}
return(Punkte_2_1)
}

Punkte:

MC 2.2.

MC 2.2: Sind folgende Aussagen richtig oder falsch?

MC_2_2 = [
    ["Das Bestimmtheitsmass R² gibt an, welcher Varianzanteil der AV durch die UV bzw. die UVs erklärt werden kann.", "richtig"],
    ["R²_adj. wird nur bei sehr grossen Stichproben gebraucht, um zufällige Signifikanzen zu vermeiden.", "falsch"],
    ['Der F-Test zum R testet, ob alle UVs signifikant sind.', "falsch"],
    ["Wenn R² kleiner als .05 ist, dann ist die Regression signifikant.", "falsch"]
]

viewof answers_2_2 = quizInput({
  questions: MC_2_2,
  options: ["richtig", "falsch"]
})

Punkte_2_2 = {
const Sum = 
    (answers_2_2[0] == MC_2_2[0][1])*1 + 
    (answers_2_2[1] == MC_2_2[1][1])*1 + 
    (answers_2_2[2] == MC_2_2[2][1])*1 + 
    (answers_2_2[3] == MC_2_2[3][1])*1 

var Punkte_2_2 = Sum - 2
if (Punkte_2_2 < 1) {Punkte_2_2 = 0}
return(Punkte_2_2)
}

Punkte:

MC 2.3.

MC 2.3: Sind folgende Aussagen richtig oder falsch?

MC_2_3 = [
    ["Die standardisierten Regressionskoeffizienten entsprechen bei der bivariaten Regression der Korrelation.", "richtig"],
    ["Die Regressionskoeffizienten b liegen immer zwischen -1 und 1.", "falsch"],
    ['Das Bestimmtheitsmass R² gibt den Prozentanstieg der Regressionsgeraden an.', "falsch"],
    ["Die Konstante in der Regressionsgleichung wird bei multivariaten Modellen auch als b gekennzeichnet.", "richtig"]
]

viewof answers_2_3 = quizInput({
  questions: MC_2_3,
  options: ["richtig", "falsch"]
})

Punkte_2_3 = {
const Sum = 
    (answers_2_3[0] == MC_2_3[0][1])*1 + 
    (answers_2_3[1] == MC_2_3[1][1])*1 + 
    (answers_2_3[2] == MC_2_3[2][1])*1 + 
    (answers_2_3[3] == MC_2_3[3][1])*1 

var Punkte_2_3 = Sum - 2
if (Punkte_2_3 < 1) {Punkte_2_3 = 0}
return(Punkte_2_3)
}

Punkte:

MC 2.4.

MC 2.4: Sind folgende Aussagen richtig oder falsch?

MC_2_4 = [
    ["Bei der multivariaten Regression hängt b auch von der Covarianz der UVs ab", "richtig"],
    ["Wenn es zwei UVs gibt, spricht man schon von «multivariat»", "richtig"],
    ['Wenn ein b signifikant ist, wird auch R² des Gesamtmodells signifikant.', "richtig"],
    ["R² gibt an, wie viel Prozent der Varianz der AV durch alle UVs zusammen erklärt werden können.", "richtig"]
]

viewof answers_2_4 = quizInput({
  questions: MC_2_4,
  options: ["richtig", "falsch"]
})

Punkte_2_4 = {
const Sum = 
    (answers_2_4[0] == MC_2_4[0][1])*1 + 
    (answers_2_4[1] == MC_2_4[1][1])*1 + 
    (answers_2_4[2] == MC_2_4[2][1])*1 + 
    (answers_2_4[3] == MC_2_4[3][1])*1 

var Punkte_2_4 = Sum - 2
if (Punkte_2_4 < 1) {Punkte_2_4 = 0}
return(Punkte_2_4)
}

Punkte:

MC 2.5.

MC 2.5: Sind folgende Aussagen richtig oder falsch?

MC_2_5 = [
    ["R-Studio ist eine Programmiersprache für statistische Analysen.", "falsch"],
    ["R ist eine Benutzer:innenoberfläche für die Programmiersprache R-Studio", "falsch"],
    ['tidyverse ist eine Sammlung von R-Paketen.) signifikant.', "richtig"],
    ["Wenn man Drittvariablen «herausrechnet», werden die anderen b's immer kleiner.", "falsch"]
]

viewof answers_2_5 = quizInput({
  questions: MC_2_5,
  options: ["richtig", "falsch"]
})

Punkte_2_5 = {
const Sum = 
    (answers_2_5[0] == MC_2_5[0][1])*1 + 
    (answers_2_5[1] == MC_2_5[1][1])*1 + 
    (answers_2_5[2] == MC_2_5[2][1])*1 + 
    (answers_2_5[3] == MC_2_5[3][1])*1 

var Punkte_2_5 = Sum - 2
if (Punkte_2_5 < 1) {Punkte_2_5 = 0}
return(Punkte_2_5)
}

Punkte:

MC 2.6.

MC 2.6: Sind folgende Aussagen richtig oder falsch?

MC_2_6 = [
    ["Wenn man Drittvariablen «herausrechnet», werden die anderen b's immer kleiner.", "falsch"],
    ["Für die standardisierten Regressionskoeffizienten können auch Konfidenzintervalle angegeben werden.", "richtig"],
    ['Die Standardfehler von BETAS sind immer 1.', "falsch"],
    ["Regressionen sind eine Form der GLM.", "richtig"]
]

viewof answers_2_6 = quizInput({
  questions: MC_2_6,
  options: ["richtig", "falsch"]
})

Punkte_2_6 = {
const Sum = 
    (answers_2_6[0] == MC_2_6[0][1])*1 + 
    (answers_2_6[1] == MC_2_6[1][1])*1 + 
    (answers_2_6[2] == MC_2_6[2][1])*1 + 
    (answers_2_6[3] == MC_2_6[3][1])*1 

var Punkte_2_6 = Sum - 2
if (Punkte_2_6 < 1) {Punkte_2_6 = 0}
return(Punkte_2_6)
}

Punkte:

Punktemax_2 = 12

Punkte_2_Gesamt = Punkte_2_1 + Punkte_2_2 + Punkte_2_3 + Punkte_2_4 + Punkte_2_5 + Punkte_2_6

Prozent_2 = round(100*Punkte_2_Gesamt/Punktemax_2, 0)

Note_2 = round((round(Punkte_2_Gesamt/Punktemax_2,1)*10+2)/2, 1)

Für LEF 2: von Punkten, was % und etwa einer entspricht.

round = (n, places) => {
  if (!places) return Math.round(n);
  const d = 10 ** places;
  return Math.round(n * d) / d;
}

function quizInput({ questions, options}) {
  let answers = questions.map(() => null);
  let root = htl.html`<div
      style="
        display: grid;
        grid-template-columns: 10% 10% 70% 10%;"
    >
      ${options.map(
        (opt) => htl.html`<div style="font-weight: bold; font-size: HUGE">${opt}</div>`
      )}
      <div style="font-weight: bold">Aussagen</div>
      <div style="font-weight: bold"></div>
      ${Array.from(questions.entries(), ([i, [question, correct]]) =>
        quizInputRow({
          question,
          options,
          correct,
          onChange: (newAnswer) => {
            answers[i] = newAnswer;
            root.value = answers;
            root.dispatchEvent(new CustomEvent("input"));
          }
        })
      )}
    </div>`;
  root.value = answers;
  return root;
}

function quizInputRow({
  question,
  options,
  correct,
  onChange = () => {}
}) {
  let root = htl.html`<div>`;

  function setAnswer(answer, initial = false) {
    morph(
      root,
      htl.html`<div style="display: contents"> 
      <form style="display: contents">
        ${options.map(
          (opt) =>
            htl.html`<label>&emsp;</label> 
            <input  
              name=${question} &emsp;
              type="radio"
              value="${opt}"
              checked=${opt === answer}
              onChange=${() => setAnswer(opt)}
            >
            </input>`
        )}
      </form>
      <div>${question}</div>
      <div> &emsp; ${
       answer === null ? "" : answer === correct ? "💚" : "❌"
      }</div>
    </div>`
    );

    root.value = answer;
    if (!initial) {
      root.dispatchEvent(new CustomEvent("input"));
      onChange(answer);
    }
  }

  setAnswer(null, true);
  return root;
}

morph = require("https://bundle.run/nanomorph@5.4.2")

MathJax = require("https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/MathJax.js?config=TeX-AMS_CHTML")
  .catch(() => window.MathJax)
  .then(MathJax => {
    MathJax.Hub.Config({
      CommonHTML: { scale: 110 }, // scaling to get the same size as katex (but katex still has more spacing between lines...)
      tex2jax: { inlineMath: [["$", "$"], ["\\(", "\\)"]] },
      displayMath: [["$$", "$$"], ["\\[", "\\]"]],
      processEscapes: true,
      TeX: { extensions: ["autoload-all.js"] },
    });
    return new Promise(resolve =>
      MathJax.Hub.Register.StartupHook("End", () => resolve(MathJax))
    );
  })

Take Home

Elemente der Regressionsanalyse
Modell: R^2, R^2_{adj.} F-Wert, F-Test, p-Wert
UVs: B’s, se_b, BETA’s, t-Wert, p-Wert, TOL, VIF
Mit Regressionsanalysen können die linearen Effekte von UVs auf eine AV berechnet werden, wobei die Effekte der UVs gegenseitig kontrolliert werden.
Jedes B steht für eine Hypothese.
Bei der multivariaten Regression werden “Scheinkorrelationen” herausgerechnet.

Ausblick

GLM – BLUE

Voraussetzungen für OLS-Regressionen
Wann sind die b «Best Linear Unbiased Estimators»
Wie mit Verletzungen der Grundannahmen umgehen

Heteroskedastizität

Die Modellschätzung ist nicht für alle Fälle gleich gut.

Multikollinearität

Die UVs sind stark miteinander verbunden (aka konfundiert).