Regression – Voraussetzungen für BLUE
Orga
Grundprinzipien der Regression
editor: render-on-save: true
\begin{align} \text{GG: } & Y_i = \beta_1 + \beta_2X_{i2} + U_i \\ \text{Stichprobe: } & Y_i = b_1 \, + b_2X_{i2} \, +e_i \\ \end{align}
Modell und Schätzung
Das Regressionsmodell für die Zusammenhänge in der GG wird durch die Berechnung der b’s in der Stichprobe geschätzt. Die «Variablen» (Y und X) sind fix. Es bleiben nur die b’s zu schätzen, von denen die Lage der Regressionsgerade abhängt und damit die Fehler (Errors) aka Residuen e_i. Subtrahiert man in der Formel oben b_1 + b_2X_{i 2}, erhält man:
e_i = Y_i - (b_1 - b_2X_{i2}), woraus sich b_1 und b_2 ableiten lassen:
\begin{align} b_1 & = \overline{Y} - b_2\overline{X}_2\\ b_2 & = r_{Y2}\frac{S_Y}{S_2}\\b \end{align}
Die b’s sind Stichprobeneigenschaften, wobei b_1 und b_2 an der Realisation der Stichprobe hängen, also «schwanken».
Regressionsgleichung
\begin{align} Y_i&=\beta_1 + \beta_2X_{i2} + \beta_3X_{i3}+U_i\\ Y_i&=b_1 \, + b_2X_{i2} \, + b_3X_{i3} \, + e_i \end{align}
Grundidee OLS
Wir suchen die b’s. Die gesuchten b’s sollen eine Regressionsgerade ergeben, die «optimal» in der Punktwolke der gemessenen Werte liegt. Wir suchen also die b’s, die die kleinsten quadrierten Abweichungen zwischen den vom Modell vorhergesagten und den gemessenen Werten ergibt. Das «Prinzip der kleinsten Quadrate» wird als OLS bezeichnet (Ordenary Least Squares).
\begin{align} \sum_{i=1}^n{e_i^2} & \rightarrow minimal \\ \sum_{i=1}^n{(Y_i - \hat{Y_i})^2} & \rightarrow minimal \end{align}
\begin{align} b_2&=(r_{Y2}-r_{23}r_{Y3})\frac{1}{1-R_{2.3}^2}\frac{S_y}{S_2} \end{align}
In Worten
Der Anstieg der «Regressionsgeraden» für X_2 ergibt sich aus der Korrelation r_{Y2} zwischen X_2 und Y, die um den vermittelten Zusammenhang über die Drittvariable, also das Produkt aus r_{23} und r_{Y3} reduziert wird. Der Rest sind Korrekturen damit, wie stark X_2 von den übrigen Variablen erklärt wird \frac{1}{1-R^2_{2.3}} und quasi die Umkehr der Standardisierung \frac{S_Y}{S_2}.
«Linear Estimator»
Die «Linear Estimator» sind die b’s, also b_1, b_2, … b_k.
«Unbiased»
«Unbiased» bedeutet, dass wir unverzerrte Schätzer, also unverzerrte b’s haben wollen. Die b’s scätzen ihre \betas unverzerrt, wenn die Streuung der b’s um die wahren \betas herum liegen (man sagt auch: «erwartungstreu»).
«Best» bezeichnet die Effizienz der Schätzer b
Die besten Schätzer erhalten wir, wenn die Standardfehler der b’s (se_b) minimal sind.
Die Variablen (X und Y) müssen fix sein
Wir müssen also davon ausgehen, dass die erhobenen Variablen bei einer nächsten Ziehung nicht ganz anders aussehen würden.
im U_i darf nur Rauschen sein
Es darf im Unbekannten U_i keine Variable stecken, die mit den UV’s korreliert. Der Erwartungswert dieser Covarianz muss 0 sein: E(C_{2U}) = 0 = E(C_{3U}).
Modellspezifikation
Wir sollten aus der Theorie und in der Operationalisierung keine Variable vergessen, die mit den UVs zusammenhängt! Theoriearbeit besteht in der Suche nach der vollen Modellspezifikation! Die perfekte Modellspezifikation wäre das Ende der Forschung zu einem fixen Phänomen.
Die Grösse des Bias bei Unterspezifikation
Gibt es eine X_{i4} mit einem wahren \beta_4 und ist dieses mit X_2 sowie Y korreliert, dann ist b_2 ein verzerrter Schätzer für \beta_2.
Verzerrung von b_2 wenn eine Einflussgrösse X_4 nicht mitgeschätzt wird
\begin{align} \text{wahr:\ } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} + \beta_4X_{i4}+U_i\\ \text{geschätzt:\ } Y_i=&\beta_1 + \beta_2X_{i2} + \beta_3X_{i3} +U^\star_i \text{\quad wobei \quad } U^\star_i = \beta_4X_{i4}+U_i\\ \rightarrow E(b_2) =& \beta_2 + \beta_4b_{42}\\ \text{mit:\ } b_{42}=&\frac{r_{42}-r_{32}r_{43}}{1-r^2_{32}}\sqrt{\frac{V_4}{V_2}} \end{align}
Definition
Multikollinearität bedeutet, dass die Varianz einer Variablen durch eine oder mehrere übrige UVs teilweise aufgeklärt wird.
herausgerechnete Erklärungskraft
Wird einer Variablen viel Erklärungsvarianz (R_{2.34...}) weggerechnet, dann hat sie kaum noch welche, um die AV zu erklären.
Wann ein Problem
Fehlervarianz von b_2
s_{b_2}^2=\frac{s_e^2}{n}\cdot\frac{1}{V_2}\cdot\frac{1}{1-R_{2.34...}^2}
Die Fehlerstreuung des Regressionskoeffizienten b ist proportional zur Streuung der Fehler e_i und umgekehrt proportional zur Fallzahl n, der Varianz V_2 (also von X_2) und zu Multikollinearität bzw. Toleranz TOL = 1-R^2_{2.34...}.
Toleranz ist die exklusive Varianz einer UV
TOL_{b_2} = 1-R^2_{2.34...}
Toleranz ist der Prozentsatz Varianz, der nicht durch die übrigen UVs rausgerechnet wird.
Der Varianz-Inflation-Factor VIF
VIF_{b_2} = \frac{1}{(1-R^2_{2.34...})} = \frac{1}{TOL_{b_2}}
Probleme
Lösungen
Normalverteilung und Unabhängigkeit der Residuen
Schaut man sich visuell an. Wenn sie stark verletzt ist (z.B. bimodal) oder extrem schief, dann andere Methode.
Unabhängigkeit der Fehler
Die Fehler können nur voneinander abhängig sein, bei zeitlich geordneten Erhebungen, also Zeitreihenanalysen. Das braucht uns also erstmal nicht kümmern.
editor: render-on-save: true
title
«Erste Regression»)Kopieren Sie in Ihre Datei:
## die einfache Variante
install.packages("tidyverse")
## die Quelle mit angegeben und alle abhängigen Pakete mit installieren
install.packages(c("ggpubr", "corrr", "olsrr"),
repos = "https://cloud.r-project.org/",
dependencies = TRUE)
## damit auch Developer-Versionen installiert werden können:
install.packages("devtools")
## Versuch über die Developer-Versionen
devtools::install_github("kassambara/ggpubr", force = TRUE)
# wird nur installiert, wenn es nicht schon in der aktuellsten Version da ist. Sonst auch forcen.
devtools::install_github("strengejacke/sjmisc")
devtools::install_github("strengejacke/sjlabelled")
devtools::install_github("joon-e/soscisurvey")
Laden Sie den Fragebogen hier runter und schauen ihn an.
Laden Sie die Daten und lassen Sie mal die Variablenlabel raus:
CASE
"Interview-Nummer (fortlaufend)"
QUESTNNR
"Fragebogen, der im Interview verwendet wurde"
MODE
"Interview-Modus"
STARTED
"Zeitpunkt zu dem das Interview begonnen hat (Europe/Berlin)"
A006
"Consent"
A101
"Eisbrecher"
A201
"Studium"
A202
"Sonstige Fächer"
E101_02
"Noten: Statistik \"Einführung\" KW"
E101_02a
"Noten: Statistik \"Einführung\" KW: hatte ich nicht/ weiss nicht mehr"
E101_05a
"Noten: Statistik einführend andere Fächer: hatte ich nicht/ weiss nicht mehr"
E101_06a
"Noten: Statistik fortgeschritten andere Fächer: hatte ich nicht/ weiss nicht mehr"
E101_01a
"Noten: Mathematik in der Schule: hatte ich nicht/ weiss nicht mehr"
E101_03
"Noten: Informatik in der Schule"
E101_03a
"Noten: Informatik in der Schule: hatte ich nicht/ weiss nicht mehr"
E101_04
"Noten: Gesamtnote Matura"
E101_04a
"Noten: Gesamtnote Matura: hatte ich nicht/ weiss nicht mehr"
E102_01
"Statistik_Einführung: Statistik Einführung ist mir leichtgefallen."
E102_02
"Statistik_Einführung: Statistik Einführung hat mir viel Spass gemacht."
E102_03
"Statistik_Einführung: Für mich schaffen Formeln erst echte Klarheit und Präzision."
E102_04
"Statistik_Einführung: Die Arbeit mit R fand ich schrecklich."
E102_05
"Statistik_Einführung: Von Formeln bekomme ich Panikattacken."
E102_06
"Statistik_Einführung: Statistik braucht ich nach dem Studium sicher nie wieder!"
E201_01
"Erwartungen STAT A: Ich habe Angst vor Statistik Aufbau!"
E201_02
"Erwartungen STAT A: Ich freu mich auf Statistik Aufbau!"
E201_03
"Erwartungen STAT A: Statistik Einführung ist mir leichtgefallen."
E201_04
"Erwartungen STAT A: Statistik Einführung hat mir Spass gemacht."
E201_06
"Erwartungen STAT A: Es hat mir Spass gemacht, mit R zu arbeiten."
E201_07
"Erwartungen STAT A: Die Arbeit mit R fand ich schrecklich."
E201_08
“Erwartungen STAT A: Ich will in Statistik Aufbau nur die Prüfung bestehen. Über eine 4.0 wäre ich schon glücklich.” E201_09 “Erwartungen STAT A: Ich will in Statistik Aufbau mit einer 6.0 abschliessen und tue alles dafür.” E201_10 “Erwartungen STAT A: Ich möchte viel mehr über Statistik wissen.” E201_11 “Erwartungen STAT A: Ich freue mich schon darauf, nach dem Semester alles wieder über Statistik zu vergessen.” E201_12 “Erwartungen STAT A: Formeln schrecken mich total ab.” E201_13 “Erwartungen STAT A: Für mich schaffen Formeln erst echte Klarheit und Präzision.” E201_14 “Erwartungen STAT A: Ich will nach dem Studium Data-Scientist:in werden!” E202_15 “Erwartungen ML: Ich finde das Thema Machine Learning spannend.” E202_16 “Erwartungen ML: Gerne würde ich selbst Machine-Learning-Modelle bauen können.” E202_14 “Erwartungen ML: Ich will nach dem Studium im Bereich Data Science arbeiten.” E202_17 “Erwartungen ML: Ich fände es interessant, nach dem Studium als Assistentin wissenschaftlich an der Uni zu arbeiten.” E202_18 “Erwartungen ML: Ich suche mir sicher einen Job, bei dem ich nie wieder etwas mit Statistik zu tun habe.” E202_19 “Erwartungen ML: Das einzige was mich beim Learning interessiert ist meine Kaffee Machine.” F101_01 “Feminismus: Ich unterstütze die Ideen und Ziele des Feminismus.” F101_02 “Feminismus: Geschlechterungleichheit ist ein ernsthaftes gesellschaftliches Problem.” F101_03 “Feminismus: Ich glaube, dass Frauen und Männer in allen Bereichen des Lebens gleichberechtigt sein sollten.” F101_04 “Feminismus: Geschlechterstereotypen und Rollenerwartungen sind ein Hindernis für die Gleichstellung der Geschlechter.” F101_05 “Feminismus: Es ist wichtig, für Geschlechtergerechtigkeit und Frauenrechte aktiv einzutreten.” F101_06 “Feminismus: Ich würde mich selbst als Feminist/Feministin bezeichnen.” F101_07 “Feminismus: Es ist wichtig, dass auch mündlich richtig gegendert wird (Gendersprechpause).” PS01_01 “Persönlichkeitsstärke S: Gewöhnlich rechne ich bei dem, was ich mache, mit Erfolg.” PS01_02 “Persönlichkeitsstärke S: Ich bin selten unsicher, wie ich mich verhalten soll.” PS01_03 “Persönlichkeitsstärke S: Ich übernehme gern Verantwortung.” PS01_04 “Persönlichkeitsstärke S: Ich übernehme bei gemeinsamen Unternehmungen gern die Führung.” PS01_05 “Persönlichkeitsstärke S: Es macht mir Spass, andere Menschen von meiner Meinung zu überzeugen.” PS01_06 “Persönlichkeitsstärke S: Ich merke öfter, dass sich andere nach mir richten.” PS01_07 “Persönlichkeitsstärke S: Ich kann mich gut durchsetzen.” PS01_08 “Persönlichkeitsstärke S: Ich bin anderen oft einen Schritt voraus.” PS01_09 “Persönlichkeitsstärke S: Ich besitze vieles, worum mich andere beneiden.” PS01_10 “Persönlichkeitsstärke S: Ich gebe anderen Ratschläge/Empfehlungen.” PS01_11 “Persönlichkeitsstärke S: Ich stehe zu meiner persönlichen Meinung.” PS01_12 “Persönlichkeitsstärke S: Ich bin leicht zu verunsichern.” PS04_01 “Big 5: gründlich arbeitet.” PS04_02 “Big 5: kommunikativ, gesprächig ist.” PS04_03 “Big 5: manchmal etwas grob zu anderen ist.” PS04_04 “Big 5: originell ist, neue Ideen einbringt.” PS04_05 “Big 5: sich oft Sorgen macht.” PS04_06 “Big 5: zurückhaltend ist.” PS04_07 “Big 5: verzeihen kann.” PS04_08 “Big 5: eher faul ist.” PS04_09 “Big 5: aus sich herausgehen kann, gesellig ist.” PS04_10 “Big 5: künstlerische Erfahrungen schätzt.” PS04_11 “Big 5: leicht nervös wird.” PS04_12 “Big 5: Aufgaben wirksam und effizient erledigt.” PS04_13 “Big 5: rücksichtsvoll und freundlich mit anderen umgeht.” PS04_14 “Big 5: eine lebhafte Fantasie, Vorstellungen hat.” PS04_15 “Big 5: entspannt ist, mit Stress gut umgehen kann.” R101_01 “RAQ: Statistik bringt mich zum Weinen.” R101_02 “RAQ: Meine Freunde werden denken, ich sei dumm, weil ich nicht mit R umgehen kann.” R101_03 “RAQ: Standardabweichungen begeistern mich.” R101_04 “RAQ: Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift.” R101_05 “RAQ: Ich verstehe Statistik nicht.” R101_06 “RAQ: Ich habe wenig Erfahrung mit Computern.” R101_07 “RAQ: Alle Computer hassen mich.” R101_08 “RAQ: Ich war noch nie gut in Mathe.” R101_09 “RAQ: Meine Freunde sind besser in Statistik als ich.” R101_10 “RAQ: Computer sind nur zum Spielen nützlich.” R101_11 “RAQ: Ich war in der Schule schlecht in Mathematik.” R101_12 “RAQ: Leute versuchen dir zu sagen, dass R die Statistik leichter verständlich macht, aber das stimmt nicht.” R101_13 “RAQ: Ich mache mir Sorgen, dass ich wegen meiner Inkompetenz mit Computern irreparable Schäden verursachen werde.” R101_14 “RAQ: Computer haben ihren eigenen Willen und gehen absichtlich immer dann kaputt, wenn ich sie benutze.” R101_15 “RAQ: Computer sind darauf aus, mich zu überlisten.” R101_16 “RAQ: Ich weine offen, wenn von zentraler Tendenz die Rede ist.” R101_17 “RAQ: Ich falle in ein Koma, wenn ich eine Gleichung sehe.” R101_18 “RAQ: R stürzt immer ab, wenn ich versuche, es zu benutzen.” R101_19 “RAQ: Alle schauen mich an, wenn ich R benutze.” R101_20 “RAQ: Ich kann nicht schlafen, weil ich an Signifikanzen denke.” R101_21 “RAQ: Ich wache unter meiner Bettdecke auf und denke, dass ich unter einer Normalverteilung gefangen bin.” R101_22 “RAQ: Meine Freunde sind besser in R als ich.” R101_23 “RAQ: Wenn ich gut in Statistik bin, werden die Leute denken, ich sei ein Streber.” R101_24 “RAQ: Ich mag Statistik, würde das aber nie vor meinen Freunden zugeben.” SC02 “DQ Overall” SC03 “DQ Relunctance” SC04 “DQ Meaningless Responses” SC07_01 “Lügenitems: Ich sage immer, was ich denke.” SC07_02 “Lügenitems: Ich bin manchmal ärgerlich, wenn ich meinen Willen nicht bekomme.” SC07_03 “Lügenitems: Ich bin immer gewillt, einen Fehler, den ich mache, auch zuzugeben.” SC07_04 “Lügenitems: Ich habe gelegentlich mit Absicht etwas gesagt, was die Gefühle des anderen verletzen könnte.” SD04_01 “Alter (Geburtsjahr): Geburtsjahr” SD05 “Geschlecht (zum kombinieren)” SD07 “Land (D/A/CH)” SD19_01 “NullmessungsID: Erste zwei Buchstaben des Vornamens Ihrer Mutter …” SD19_02 “NullmessungsID: Erste zwei Buchstaben des Vornamens Ihres Vaters …” SD19_03 “NullmessungsID: Geburtstag im Monat (als Zahl also 1-12) …” T101 “OSs” TIME001 “Verweildauer Seite 1” TIME002 “Verweildauer Seite 2” TIME003 “Verweildauer Seite 3” TIME004 “Verweildauer Seite 4” TIME005 “Verweildauer Seite 5” TIME006 “Verweildauer Seite 6” TIME007 “Verweildauer Seite 7” TIME008 “Verweildauer Seite 8” TIME009 “Verweildauer Seite 9” TIME010 “Verweildauer Seite 10” TIME011 “Verweildauer Seite 11” TIME012 “Verweildauer Seite 12” TIME013 “Verweildauer Seite 13” TIME014 “Verweildauer Seite 14” TIME015 “Verweildauer Seite 15” TIME016 “Verweildauer Seite 16” TIME017 “Verweildauer Seite 17” TIME018 “Verweildauer Seite 18” TIME_SUM “Verweildauer gesamt (ohne Ausreißer)” LASTDATA “Zeitpunkt als der Datensatz das letzte mal geändert wurde” FINISHED “Wurde die Befragung abgeschlossen (letzte Seite erreicht)?” Q_VIEWER “Hat der Teilnehmer den Fragebogen nur angesehen, ohne die Pflichtfragen zu beantworten?” LASTPAGE “Seite, die der Teilnehmer zuletzt bearbeitet hat” MAXPAGE “Letzte Seite, die im Fragebogen bearbeitet wurde” A202_10 “Sonstige Fächer: anderes, und zwar” E101_05 “Noten: Statistik einführend andere Fächer” E101_01 “Noten: Mathematik in der Schule” SD18_01 “Anmerkungen (offen): [01]” SD07_04 “Land (D/A/CH): Anderes Land” A201_04 “Studium: andere, und zwar” E101_06 “Noten: Statistik fortgeschritten andere Fächer”
Call: lm(formula = E201_10 ~ E102_02, data = DATEN)
Residuals: Min 1Q Median 3Q Max -1.2726 -0.7684 -0.2641 0.7274 2.7274
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.28105 0.16912 7.575 2.60e-12 E102_02 0.49578 0.06668 7.435 5.73e-12 —
Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1
Residual standard error: 0.9151 on 162 degrees of freedom (3 observations deleted due to missingness) Multiple R-squared: 0.2544, Adjusted R-squared: 0.2498 F-statistic: 55.28 on 1 and 162 DF, p-value: 5.729e-12
Was sehen Sie?
Kopieren Sie den r-Chunk der letzten Folie und setzen Sie andere Variablen ein: Nehmen Sie die Variablen für «Statistik Einführung hat mir Spass gemacht» und erklären Sie damit: «Ich freu mich auf Statistik Aufbau!».
Beantworten wieder die Fragen:
Note
Lassen Sie die Korrelationen durchlaufen, schauen Sie sich an, wo was steht und setzen Sie es in die Formel für b_2 ?@eq-FormelFuerBs, um es zu berechnen.
Means, standard deviations, and correlations with confidence intervals
Variable M SD 1 2
1. E201_10 2.35 1.37
E102_02 2.19 1.42 .68**
[.59, .76]
E102_04 3.53 1.61 .25** .23**
[.10, .39] [.08, .37]
Note. M and SD are used to represent mean and standard deviation, respectively. Values in square brackets indicate the 95% confidence interval. The confidence interval is a plausible range of population correlations that could have caused the sample correlation (Cumming, 2014). * indicates p < .05. ** indicates p < .01.
Modell1 <- lm(E201_10 ~ E102_02 + E102_04, data = DATEN)
summary(Modell1, digits = digits, maxsum = maxsum)
Call: lm(formula = E201_10 ~ E102_02 + E102_04, data = DATEN)
Residuals: Min 1Q Median 3Q Max -1.3852 -0.7194 -0.2281 0.5642 2.7439
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.57016 0.32129 4.887 2.46e-06 E102_02 0.47210 0.07031 6.714 3.08e-10 E102_04 -0.06458 0.06102 -1.058 0.292
Signif. codes: 0 ‘’ 0.001 ’’ 0.01 ’’ 0.05 ‘.’ 0.1 ’ ’ 1 |
---|
R 0.509 RMSE 0.915 R-Squared 0.260 Coef. Var 37.790 Adj. R-Squared 0.250 MSE 0.837 Pred R-Squared 0.235 MAE 0.736 |
RMSE: Root Mean Square Error MSE: Mean Square Error MAE: Mean Absolute Error
Sum of
Squares DF Mean Square F Sig.
Regression 47.235 2 23.617 28.221 0.0000 |
Residual 134.735 161 0.837 |
Total 181.970 163 |
(Intercept) 1.570 0.321 4.887 0.000 0.936 2.205 E102_02 0.472 0.070 0.480 6.714 0.000 0.333 0.611 E102_04 -0.065 0.061 -0.076 -1.058 0.292 -0.185 0.056 —————————————————————————————
Variables Tolerance VIF 1 E102_02 0.8987008 1.112717 2 E102_04 0.8987008 1.112717
Breusch Pagan Test for Heteroskedasticity |
---|
Ho: the variance is constant |
Ha: the variance is not constant |
Data |
---|
Response : E201_10 |
Variables: fitted values of E201_10 |
Test Summary |
---|
DF = 1 |
Chi2 = 2.305095 |
Prob > Chi2 = 0.1289504 |
Was sagt Ihnen das?
Was ist Ihr Fazit aus der Regressionsrechnung?
Predictors | B | std.error | BETA | t | p |
---|---|---|---|---|---|
(Intercept) | 1.57 | 0.32 | --- | 4.89 | 0.00 |
E102_02 | 0.47 | 0.07 | 0.48 | 6.71 | 0.00 |
E102_04 | -0.06 | 0.06 | -0.08 | -1.06 | 0.29 |
a R² = 0.25 (F = 28, df = 161, p = 161), R²adj. = 0.25 |
E3.1 Welches sind die Voraussetzungen für die Schätzung von Regressionen?
E3.2 Was bedeutet «Bias»?
E3.3 Was sagt Ihnen der Toleranzwert TOL?
E3.4 Was bedeutet Multikollinearität?
E3.5 Welche Kennwerte kennen Sie, mit denen Sie Multikollinearität abschätzen können?
E3.6 Wie reagieren a) p-Werte und b) Konfidenzintervalle auf Multikolliniearität?
E3.7 Warum kann man die volle Modellspezifikation nicht überprüfen?
E3.8 Was haben Theoriearbeit und Modellspezifikation miteinander zu tun?
E3.9 Was bedeutet es, dass die Variablen fix sein sollen?
MC 3.1: Sind folgende Aussagen richtig oder falsch?
MC_3_1 = [
["Mit OLS werden die Voraussetzungen für Regressionen geprüft.", "falsch"],
["Die Regressionskoeffizienten werden verzerrt geschätzt, wenn die Variablen nicht fix sind. ", "richtig"],
["Bivariate Regressionen sind in der Regel unterspezifiziert.", "richtig"],
["Die Suche nach der vollständigen Modellspezifikation macht wissenschaftlichen Fortschritt aus.", "richtig"]
]
viewof answers_3_1 = quizInput({
questions: MC_3_1,
options: ["richtig", "falsch"]
})
Punkte_3_1 = {
const Sum =
(answers_3_1[0] == MC_3_1[0][1])*1 +
(answers_3_1[1] == MC_3_1[1][1])*1 +
(answers_3_1[2] == MC_3_1[2][1])*1 +
(answers_3_1[3] == MC_3_1[3][1])*1
var Punkte_3_1 = Sum - 2
if (Punkte_3_1 < 1) {Punkte_3_1 = 0}
return(Punkte_3_1)
}
Punkte:
MC 3.2: Sind folgende Aussagen richtig oder falsch?
MC_3_2 = [
["BLUE ist das Akronym für Beta Linear Unknown Error.", "falsch"],
["Ist die Multikollinearität stark (TOL < .5) ist der Standardfehler des b inflationiert, der p-Wert grösser und das KI grösser. ", "richtig"],
["Wenn die Multikollinearität perfekt ist, ist das Modell-R² = 1.", "falsch"],
["Multikollinearität betrifft oft nur zwei Variablen gegenseitig.", "richtig"]
]
viewof answers_3_2 = quizInput({
questions: MC_3_2,
options: ["richtig", "falsch"]
})
Punkte_3_2 = {
const Sum =
(answers_3_2[0] == MC_3_2[0][1])*1 +
(answers_3_2[1] == MC_3_2[1][1])*1 +
(answers_3_2[2] == MC_3_2[2][1])*1 +
(answers_3_2[3] == MC_3_2[3][1])*1
var Punkte_3_2 = Sum - 2
if (Punkte_3_2 < 1) {Punkte_3_2 = 0}
return(Punkte_3_2)
}
Punkte:
MC 3.3: Sind folgende Aussagen richtig oder falsch?
MC_3_3 = [
["Homoskedastitzität beschreibt die Anforderung, dass die Residuen normalverteilt sind.", "falsch"],
["Heteroskedastizität lässt die Standardfehler der b's verzerrt schätzen.", "richtig"],
["Homoskedastizität ist oft eine Folge nichtlinearer Zusammenhänge. ", "falsch"],
["Nichtlineare Zusammenhänge können nicht mit linearen Modellen analysiert werden.", "falsch"]
]
viewof answers_3_3 = quizInput({
questions: MC_3_3,
options: ["richtig", "falsch"]
})
Punkte_3_3 = {
const Sum =
(answers_3_3[0] == MC_3_3[0][1])*1 +
(answers_3_3[1] == MC_3_3[1][1])*1 +
(answers_3_3[2] == MC_3_3[2][1])*1 +
(answers_3_3[3] == MC_3_3[3][1])*1
var Punkte_3_3 = Sum - 2
if (Punkte_3_3 < 1) {Punkte_3_3 = 0}
return(Punkte_3_3)
}
Punkte:
MC 3.4: Sind folgende Aussagen richtig oder falsch?
MC_3_4 = [
["Jede UV muss normalverteilt sein, damit Regressionen gerechnet werden dürfen.", "falsch"],
["Die abhängige Variable muss metrisch sein, um eine einfache Regression rechnen zu dürfen.", "richtig"],
["Wenn die Residuen normalverteilt sind, dürfen keine Regressionen gerechnet werden. ", "falsch"],
["Bei Querschnitterhebungen spielt die Anforderung untereinander unabhängiger Fehler keine Rolle.", "richtig"]
]
viewof answers_3_4 = quizInput({
questions: MC_3_4,
options: ["richtig", "falsch"]
})
Punkte_3_4 = {
const Sum =
(answers_3_4[0] == MC_3_4[0][1])*1 +
(answers_3_4[1] == MC_3_4[1][1])*1 +
(answers_3_4[2] == MC_3_4[2][1])*1 +
(answers_3_4[3] == MC_3_4[3][1])*1
var Punkte_3_4 = Sum - 2
if (Punkte_3_4 < 1) {Punkte_3_4 = 0}
return(Punkte_3_4)
}
Punkte:
MC 3.5: Sind folgende Aussagen richtig oder falsch?
MC_3_5 = [
["Die Normalverteilung der Residuen schaut man sich in Statistikpaketen visuel an.", "richtig"],
["Wenn ein b nicht signifikant ist, dann gibt es keine Beziehung zwischen zwei Variablen.", "falsch"],
["Die Linearität der Beziehungen ist eine Eigenschaft jeder UV auf die AV.", "richtig"],
["Der VIF gibt an, um welchen Faktor die Fehlervarianz bei Multikollinearität grösser ist, als ohne Multikollinearität.", "richtig"]
]
viewof answers_3_5 = quizInput({
questions: MC_3_5,
options: ["richtig", "falsch"]
})
Punkte_3_5 = {
const Sum =
(answers_3_5[0] == MC_3_5[0][1])*1 +
(answers_3_5[1] == MC_3_5[1][1])*1 +
(answers_3_5[2] == MC_3_5[2][1])*1 +
(answers_3_5[3] == MC_3_5[3][1])*1
var Punkte_3_5 = Sum - 2
if (Punkte_3_5 < 1) {Punkte_3_5 = 0}
return(Punkte_3_5)
}
Punkte:
MC 3.6: Sind folgende Aussagen richtig oder falsch?
MC_3_6 = [
["Wenn eine UV wenig Varianz hat, ist der Standardfehler seines Regressionskoeffizienten gross.", "richtig"],
["Je grösser die Multikollinearität zwischen einer UV und den übrigen Variablen im Modell, desto grösser der Standardfehler seines Regressionskoeffizienten.", "richtig"],
["Der VIF ist umgekehrt proportinal zum TOL.", "richtig"],
["Wenn man die Fallzahl der Stichprobe verdoppelt, halbieren sich die Standardfehler der b's.", "falsch"]
]
viewof answers_3_6 = quizInput({
questions: MC_3_6,
options: ["richtig", "falsch"]
})
Punkte_3_6 = {
const Sum =
(answers_3_6[0] == MC_3_6[0][1])*1 +
(answers_3_6[1] == MC_3_6[1][1])*1 +
(answers_3_6[2] == MC_3_6[2][1])*1 +
(answers_3_6[3] == MC_3_6[3][1])*1
var Punkte_3_6 = Sum - 2
if (Punkte_3_6 < 1) {Punkte_3_6 = 0}
return(Punkte_3_6)
}
Punkte:
Punkte_3_max = 12
Punkte_3_Gesamt = Punkte_3_1 + Punkte_3_2 + Punkte_3_3 + Punkte_3_4 + Punkte_3_5 + Punkte_3_6
Prozent_3_Gesamt = round(100*Punkte_3_Gesamt/Punkte_3_max, 0)
Note_3_grob = round((round(Punkte_3_Gesamt/Punkte_3_max,1)*10+2)/2, 1)
Insgesamt von Punkten, was % und etwa einer entspricht.
round = (n, places) => {
if (!places) return Math.round(n);
const d = 10 ** places;
return Math.round(n * d) / d;
}
function quizInput({ questions, options}) {
let answers = questions.map(() => null);
let root = htl.html`<div
style="
display: grid;
grid-template-columns: 10% 10% 70% 10%;"
>
${options.map(
(opt) => htl.html`<div style="font-weight: bold; font-size: HUGE">${opt}</div>`
)}
<div style="font-weight: bold">Aussagen</div>
<div style="font-weight: bold"></div>
${Array.from(questions.entries(), ([i, [question, correct]]) =>
quizInputRow({
question,
options,
correct,
onChange: (newAnswer) => {
answers[i] = newAnswer;
root.value = answers;
root.dispatchEvent(new CustomEvent("input"));
}
})
)}
</div>`;
root.value = answers;
return root;
}
function quizInputRow({
question,
options,
correct,
onChange = () => {}
}) {
let root = htl.html`<div>`;
function setAnswer(answer, initial = false) {
morph(
root,
htl.html`<div style="display: contents">
<form style="display: contents">
${options.map(
(opt) =>
htl.html`<label> </label>
<input
name=${question}  
type="radio"
value="${opt}"
checked=${opt === answer}
onChange=${() => setAnswer(opt)}
>
</input>`
)}
</form>
<div>${question}</div>
<div>   ${
answer === null ? "" : answer === correct ? "💚" : "❌"
}</div>
</div>`
);
root.value = answer;
if (!initial) {
root.dispatchEvent(new CustomEvent("input"));
onChange(answer);
}
}
setAnswer(null, true);
return root;
}
morph = require("https://bundle.run/nanomorph@5.4.2")
Note
Übung 1 (a und b)
:::
Fretwurst | Statistik Aufbau: GLM – BLUE