Statistik und Datenanalyse: Aufbau

5. Sitzung – Kategoriale UVs

Benjamin Fretwurst
PDF-Version der Folien

Orga

Orga

  • Es gibt neue Studienteilnahmestudien! Anmelden nicht vergessen!
  • Kennwertliste und beim nächsten Mal
  • Formelsammlung als HTML und später auch als PDF
  • Tutorinnen: Nadia und Katharina

Lernziele

Kategoriale UVs

  • Was tun, wenn man keine metrischen UVs hat, sondern nominale Variablen?
  • dichotome werden zu Dummys
  • kategoriale (aka polytome) werden zu mehreren Dummys
  • Was passiert, wenn man kategoriale und metrische UVs hat?
  • das Simpsons-Paradox

1 Recap

Basisformel bivariat

Y = b_1 + b_2X_2 + e

  • Y: Die abhängige Variable AV
  • X_2: die unabhängige Variable UV
  • b_1: Die Konstante
  • b_2: Der Anstieg der X_2
  • e: Die Error (Fehler bzw. Residuen)

1.1 Skalenniveaus

Skalenniveaus mit Ausprägungen A, B, C

  • metrisch
    • interval (Gleiche Abstände: A - B = C - B)
    • rational (Wenn A = 1, B = 2, C = 3 dann B = 2\cdot A, C = 3\cdot A)
  • ordinal (Rangordnung A < B, B < C, A < C)
  • nominal (Gleichheit und Unterschied A = A, A \neq B)
    • dichotom = (zwei Ausprägungen)
      • generell: nur A und B
      • Dummy: A = 0 und B = 1 (wie metrisch behandelbar)
    • kategorial bzw. polytom = mehrere Ausprägungen
      • X_2 A = 1, B = 2, C = 3
      • D_2 = 1, wenn X_2 = 1; D_3 = 1, wenn X_2 = 2; D_4 = 1, wenn X_2 = 3

1.2 Gruppenvergleich für zwei Mittelwerte

Feminismusskala

Feminismusskala

Verteilung Feminismusindex

Mittelwert und Streuungszerlegung

Die Mittelwerte

gender Mittelwerte Diff_zu_männlich
weiblich 3.888 0.403
männlich 3.486 0.000
is doch völlig egal 4.667 1.181
non-binär 3.786 0.300

t-Test (weiblich zu nicht weiblich)

statistic t_df p_value alternative estimate lower_ci upper_ci
1.366 57.41 0.177 two.sided 0.2 -0.093 0.494

Mittelwert

2 Regression mit einer Dummy

Regression mit Dummy

Y = b_1 + b_2D_2 + e

  • Y: Die abhängige Variable AV (metrisch!)
  • D_2: die unabhängige Variable UV als Dummy
  • b_1: Die Konstante
  • b_2: Der Anstieg der X_2
  • e: Die Error (Fehler bzw. Residuen)

Übertragung Fem-Mean-IDX

Als bivariate Regression

Kategorien B std.error t p.value
Konstante 3.688 0.124 29.747 0.000
weiblich 0.200 0.141 1.420 0.158

Die Gleichung mit einer Dummy

Regressionsgleichung

\begin{align} Fem\_Mean\_IDX & = b_1 + b_2\cdot weiblich + e\\ & \text{das führt zu:}\\ Fem\_Mean\_IDX & = b_1 + b_2 \cdot 0 + e & \text{wenn weiblich = 0 (m)}\\ & = b_1 + b_2 \cdot 1 + e & \text{wenn weiblich = 1 (w)}\\ & \text{also:}\\ Fem\_Mean\_IDX & = b_1 + e & \text{wenn weiblich = 0 (m)}\\ & = (b_1 + b_2) + e & \text{wenn weiblich = 1 (m)} \end{align} b_2 ist also die Mittelwertdifferenz zwischen der 0-Gruppe und der 1-Gruppe. Der Unterschied wird mit einem t-Test in der Regression getestet.

3 Dummys und kategoriale Variablen

Kategoriale umkodieren

Kategoriale Variablen können in Dummys umkodiert (case_match) werden. Für jede Ausprägung der Kategorialen wird eine Dummy angelegt mit 1, wenn die jeweile Ausprägung zutrifft und 0, wenn nicht.

die letzte Dummy ergibt sich

Wenn eine kategoriale 3 Ausprägungen daraus 3 Dummys gebaut werden, ergibt sich die letzte Dummy aus den ersten beiden!

Kategoriale D_A D_B D_C
A 1 0 0
A 1 0 0
B 0 1 0
C 0 0 1
A 1 0 0
B 0 1 0
A 1 0 0

Referenzkategorie weglassen

Wenn wir Dummys für eine Kategoriale in eine Regression aufnehmen wollen, müssen wir immer eine Kategorie weglassen, die wir dann die Referenzkategorie nennen.

Als Gleichung mit einer Dummy für polytom

Regressionsgleichung

\begin{align*} Fem\_Mean\_IDX & = b_1 + b_2 \cdot weiblich + b_3 \cdot nonbinär + e\\ Fem\_Mean\_IDX & = b_1 + e \quad \text{wenn weiblich = 0 und nonbinär = 0 (m)}\\ & = b_1 + b_2 + e \quad \text{wenn weiblich = 1}\\ & = b_1 + b_3 + e \quad \text{wenn nonbinär = 1} \end{align*}

In Worten

Wenn Dummyvariablen für die unterschiedlichen Ausprägugnen einer polytomen Variablen stehen, steht die Konstante für die Referenzkategorie (muss es geben, da sonst perfekte Multikollinearität herrscht). Die übrigen b’s stehen für die Mittelwertdifferenz zwischen den anderen Ausprägungen und der Referenzkategorie und werden mit t-Test (der Regression) auf Signifikanz getestet.

4 Regression mit einer Dummy und einer metrischen UV

Die Gleichung

\begin{align} Y & = b_1 + b_2D_2 + b_3X_3 + e \\ \end{align}

In Worten

Wenn ein Dummyvariable D (zB “gender”) mit b2 in eine Regressionsgleichung eingeführt wird, dann ergeben sich zwei Parralelen mit dem Abstand von b_2.

Regression mit einer Dummy und einer metrischen UV

Die Mittelwert-Indices

  • Stat_Mean_IDX: “Statistik bringt mich zum Weinen”, “Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift.”, “Ich verstehe Statistik nicht”, “Alle Computer hassen mich.”
  • PS_Mean_IDX: Die Persönlichkeitsstärkeskala wie “Ich kann mich gut durchsetzen.” usw.
Kategorien B std.error t p.value
Konstante 3.117 0.544 5.730 0.000
PS_Mean_IDX -0.322 0.174 -1.852 0.066
weiblich 0.938 0.235 3.999 0.000

4.1 Regression mit polytomer UV (zwei Dummys) und metrischer

  Stat_Mean_IDX
Predictors Estimates CI p
(Intercept) 3.07 1.95 – 4.20 <0.001
PS Mean IDX -0.32 -0.66 – 0.03 0.073
weiblich 0.97 0.45 – 1.48 <0.001
nonbinär 0.13 -0.87 – 1.14 0.793
Observations 166
R2 / R2 adjusted 0.113 / 0.097

4.2 Beispiel: Simpsons Paradox

Hintegrund

Beim Simpsons-Paradox haben gibt es mehrere Gruppen den gleichen Anstieg, aber in der UV und der AV unterschiedliche Level. Berücksichtigt man die Gruppen nicht, wird ein falscher Zusammenhang geschätzt. #Unterspezfikation

Bespiel Impfung

Oft haben Gruppen von geimpften Personen eine höhere Sterblichkeit betreffend der Krankheit, gegen die sie sich impfen lassen. Das liegt aber daran, dass sich vulnerable Personen eher impfen lassen.

Take Home – Ausblick – Vokabeln

Take Home

Note

  • Sie wissen, wie man nominale Variablen in Regressionsmodellen interpretiert
  • Sie wissen, was Dummys sind.
  • Sie wissen, warum R eine Kategorie weglässt (Referenz), wenn es kategoriale automatisch in Dummys umkodiert

Ausblick

Wie beschäftigen uns mit Interaktionen zwischen Dummys und metrischen Variablen (slope dummys).

LEF 5

Essayfragen 5

E5.1 Was ist eine Dummyvariable?

E5.2 Wie viele Dummyvariablen brauchen Sie, um die volle Information einer kategorialen Variablen mit vier Ausprägungen abzubilden?

E5.3 Wie würden Sie eine kategoriale UV mit drei Ausprägungen in einer Regressionsgleichung darstellen?

E5.4 Wenn eine Kovariate in einer Regression unterschiedliche Mittelwerte für zwei Gruppen haben soll, wie würden Sie die Regressionsgleichung aufstellen?

E5.5 Was sagt in einer Regression mit einer Dummy als UV a) das b_1 und b) das b_2 aus?

E5.6 Was sagt in einer Regression mit einer Dummy und eine metrischen Variablen das b_2 der Dummy aus?

MC-Fragen 5

MC 5.1.

MC 5.1: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 5.2.

MC 5.2: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 5.3.

MC 5.3: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 5.4.

MC 5.4: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 5.5.

MC 5.5: Sind folgende Aussagen richtig oder falsch?

Punkte:

Insgesamt von Punkten, was % und etwa einer entspricht.

Vokabeln 🔗

:::