Statistik und Datenanalyse: Aufbau

8. Sitzung – Dimensionsreduktion

Benjamin Fretwurst
PDF-Version der Folien

Orga

Photo courtesy of Lisa Vogel

R-Probleme und allgemeine Fragen

  • Allgemeine Fragen bitte ins Forum ⏎ entsprechende Teams-Anfragen oder Emails beantworte ich nicht mehr.

  • NICHT BLOSS SCREENSHOTS bei R-Problemen!!!

  • R-Übung 3 am Ende der Folien und auf unserer Seite unter 9 «Übung: Dimensionsreduktion».

  • LEF 8: Wesentlich zum Text Song et al. (2004).

Lernziele

Faktorenanalyse

  • Ziele von Faktorenanalysen
    • stark multikollineare UVs zusammenfassen
    • Indexbildung
    • latente Konstrukte identifizieren
    • latente Konstrukte prüfen
  • Faktorenextraktion explorativ
  • Indexbildung mit Faktorenanalyse
  • konfirmatorische Faktorenanalyse
  • Lesen von EFA und Regressionsdokumentationen

1 Messung und Analyse latenter Faktoren

Was geht? … mit Faktorenanalysen!

  • Mit Faktorenanalysen können latente Einflüsse explorativ gefunden werden.
  • Die Messung latenter Konstrukte kann (konfirmatorisch) geprüft werden.
  • Mit Faktorenanalysen können Indices gebaut werden.
  • Wenn UVs in Regressionsmodellen hoch multikollinear sind, können sie zu unkorrelierten Faktoren zusammengefasst werden.

Methoden – Einführung – Indices

Dimensionen

1.1 Multikollinearität und Dimensionsreduktion

Multikollinearität

In einem Koordinationsystem macht jede Variable eine Dimension auf, also 3 Variablen, 3 Achsen → 3D.

Korrelieren die Variablen stark miteinander, liegen sie auf einer Geraden, die nur eine Dimension hat. Man kann die Variablen auf diese eine Dimension reduzieren. Dann müssen wir uns nur noch um eine Variable (Index) «kümmern», statt um drei! Wir versuchen also eine Dimensionsreduktion.

1.2 R-Angstskala in unserer Befragung

Wenn wir mehrere Variablen (zB einer Skala) zu einer reduzieren können, können wir damit Multikollinearitätsprobleme lösen können.

R-Angstskala in DE-Adaption
x
R101_16 RAQ: Ich weine offen, wenn von zentraler Tendenz die Rede ist.
R101_17 RAQ: Ich falle in ein Koma, wenn ich eine Gleichung sehe.
R101_03 RAQ: Standardabweichungen begeistern mich.
R101_04 RAQ: Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift.
R101_20 RAQ: Ich kann nicht schlafen, weil ich an Signifikanzen denke.
R101_21 RAQ: Ich wache unter meiner Bettdecke auf und denke, dass ich unter einer Normalverteilung gefangen bin.
R101_23 RAQ: Wenn ich gut in Statistik bin, werden die Leute denken, ich sei ein Streber.
R101_24 RAQ: Ich mag Statistik, würde das aber nie vor meinen Freunden zugeben.

Korrelationsmatrix

Fragen, die die FA beantwortet

Wie viel geht bei der Dimensionsreduktion durch die Faktoren verloren, bzw. was wird abgebildet?

Mit der Gesamtlösung kann man schauen, welchen Anteil der Varianz aller Faktoren durch die Faktorlösung abgebildet wird.

Wie gut werden die Variablen durch die Faktoren abgebildet?

Die Kommunalitäten und «Uniqueness» geben an, wie gut jede Variable durch die gebildeten Faktoren repräsentiert werden.

Was bedeuten die Faktoren?

Faktorladungen geben die Korrelationen der Faktoren mit jeder Variable an. Also welche Faktoren, welche Variablen repräsentieren? Dadurch kann den Faktoren ein Sinn und ein Name gegeben werden.

Faktoren in 3D

  • Drei Varialben (3D)
  • je mehr n, desto dunkler
  • Zwei Faktoren
    • orthogonal
    • unkorreliert
  • rotiert

1.3 Vorgehen der PCA und Faktorenanalyse

1. Prüfen, ob ein Set an Variablen für eine Faktorenanalyse geeignet ist

  • Korrelationsanalyse

  • KMO

2. Feststellen, wie viele latente Faktoren extrahiert werden sollten

  • Scree-Plot

  • Parallelanalyse

3. Interpretation der Faktoren

  • Berechnung der Faktorladungen

  • Identifikation der Faktoren (Interpretation)

KMO

Das Kaiser-Meyer-Olkin-Kriterium prüft, ob ein Set von Variablen geeignet ist für eine Faktorenanalyse.

Kommt es nicht gut raus, kann man Variablen mit kleinen Werten ausschliessen.

Kaiser-Meyer-Olkin factor adequacy

  • < .5 inakzeptabel
  • .50-.59 miserabel
  • .60-.69 mässig
  • .70-.79 mittel ok
  • .80-.89 gut
  • .90-1.00 irre super
In R psych::KMO()
raq_items_tib <- DATEN |> 
  select(R101_01:R101_24) |>
 # select(-c(R101_03:R101_04))|>
  mutate(across(everything(), ~if_else(.x == -9, NA, .x))) |>
  sjlabelled::remove_all_labels() |>
  na.omit()

raq_items_tib |>
  psych::KMO()
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = raq_items_tib)
## Overall MSA =  0.78
## MSA for each item = 
## R101_01 R101_02 R101_03 R101_04 R101_05 R101_06 R101_07 R101_08 R101_09 
##    0.85    0.83    0.55    0.67    0.87    0.77    0.88    0.69    0.72 
## R101_10 R101_11 R101_12 R101_13 R101_14 R101_15 R101_16 R101_17 R101_18 
##    0.73    0.62    0.88    0.90    0.81    0.80    0.79    0.80    0.76 
## R101_19 R101_20 R101_21 R101_22 R101_23 R101_24 
##    0.75    0.83    0.80    0.71    0.62    0.72

Scree Plot der Eigenwerte (eigen values)

Die «factor number» über der 1-Linie («Eigen values» > 1) ist eine Empfehlung für die Anzahl an Faktoren, bei denen jeder Faktor mehr Varianz (Eigenwert > 1) auf sich vereint als die ursprünglichen Dimensionen.

In R psych::scree()
raq_items  <- scale(raq_items_tib)

raq_items |>
  psych::scree(pc = FALSE)

Parallel Analysis als Alternative zum Scree Plot

Wie viele Faktoren soll es geben? Wie viele haben einen “Eigenvalue” > 1?

## Parallel analysis suggests that the number of factors =  4  and the number of components =  NA

Skalenreliabilität der Faktoren (Cronbachs \alpha)

Skalenreliabilität

Skalenreliabilität ist die innere Konsistenz einer Skala. Der gängigste Koeffizient für die Skalenrelaiblität ist Cronbachs \alpha. Er geht von -\infty bis 1, wobei 1 wäre perfekt.

\begin{align*} \alpha_{st} &= \frac{K \cdot \overline{r}}{1+(K-1) \cdot \overline{r}} \end{align*}

\alpha_{st}: standardisiertes Cronbach \alpha
K: Anzahl Elemente (Variablen) einer Skala
\overline{r}: Durchschnittliche Korrelation

1.4 Faktorrotation

Unrotiert

Beim Verfahren der Faktorenanalyse wird erst ein Faktor in die Variablen gelegt, der alle am besten erklärt. Dann kommt der zweite und optimiert den Rest der Varianz usw. Das ergibt ein Ungleichgewicht zwischen den Faktoren. Darum wird rotiert.

Orthogonale und oblique Rotation

Faktoren werden rotiert, damit jeder optimal Varianz erklärt. Wenn orthogonal rotiert wird, sind die Faktoren 100% unkorreliert. Nach obliquer Rotation sind die Faktoren leicht korreliert, geben aber die Variablen besser wieder.

Faktorrotation

Bei orthogonaler Rotation sind die Faktoren unkorreliert.
Orthogonal ist klarer interpretierbar …

Bei der obliquen dürfen sie leicht korrelieren.
… oblique gibt realistischere Ergebnisse.

Faktorladungen

\begin{align} MR1 =& b_rraq_6 + b_2raq_{18} + b_3raq_{13} + b_4raq_7 + b_5raq_{10}+ b_6raq_{15}+ ... \\ MR2 = & b_rraq_{09} + b_2raq_{23} + b_3raq_{19} + b_4raq_{22}+ b_5raq_{02} \end{align}
  • Die Bs sind die Faktorladungen.
  • Faktorladungen geben an, welches Gewicht (Bedeutung) die einzelnen Variablen für den jeweiligen Faktor haben.
  • Jeder Faktor wird anhand der Variablen mit den höchsten Ladungen auf diesem Faktor interpretiert.

Faktorladungen RAQ

Variable MR1 MR2 MR3 Complexity Uniqueness
R101_07 0.74 --- --- 1.02 0.40
R101_15 0.74 --- --- 1.21 0.39
R101_13 0.71 --- --- 1.03 0.43
R101_14 0.66 --- --- 1.22 0.49
R101_06 0.66 --- -0.30 1.49 0.57
R101_02 0.55 --- --- 1.09 0.65
R101_12 0.50 0.33 --- 1.88 0.61
R101_18 0.42 --- --- 1.54 0.69
R101_10 0.35 --- --- 1.15 0.85
R101_08 --- 0.75 --- 1.00 0.45
R101_11 --- 0.66 --- 1.24 0.57
R101_09 --- 0.61 --- 1.11 0.60
R101_05 0.35 0.55 --- 1.72 0.47
R101_22 --- 0.53 --- 1.15 0.66
R101_01 0.34 0.51 --- 1.75 0.54
R101_24 --- -0.45 0.40 2.06 0.65
R101_03 --- -0.35 --- 1.24 0.87
R101_23 --- -0.32 --- 2.27 0.81
R101_21 --- --- 0.75 1.02 0.39
R101_04 --- --- 0.70 1.15 0.55
R101_20 --- --- 0.65 1.21 0.43
R101_19 --- --- 0.47 1.27 0.71
R101_17 --- --- 0.44 1.72 0.65
R101_16 0.30 --- 0.30 2.96 0.63
x
R101_01 RAQ: Statistik bringt mich zum Weinen.
R101_02 RAQ: Meine Freunde werden denken, ich sei dumm, weil ich nicht mit R umgehen kann.
R101_03 RAQ: Standardabweichungen begeistern mich.
R101_04 RAQ: Ich träume davon, dass Pearson mich mit Korrelationskoeffizienten angreift.
R101_05 RAQ: Ich verstehe Statistik nicht.
R101_06 RAQ: Ich habe wenig Erfahrung mit Computern.
R101_07 RAQ: Alle Computer hassen mich.
R101_08 RAQ: Ich war noch nie gut in Mathe.
R101_09 RAQ: Meine Freunde sind besser in Statistik als ich.
R101_10 RAQ: Computer sind nur zum Spielen nützlich.
R101_11 RAQ: Ich war in der Schule schlecht in Mathematik.
R101_12 RAQ: Leute versuchen dir zu sagen, dass R die Statistik leichter verständlich macht, aber das stimmt nicht.
R101_13 RAQ: Ich mache mir Sorgen, dass ich wegen meiner Inkompetenz mit Computern irreparable Schäden verursachen werde.
R101_14 RAQ: Computer haben ihren eigenen Willen und gehen absichtlich immer dann kaputt, wenn ich sie benutze.
R101_15 RAQ: Computer sind darauf aus, mich zu überlisten.
R101_16 RAQ: Ich weine offen, wenn von zentraler Tendenz die Rede ist.
R101_17 RAQ: Ich falle in ein Koma, wenn ich eine Gleichung sehe.
R101_18 RAQ: R stürzt immer ab, wenn ich versuche, es zu benutzen.
R101_19 RAQ: Alle schauen mich an, wenn ich R benutze.
R101_20 RAQ: Ich kann nicht schlafen, weil ich an Signifikanzen denke.
R101_21 RAQ: Ich wache unter meiner Bettdecke auf und denke, dass ich unter einer Normalverteilung gefangen bin.
R101_22 RAQ: Meine Freunde sind besser in R als ich.
R101_23 RAQ: Wenn ich gut in Statistik bin, werden die Leute denken, ich sei ein Streber.
R101_24 RAQ: Ich mag Statistik, würde das aber nie vor meinen Freunden zugeben.

Variableneignung – Kommunalitäten & Uniqueness

Kommunalitäten

Die Kommunalität einer Variable ist der Varianzanteil, den sie mit den extrahierten Faktoren teilt. Kommunalitäten unter .4 sind eher dürftig.

Uniquness = 1 - Kommunalität

Uniqueness

Die Uniqueness-Werte drücken aus, wie hoch der Varianzanteil ist, der nicht durch die Faktorenlösung erklärt werden konnte. Werte über .6 sind eher dürftig.

Complexity

Die Komplexität je Variable gibt an, ob es Mehrfachladungen auf einer Variable gibt. Wenn sie 1 ist, dann ist das Ergebnis eindeutig, wenn sie nahe 2 ist, dann laden zwei Faktoren auf dieser Variable.

FA als SEM – is future music

Konfirmatorische Faktorenanalyse mit Strukturgleichungsmodell (SEM)

2 Literaturbeispiel (Übung 3 – siehe LEF)

EFA Song et al. (2004)

Take Home – Ausblick – Vokabeln

Take Home

Interaktionen

  • Sie wissen, wofür man Faktorenanalysen alle einsetzen kann
  • Sie können die Dokumentation einer Faktorenanalyse lesen und verstehen
  • Sie können selbst eine Faktorenanalyse ausführen und interpretieren

Ausblick

Wir gehen gemeinsam den Text von Song et al. (2004) durch und die R-Übung, die auf der nächsten Folie beschrieben ist.

3 Übung 3

3.1 Laden Sie die Daten unserer Befragung

(Für den Fall, dass es Probleme gibt, laden Sie die Daten hier herunter. Wenn das auch zu Problemen führt, melden Sie sich im Forum.)

3.2 Führen Sie eine Faktorenanalyse für unsere RAQ aus mit Hilfe des Paketes psych

Ziehen Sie dazu die Hilfe dieser Website heran: https://md.psych.bio.uni-goettingen.de/mv/unit/fa/efa.html

  1. Schauen Sie sich die Korrelationsmatrix (mit cor()) an.

  2. Führen Sie einen Bartlett’s-Test aus

  3. Führen Sie einen KMO-Test aus (psych::KMO())

  4. Machen Sie eine Parallel-Analyse (psych::fa.parallel()), um die Anzahl der Faktoren zu bestimmen.

  5. Führen Sie eine Faktorenanalyse durch mit psych::fa() und rotieren Sie mit rotate = "promax". 5.1. Schauen Sie sich die Faktorladungen an. 5.2. Wie viel Varianz erklären die Faktoren?

  6. Erstellen Sie ein Diagramm für die Faktorenanalyse (psych::fa.diagramm).

  7. Führen Sie eine Faktorenanalyse mit Rotation nach dem Kriterium rotate = "oblimin" durch.

LEF 8

Essayfragen 8

E8.1 Bitte schauen Sie sich die folgenden drei (mistigen) Tabellen an, die aus fiktiven Publikationen stammen. Jedes mal werden die Koeffizienten als “beta” bezeichnet, aber es könnten nur die unstandardisierten Regressionskoeffizienten b sein oder die standardisierten Regressionskoeffizienten std. b. Was ist wohl was? a) Begründen Sie Ihre Entscheidung! b) Eklären Sie, warum es nicht \betas sein können.

Essayfragen 8.2-8.3

E8.2 Schreiben Sie zu jedem der folgenden Schlagworte in ganzen Sätzen auf, zu welchen Zwecken Faktorenanalysen alles eingesetzt werden können: a) latente Variablen entdecken b) Multikollinearität c) Indices d) Messung latenter Konstrukte

E8.3 a) Erklären Sie, was Faktorenadungen sind. b) Wie gehen Sie vor, wenn Sie Faktorladungen interpretieren wollen?

Essayfragen 8.4-8.10

Lesen Sie Song et al. (2004) und beantworten Sie dann folgende Fragen und die anschliessenden MCs.

E8.4 Was wird mit Cronbachs \alpha beschrieben?

E8.5 Was für eine Faktorenanalyse haben Song et al durchgeführt?

E8.6 Mit welcher Methoden wurden die Faktoren rotiert?

E8.7 Wie viele initiale Faktoren hat die Faktorenanalyse herausgegeben?

E8.8 a) Nach welchen Kriterien wurden die Faktoren ausgewählt? b) Wie bewerten Sie das Vorgehen?

E8.9 a) Wie viele Items (Fragen) wurden mit der Faktorenanalyse ausgewertet? b) Auf wie viele Faktoren wurden die Items reduziert?

E8.10 Wie viel Varianz erklären die Faktoren, die von Song et al ausgewählt wurden?

MC-Fragen 8

MC 8.1.

MC 8.1: Was sagen die Zahlen im Text von Song et al. (2004)?

Punkte:

MC 8.2.

MC 8.2: Was sagen die Zahlen im Text von Song et al. (2004)?

Punkte:

MC 8.3.

MC 8.3: Was sagen die Zahlen im Text von Song et al. (2004)?

Punkte:

MC 8.4.

MC 8.4: Was sagen die Zahlen im Text von Song et al. (2004)?

Punkte:

MC 8.5.

MC 8.5: Was sagen die Zahlen im Text von Song et al. (2004)?

Punkte:

Insgesamt (nur MCs) von Punkten, was % und etwa einer entspricht.

Vokabeln

:::

Literatur

Song, Indeok, Robert Larose, Matthew S. Eastin, and Carolyn A. Lin. 2004. “Internet Gratifications and Internet Addiction: On the Uses and Abuses of New Media.” CyberPsychology & Behavior 7 (4): 384–94. https://doi.org/10.1089/cpb.2004.7.384.