Statistik und Datenanalyse: Aufbau

Mittelwert, Standardabweichung, Korrelation

Benjamin Fretwurst
PDF-Version der Folien

1 Modulintro


Lernziele heute

Modulorga

  • Lernziele und Inhalte von «Statistik: Aufbau»
  • Orga
  • Lernmaterialien

Anschluss an Statistik: Einführung

  • Mittelwert
  • Streuung
  • Inferenz
    • Punktschätzung (Standardfehler)
    • Intervallschätzung
    • Tests
  • Kovarianz und Korrelation

1.1 Lernziele des Moduls

Grundlagenkenntnisse

  • Sie erlangen Kenntnisse multivariater Statistik.
  • Verständnis empirischer Forschungsbeiträge
  • Umgang mit Vorlagen für die Anwendung der Verfahren in R.

Praktische Statistik für «Methoden Aufbau»

Sie können Analysemethoden anwenden, die Sie für Ihr Projekt in Methoden Aufbau brauchen.

Verständnis fortgeschrittener Statistik für die Forschungsseminare

Vorbereitung auf die Forschungsseminare, in denen Sie weiterführende Analyseverfahren verstehen müssen (Texte und Analysen) und teilweise auch anwenden.

1.1.1 Voraussetzungen

Inhaltliche Voraussetzungen

  • Deskriptive und induktive Statistik aus «Statistik und Datenanalyse: Einführung»

  • heute Rückblick

  • Folien der Statistik-Einführungs-Vorlesung (+ Buch Ihrer Wahl)

Technische Voraussetzung

1.2 Leistungsnachweis

Was ist Prüfungsstoff?

  • Folien
  • Vorlesung
  • Begleittext

Prüfungstermin (Major + Minor)

  • Hauptklausur
    • 03.01.2024
    • 14:30–15:30 (60 Minuten)
    • BYOD ➪ [Y-15-G-60 + Y24-G-45]
  • Wiederholungsklausur Major und Minor
    • 07.02.2024
    • 14:30–15:30 (60 Minuten)
    • BYOD ➪ Y-15-G-60

1.3 Inhalt und Aufwandt

Inhalte

  1. Uni- und Bivariate Statistik
  2. GLM – Regression
  3. GLM – BLUE
  4. Übung: GLM I
  5. GLM – Kategoriale UV
  6. GLM – Interaktionen
  7. GLM – Übung II
  1. Dimensionsreduktion
  2. Übung: Dimensionsreduktion
  3. LogReg und ML
  4. Übung: Machine Learning
  5. Clusteranalyse
  6. Übung: R
  7. Zusammenfassung

Aufwandt für 6 ECTS

Aufwand in h h/Woche Punkte
Besuch der Vorlesung 21 1.5 0.7
Vor und Nachbereitung 21 1.5 0.7
Lesen der Texte 42 3.0 1.4
Übungsaufgaben in R 50 3.6 1.7
Prüfungsvorbereitung 42 3.0 1.4
Studienteilnahmepunkte 4 0.3 0.1
Summe für 6 ECTS * 30h 180 12.9 6.0

1.4 Material

E-Learning – OLAT

OLAT

R-Seite und Begleittext (BETA!)

R-Seite

Auf r.ikmz.uzh.ch/Wissen_macht_R! finden Sie Anleitungen zur Installation von R und R-Studio sowie Beispielskripte und Vorlagen, die wir vor allem auch für brauchen, bzw. Ihnen helfen sollen.

Begleittext ist noch BETA!

Der Begleittext auf stat.ikmz.uzh.ch/Aufbau wird während des Semesters deutlich überarbeitet und ist daher BETA! Es gibt keine vollständige Gewähr für Fehlerfreiheit!

Zusatzliteratur (Wiederholung Statistik Einführung)

Für die Wiederholung von «Statistik: Einführung».

2 Befragung

Erwartungen

R-Code anzeigen
DATEN   |>
    haven::zap_formats() |>
  kreuz_skala(Varlist = c(E201_01, E201_02, E201_10, E201_11), Labelweite = 20, Loeschen = "Erwartungen STAT A") 

Umgang mit R

R-Code anzeigen
DATEN  |>
  kreuz_skala(Varlist = c(E201_07, E201_06),  Labelweite = 30, Loeschen = "Erwartungen STAT A") 

Ziele

R-Code anzeigen
DATEN |>
    haven::zap_formats()  |>
  kreuz_skala(Varlist = c( E201_08, E201_09, E201_11),  Labelweite = 30, Loeschen = "Erwartungen STAT A") 

Was geht mit Formeln?

R-Code anzeigen
DATEN |>
    haven::zap_formats() |>
  haven::zap_formats()  |>
  kreuz_skala(Varlist = c(E201_13, E201_12),  Labelweite = 30, Loeschen = "Erwartungen STAT A") 

Spass und Freude

R-Code anzeigen
 DATEN |>
    haven::zap_formats() |>
    select(E201_02, E201_06) |> 
  filter(E201_02 >= 0 & E201_06 >= 0) |> # sjmisc::frq()
#    sjlabelled::label_to_colnames() |> 
    ggplot(aes(x = E201_06, y = E201_02)) +
    geom_jitter(width = 0, height = 0) + 
  labs(x = "Es hat mir Spass gemacht, mit R zu arbeiten", y = "Ich freu mich auf Statistik Aufbau")+
  geom_smooth(method=lm) +
    theme_minimal()

Statistik war leicht

R-Code anzeigen
 DATEN |>
    haven::zap_formats()  |>
    select(E201_02, E201_06) |> # sjmisc::frq()
    filter(E201_02 >= 0 & E201_06 >= 0) |> 
    sjlabelled::remove_all_labels() |> 
    ggplot(aes(x = E201_06, y = E201_02,  colour = E201_06)) +
    geom_jitter(width = 0.2, height = .2) + 
  scale_color_viridis() +
  labs(x = "Es hat mir Spass gemacht, mit R zu arbeiten.", y = "Ich freu mich auf Statistik Aufbau!")+
  geom_smooth(method=lm) +
  ggpubr::stat_cor(method = "pearson", label.x = 4, label.y = 1.3, p.digits = 3, p.accuracy = .05) +
    theme_minimal() + 
  theme(legend.position = "none")

Statistik war leicht (doppelt)

R-Code anzeigen
 DATEN |>
    haven::zap_formats() |>
    select(E102_01, E201_03) |> # sjmisc::frq()
    filter(E102_01 >= 0 & E201_03 >= 0) |> 
    sjlabelled::remove_all_labels() |> 
      ggplot(aes(x = E102_01, y = E201_03, colour = E102_01)) +
    geom_jitter(width = 0.2, height = 0.2) + 
  scale_color_viridis() +
  labs(x = "Statistik war leicht", y = "Statistik war leicht 2")+
  geom_smooth(method=lm) +
  ggpubr::stat_cor(method = "pearson", label.x = 4, label.y = 1.3, p.digits = 3, p.accuracy = .05) +
    theme_minimal() + 
  theme(legend.position = "none")

Korrelationen

R-Code anzeigen
DATEN |>
    haven::zap_formats() |> 
  select(E102_01:E102_06) |> 
  sjlabelled::label_to_colnames() |> 
  cor() |> 
  ggcorrplot::ggcorrplot(hc.order = TRUE, type = "lower",
   lab = TRUE)
  

Korrelation doppelte Frage

R-Code anzeigen
DATEN |>
    haven::zap_formats() |> 
  select(E102_01:E102_06, E201_03, E201_07) |> 
  sjlabelled::label_to_colnames() |> 
  cor() |> 
  ggcorrplot::ggcorrplot(hc.order = TRUE, type = "lower",
   lab = TRUE)

3 Was bisher geschah

3.1 Univariate Statistik

3.1.1 Mittelwert

Der Mittelwert ist das Gleiche wie ein Durchschnitt.

\begin{aligned} \overline{x} = & \frac{1}{n}\sum_i^n(x_i)\\ \overline{y} = & \frac{1}{n}\sum_i^n(y_i) \end{aligned}

Mittelwert wird geschrieben als Kennwert \overline{x} und Parameter \mu.

3.1.2 Varianz

Die Varianz ist er Mittelwert (Durchschnitt) der quadrierten Abweichungen vom Mittelwert.

\begin{aligned} \sigma^2 = V = & \frac{1}{n} \sum_i^n(x_i-\mu)^2\\ \end{aligned}

Die Varianz als unbekannter Parameter wird als \sigma^2 gekennzeichnet.

3.1.3 Standardabweichung

Die Standardabweichung ist die Wurzel der Varianz. Gefühlt ist die Standardabweichung sowas wie die durchschnittliche Abweichung (Beträge) vom Mittelwert (eben durch die Quadrierung und Rückrechnung über die Wurzel nicht ganz dasselbe).

\begin{aligned} s_x = \hat{\sigma}_x = & \sqrt{\frac{1}{n-1} \sum_i^n(x_i-\overline{x})^2} \end{aligned}

Die Standardabweichung als unbekannter Parameter wird als \sigma_x gekennzeichnet und der Kennwert als s_x.

Standardabweichung im Vergleich

Standardfehler

Definition und Eigenschaften

Die Standardabweichung einer Stichprobenkennwerte-Verteilung nennt man Standardfehler (standard error, SE). Wenn es sich um eine Verteilung von Mittelwerten handelt Standardfehler des Mittelwerts (s_{\overline{x}}).

Der Standardfehler gibt an, wie gut \overline{x} den Populationsparameter \mu schätzt.

Eigenschaften

  • Der Standardfehler jedes Kennwertes nimmt mit grösser werdendem n ab 👉 \sigma_{\overline{x}} ist umgekehrt proportional zu \sqrt{n}.

  • Je stärker das gemessene Merkmal in der Population streut, desto grösser der Standardfehler 👉 \sigma_{\overline{x}} ist proportional zu \sigma.

Die Formel:

\begin{aligned} \sigma_{\overline{x}}&=\sqrt{\frac{\sigma^2}{n}}\\ &=\frac{\sigma}{\sqrt{n}} \end{aligned}

Effekte des Stichprobenumfangs

Standardisierung

Standardisierung

Standardisierung von Verteilungen und Kennwerten macht alles vergleichbar.

  • z_i=\frac{x_i-\overline{x}}{s}.
  • Eine z-Verteilte Grösse hat immer: \overline{x}=0 und s = 1.
  • Standardisierte Verteilungen und Kennwerte sind vergleichbar.

Konfidenzintervalle für Mittelwerte

Konfidenzintervalle

Konfidenzintervalle geben einen Wertebereich an, in dem die Parameter (GG) der Stichprobenkennwerte mit einer angebbaren Wahrscheinlichkeit liegen.

\begin{aligned} \text{KI: } \overline{X}\pm z_1 \cdot SE\\ \text{KI: } \overline{X}\pm z_1 \cdot \frac{s_x}{\sqrt{n}}\\ \text{KI}_{l.05} = \overline{x} - 1.96 \cdot \frac{s_x}{\sqrt{n}}\\ \text{KI}_{r.05} = \overline{x} + 1.96 \cdot \frac{s_x}{\sqrt{n}} \end{aligned}

3.2 Bivariate Statistik

3.2.1 Kovarianz und Korrelation

\begin{aligned} cov = C = & \frac{1}{n}\sum_i^n(x_i-\overline{x}) (y_i-\overline{y})\\[1em] r = & \frac{\sum_i^n(x_i-\overline{x}) (y_i-\overline{y})}{n \cdot s_x \cdot s_y} \end{aligned}

3.3 Hypothesentesten

Testen gegen die Nullhypothese

  1. Könnte in der Auswahlgesamtheit der wahre Wert auch 0 sein, oder ein anderes Vorzeichen haben?

  2. Die Nullhypothese ist eine statistische Hypothese gegen Falschentscheidungen aufgrund von Zufallsziehungen.

  3. Nullhypothesen werden anhand von bekannten Verteilungen getestet.

LEF 1

Essayfragen

  1. Was ist der Unterschied zwischen unstandardisierten und standardisierten Kennwerten?

  2. Welche Masse der zentralen Tendenz kennen Sie?

  3. Welche Streumasse kennen Sie?

  4. Was kommt raus, wenn man die Covarianz einer Variablen mit sich selbst berechnet?

    1. Welche Skalenniveaus kennen Sie?

    2. Was macht eine Nominalskala aus?

    3. Was macht eine metrische Skala aus?

MC-Fragen

MC 1.1.

MC 1.1: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 1.2.

MC 1.2: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 1.3.

MC 1.3: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 1.4.

MC 1.4: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 1.5.

MC 1.5: Sind folgende Aussagen richtig oder falsch?

Punkte:

MC 1.6.

MC 1.6: Sind folgende Aussagen richtig oder falsch?

Punkte:

Insgesamt von Punkten, was % und etwa einer entspricht.

Take Home

Statistik

  • ist ein Modell von Realität
  • ist eine mächtige Denkweise
  • ist Basis und Kern von Data Science

Aus Statistik Einführung muss sitzen

  • Mittelwerte
  • Varianz/ Standardabweichung s- Covarianz/ Korrelation

Ausblick

Grundlagen der Modellbildung

Regression mit zwei Unabhängigen

Inferenzstatistische Grundlagen

Punktschätzung, Intervallschätzung, Wahrscheinlichkeitsverteilungen

Grundannahmen von OLS-Schätzungen

mässige Multikollniearität, Homoskedastizität, Modellspezifikation, Linearität