Sitzung | Termin | Inhalt | Folien | Gegenstand |
---|---|---|---|---|
1 | 20 Sept. | Wiederholung der statistischen Grundlagen univariater und bivariater Statistik. | ||
2 | 27 Sept. | Einführung in die Regressionsrechnung. | ||
3 | 4 Okt. | Voraussetzungen der Regressionsrechnung. | ||
4 | 11 Okt. | Übung: GLM I | ||
5 | 18 Okt. | GLM – Varianzanalyse ANOVA, MANOVA | ||
6 | 25 Okt. | GLM – Interaktionen | ||
7 | 1 Nov. | Übung: GLM II | ||
8 | 8 Nov. | Explorative Faktorenanalyse | ||
9 | 15 Nov. | Übung: Dimensionsreduktion | ||
10 | 22 Nov. | Logistische Regression und Machine Learning | ||
11 | 29 Nov. | Übung: Machine Learning | ||
12 | 6 Dez. | Clusteranalyse | ||
13 | 13 Dez. | Fokussierte Schwerpunkte | ||
14 | 20 Dez. | Besprechung der LEF |
Statistik Aufbau
Einleitung und Syllabus
Syllabus
Vorwort
Sicher freuen Sie sich schon auf «Statistik: Aufbau», und ich glaube, Sie haben allen Grund dazu. Manche freuen sich weniger – was ja auch normal und ok ist. Wieder andere, denken lieber daran, wie das Leben so sein wird, wenn Sie «Statistik: Aufbau» hinter sich haben. Ihnen allen soll dieser Begleittext zur Seite stehen, damit Sie aus dem Modul das für sich Beste rausholen. Diejenigen, die in der Statistik ein mächtiges Tool entdecken, will ich ein tiefergehendes Verständnis ermöglichen. Denen, die die Statistik einfach gut absolvieren wollen, soll das Wichtigste vermittelt werden und die mit Graus auf das Modul schauen, soll das Grauen genommen und etwas Greifbares und Handhabbares angeboten werden, das sich – mit zumutbaren Investitionen – lösen lässt. Hier in der Einleitung schreibe ich Ihnen, was ich über den Sinn und die Mächtigkeit von Statistik denke sowie die möglichen Ursachen für das Unbehagen denke.
Liebe Grüsse
Benjamin Fretwurst
Was bringt uns Statistik
Unser Alltag ist von Beobachtungen geprägt, aus denen wir etwas über uns und die Welt lernen. Wir stellen Vermutungen an und haben das Gefühl, dass wir wissen, wie es läuft. Das heisst, wir machen viele Beobachtungen und ziehen unsere Schlüsse daraus. Wir entwickeln also aus empirischen Beobachtungen Theorien. Diese Beobachtungen sind nur nicht sehr systematisch und die Schlüsse, die wir aus ihnen ziehen sind mal mehr von einer Erinnerung und mal mehr von einer anderen Erinnerung geprägt. Wenn wir an dieses Erfahrungswissen etwas wissenschaftlicher herangehen wollen, um systematisch Erkenntnisse zu erlangen, auf die wir uns besser verlassen können, dann machen wir emprische Forschung.
Empirische Forschung ist wiederum dann genau und gültig, wenn sie sehr viele (möglichst unverzerrte) Beobachtungen anstellt. Aber wie können wir nur aus diesen ganzen Daten Informationen extrahieren, wie daraus Schlüsse ziehen? Sie ahnen es: Das macht Statistik. Statistik ist also ein Zweig der Mathematik, mit dessen Hilfe grosse Mengen an Daten auf Kennwerte reduziert werden können, aus denen wir leicht unsere Schlüsse für unser Verhalten im Alltag ziehen können – sei es beruflicher Alltag oder Privates. Die statistische Datenanalyse erlaubt es uns, sehr komplexe Beziehungen in den gemachten Beobachtungen zu finden und zu interpretieren. Die Methoden der Datenerhebung, wie Sie sie in der Einführung kennengelernt haben, ermöglichen (je nach Budget) ein paar Tausend Beobachtungen innerhalb einer Studie, die auf Knopfdruck in Sekundenbruchteilen statistisch analysiert werden können. Daneben gibt es aus dem Alltag der Menschen, der digital erfasst ist Terrabite grosse Datenmengen, die mit denselben statistischen Grundlagen ausgewertet werden können. Mit Hilfe von maschinellem Lernen können aus diesen Datenmengen Prognosen erstellt werden. Dieses «Maschinelle Lernen» (oder «Machine Learning» ML) basiert zu grossen Teilen auf den statistischen Methoden, die Sie in diesem Semester kennenlernen. Sie werden sehen, wie man aus statistischen Modellen generell lernen kann und wie man mit statistischen Methoden Prognosen anstellt, wie sie auch von ML-Algorithmen bereitgestellt werden. Die Art dieser Beziehungen wird aus der Alltagswahrnehmung abgeleitet und durch Formulierung wissenschaftlicher Hypothesen konkretisiert.
Wenn wir zum Beispiel davon sprechen, dass die Leute einfach nur das wichtig finden, was Ihnen die Medien vorgeben, dann wird damit ein Zusammenhang formuliert. Etwas konkreter würde ein KW-ler sagen: Die Menschen lernen aus der Thematisierung in den Medien, was wichtige Themen sind. Und weil das eine Theorie ist, bekommt sie auch noch einen Namen: «Agenda-Setting» (AS).
Gegen den AS könnte man einwenden: «Das gilt nicht immer. Die Leute kriegen schon mit, wenn die Preise steigen – dazu brauchen sie nicht die Medien.» Der AS gilt also nicht für alle Themen, sondern nur für solche, die die Leute nicht am eigenen Leib erfahren können. Es wird also in ‹obtrusive› und ‹nonobtrusive Issues› unterschieden. Jetzt haben wir einen Zusammenhang formuliert, der zusätzlich Randbedingungen enthält. Abgesehen von der Theorie könnte man die Forschungsfrage stellen, ob AS in gleichem Masse für Gebildetere und weniger Gebildete gilt. In der Alltagsbeobachtung wird es jetzt schon kompliziert, da wir diese Randbedingungen schwerlich alle gleichzeitig gegeneinander halten können. Selbst wenn wir den Bildungsstand mitbeobachten können, ist das nicht mit der vollen Differenziertheit möglich. Die wissenschaftliche Datenerhebung dient der Aufzeichnung vieler unabhängiger Beobachtungen. Multivariate Statistik ermöglicht es uns, diese Beobachtungen so zueinander in Beziehung zu setzen, dass wir am Ende einfache Kennwerte bekommen, die für Zusammenhänge stehen.
Was beschreibt die Funktion von Statistik am besten?
Überblick Analysemethoden
Der folgende Überblick zeigt die statistischen Verfahren, mit deren Hilfe kausale Zusammenhänge, Unterschiede und Datengruppierungen analysiert werden können. Diese verschiedenen Analysemethoden ermöglichen es, Daten aus unterschiedlichen Blickwinkeln zu analysieren. Man kann also mit denselben Variablen eine Zusammenhangsanalyse machen oder sie auf Unterschiede hin analysieren oder schauen, ob es Interdependenzen gibt, sie als Gruppen bilden. Die zugrundeliegenden Beziehungen in den Daten sind natürlich immer dieselben. Das liegt daran, dass Unterschiede durch Zusammenhänge entstehen und Zusammenhänge aufgrund von Unterschieden. Beides finden seine Ursache darin, dass Variablen und Fälle Gruppen bilden; und gleichzeitig entstehen die Gruppen durch die Zusammenhänge und Unterschiede.
Die Kennwerte, die aufgrund von Unterschiedsanalysen entstehen sind nicht sehr hoch verdichtet. Daher sind sie leichter zu lernen und für den Einstieg in die Statistik gut geeignet. Sie haben bereits Unterschiedsanalysen kennengelernt, die Masse (gesprochen Maße :-) der zentralen Tendenz auswerten, also zum Beispiel den t-Test für Mittelwertunterschiede zwischen zwei Gruppen. Wir können dabei Variablen aus verschiedenen Teilstichproben (Gruppe der Wähler:innen und Nichtwähler:innen) untersuchen, also «unabhängige Stichproben». Oder wir untersuchen «verbundene Stichproben», wenn zum Beispiel die Mittelwerte von zwei Variablen verglichen werden sollen, die jeweils für die ganze Stichprobe erhoben wurden (zB vor und nach einem experimentellem Eingriff aka Treatment). Oder wir untersuchen die Varianzen von Variablen mit Hilfe von \(\chi^2\) oder einem F-Test.
Wenn Sie genau auf die Grafik schauen, finden Sie den \(\Chi^2\)-Test einmal bei den Unterschieden und einmal bei den «bivariaten» Zusammenhangsanalysen. Das liegt an der oben angesprochenen Verbundenheit der Konzepte: Unterschiede entstehen, wenn Dinge miteinander zusmamenhängen. Bei den Zusammenhangsanyalysen unterscheiden wir die «bivariten» von den «multivariten Modellen». Die bivariten bringen nur zwei Variablen in Beziehung zueinander, was sie einfacher macht, aber im Grunde zu einfach, um die komplexeren Zusammenhänge in unserer Welt zu erklären. Menschen sind einfach nicht bivariat und unsere Welt ist nicht monokausal. Die multivariaten Modelle sind Erweiterungen der bivariaten Analysemethoden. Bei den «Generalisierten Linearen Modellen» (GLM) geht es also weiter. Analysestrategien der GLM werden nach den Skalenniveaus der Variablen unterschieden, die erklärt werden sollen (also die abhängigen Variablen aka AV) und nach den Skalenniveaus der erklärenden (unabhängigen Variablen aka UV).
Die Analysemethoden sind dann einfacher, wenn das Skalenniveau hoch ist. Darum machen wir den Einstieg auch mit der Regression, bei der die AV und die UVs metrisch sind. Wenn die UVs nominal sind (bzw. nominale vorkommen), wird oft auch von Varianzanalysen (Analysis of Variance aka ANOVA) gesprochen. Wenn die AV nominal ist (dichotom oder polytom) werden logistische Regressionen gerechnet. Wenn Sie nach dem Bachelorstudium mit dem Master weitermachen, lernen Sie die multivariaten Analysemethoden auf dem «Next Level» kennen – also zumindest einige davon. Wenn Sie dann auch noch in die Wissenschaft weitergehen, befassen Sie sich sicher spezialisierter mit bestimmten Verfahren der statistischen Datenanalyse, die für Ihre Forschung die am besten geeignete ist.
In diesem Semester werden wir uns auch mit Verfahren befassen, die Gruppierungen (aka Interdependenzen) untersuchen. Dazu gehört an erster Stelle die Faktorenanalyse, mit deren Hilfe Faktoren extrahiert werden sollen, die – so die Vermutung – die gemeinsame Ursache für gemessene Variablen sind. Die Idee ist also, dass manifest gemessene Variablen aufgrund von latenten Variablen miteinander zusammenhängen beziehungsweise korrelieren. Das ist schon an sich interessant genug. Darüber hinausgehend, können wir mit Hilfe einer Faktorenanalyse Indizes bauen, die mehrere Variablen auf einmal abbilden. Während die Faktorenanalyse Eigenschaften von Fällen auf zugrundeliegende Gemeinsamkeiten hin untersucht, werden mit Clusteranalysen Fallgruppen gebildet. Zum Beispiel könnten wir untersuchen, ob die Begeisterung und Abneigung gegenüber Mathemaitik, Statistik, Computer-Programmierung, R usw. einen gemeinsamen Kern haben, wie schlechter Matheunterricht oder Identitiätsbildung. Und dann könnten wir mit Clusteranalysen Gruppen identifizieren, je nachdem, wie gross die Begeisterung für Mathe is, für Computer und für Programmiersprachen wie R. Da gibt es sicher die einen und die anderen. Solche, die tollen Matheunterricht hatten und trotzdem mit R auf Kriegsfuss stehen usw. Also, Sie sehen, wir können viel damit anstellen. Das lohnt sich, auch wenn der Weg teils beschwerlich ist.
Zitation dieser Seite
Zitation: Fretwurst, B. (2022). Statistik und Datenanalyse: Aufbau. Begleittext zum Modul am IKMZ im HS22. https://www.ikmz.uzh.ch/static/methoden/Statistik-Aufbau/. Abrufdatum: [aktuelles Datum].