Modul 32491
Angewandte Datenanalyse
Warum dieses Modul?
Das Ausmaß der Datenerfassung hat in nahezu allen Bereichen der Wirtschaftswissenschaften in den letzten Jahren massiv zugenommen und die empirische Datenanalyse ist zu einem der wichtigsten Instrumente avanciert. Durch die angewandte Analyse von Daten werden Zusammenhänge zwischen Variablen untersucht und akkuratere Prognosen ermöglicht. Welchen Effekt hat beispielsweise das Studium auf das erwartete Einkommen? Wie wirken sich Werbemaßnahmen auf den Umsatz aus? Beispielsweise können Unternehmen auf Basis von Kundendaten ein statistisches Modell trainieren, um zu prognostizieren, welches Produkt ein Kunde wahrscheinlich erwerben wird. Eine Person kann prognostizieren, welches Einkommen sie mit ihrer Erfahrung und Ausbildung erwarten kann. Derartige und verwandte Fragen können mit den Methoden des überwachten statistischen Lernens behandelt werden, da wir über Beobachtungen einer zu prognostizierende Zielvariable verfügen.
Es gibt jedoch auch Fragestellungen ohne Zielvariable, in denen das sogenannte unüberwachte Lernen zum Einsatz kommt. Mit dieser Methode wollen wir relevante Zusammenhänge in den Daten entdecken. Zudem fragen wir uns, welche informativen und gewinnbringenden Möglichkeiten es gibt, die Daten sinnvoll zu visualisieren. Können wir Untergruppen (Cluster) in den Variablen aufdecken? Einerseits verhalten sich verschiedene wirtschaftswissenschaftliche Variablen ähnlich zueinander, so dass deren Variation zum großen Teil durch einen einzelnen Faktor erklärt werden kann. Verfügen wir über einen Datensatz mit verschiedenen Indikatoren für die Lebenshaltungskosten in Städten (Mietkosten, Lebensunterhaltskosten und Mobilitätskosten), können wir Gruppen aus Städten mit ähnlichen Strukturen bilden.
Als Methoden werden Sie die Schätzung von linearen Regressionsmodellen für eine quantitative Zielvariable mit der Kleinst-Quadrate-Methode ebenso erlernen, wie das Erstellen von Modellen für eine qualitative Zielvariable. Bei letzterem liegt ein großer Fokus auf der logistischen Regression, welche mit der Maximum-Likelihood-Methode geschätzt wird, bei welcher die Zielvariable in eine von zwei verschiedenen Klassen fällt. Es werden aber auch die multinomiale/geordnete logistische Regression, die Diskriminanzanalyse und weitere Verfahren behandelt, welche für Anwendungsfälle mit mehr als zwei Ausprägungen geeignet sind.
Zudem werden Sie Methoden für die Modellauswahl für Prognosen kennenlernen. Einfache Modelle mit wenigen erklärenden Variablen führen womöglich zu schlechten Vorhersagen. Komplexe Modelle mit vielen erklärenden Variablen führen jedoch häufig zu einer Überanpassung an die Trainingsdaten, so dass ihre Prognosen mit neuen Testdaten häufig deutlich schlechter ausfallen können. Zudem sind sie schwerer zu interpretieren, da die Effekte der verschiedenen erklärenden Variablen nicht leicht zu trennen sind. Die beste Lösung wäre ein großer, speziell ausgewählter Testdatensatz, welcher aber oft nicht verfügbar ist. Als geeignete Alternative für die empirische Anwendung werden Sie die Kreuzvalidierung kennenlernen. Für die Auswahl der erklärenden Variablen werden Sie die Beherrschung mehrerer Methoden erlernen. Neben der Subset-Selection (Teilmengenauswahl) werden Informationskriterien, welche auf einem Kompromiss zwischen Reduktion des Prognosefehlers und Modellkomplexität basieren, und Regularisierungsverfahren wie die Ridge- oder Lasso-Regression behandelt. Zudem stellen wir Ihnen zwei Methoden des unüberwachten Lernens vor: Die Hauptkomponentenanalyse, ein Werkzeug zur Datenvisualisierung oder Datenvorverarbeitung bevor Methoden aus dem überwachten Lernen angewendet werden und das Clustering, eine breite Klasse von Methoden zur Entdeckung noch unbekannter Gruppen im Datensatz.
Die Lehrinhalte des Moduls werden mit Hilfe von abrufbaren Videos und dazugehörigen Präsentationsfolien vermittelt. Die Inhalte basieren dabei auf dem etablierten Lehrtext „An Introduction to Statistical Learning: with Applications in R“ (Second Edition, Springer Texts in Statistics) von Gareth James, Daniela Witten, Trevor Hastie und Robert Tibshirani. Darüber hinaus werden Übungen angeboten, in denen die unterschiedlichen Methoden angewendet werden. Außerdem wird in diesem Modul die open-source Programmiersprache R eingesetzt. Diese ermöglicht es, Ergebnisse zu replizieren und die Methoden auf neue Datensätze anzuwenden und auch weitere eigenständige Analysen durchzuführen. Es werden zu den relevanten Kapiteln R-Labs zur Verfügung gestellt, in denen Methoden anhand von Beispieldaten angewandt und verglichen werden. Alle Inhalte werden auf Moodle bereitgestellt.
Allgemeine Informationen
Betreuender Lehrstuhl
- BWL, insb. Angewandte Statistik
Lehrstuhlinhaber: Univ.-Prof. Dr. Robinson Kruse-Becher
Einsendearbeiten
Die während des Semesters zu bearbeitenden Einsendearbeiten dieses Moduls stehen zu Beginn des Semesters innerhalb der Moodle-Lernumgebung bereit. Sie werden online bearbeitet oder erfordern das Hochladen einer Lösungsdatei.
Modul in den Studiengängen
- M.Sc. Wirtschaftswissenschaft
- M.Sc. Wirtschaftsinformatik
- M.Sc. Volkswirtschaft
- M.Sc. Wirtschaftswissenschaft für Ingenieur/‑innen und Naturwissenschaftler/‑innen
- Akademiestudium
Prüfung
Das Modul schließt am Ende des Semesters mit einer zweistündigen Klausur ab.
Download
- Modulbeschreibung (PDF 397 KB)
- Leseprobe (PDF 714 KB)
Informationen für Studierende
Virtuelle Betreuung
Beratung und Service von A–Z
Alle Informationen zu Einsendearbeiten und Prüfungsleistungen (inkl. Terminen und Durchführungsformen) sowie zu weiteren organisatorischen Aspekten des Studiums sind hier zu finden.
Fachstudienberatung
Bei Fragen zum Studium hilft Ihnen die Fachstudienberatung unserer Fakultät gerne weiter.
* Dieser Link führt zu einem Angebot, das allen Studierenden zugänglich ist, die dieses Modul im aktuellen Semester belegt haben.
** Dieser Link führt zu einem Angebot, das allen eingeschriebenen Studierenden zugänglich ist.