TU Wien:Statistische Simulation und computerintensive Methoden VU (Nordhausen)

Aus VoWi
Zur Navigation springen Zur Suche springen
Ähnlich benannte LVAs (Materialien):

Daten[Bearbeiten | Quelltext bearbeiten]

Diese LVA wird nicht mehr von dieser Person angeboten, ist ausgelaufen, oder läuft aus und befindet sich daher nur noch zu historischen Zwecken im VoWi.
Vortragende Klaus Nordhausen
ECTS 3
Alias Statistical Simulation and Computerintensive Methods (en)
Letzte Abhaltung 2019WS
Sprache Deutsch
Links tiss:107330
Zuordnungen
Bachelorstudium Software & Information Engineering
Bachelorstudium Medizinische Informatik
Masterstudium Data Science
Bachelorstudium Data Engineering & Statistics

Mattermost: Channel "statistische-simulation-und-computerintensive-methoden0"RegisterMattermost-Infos

Inhalt[Bearbeiten | Quelltext bearbeiten]

Eine Tour quer durch einiges aus der Computerstatistik. Themen:

  • Alogrithmische Umsetzung von z.B. Berechnung der Sample-Varianz, mögliche numerische Probleme.
  • Methoden zur Generierung von Zufallszahlen beliebiger Verteilung (uni-, multivariat)
  • Monte Carlo Integration
  • Bootstrap-Methoden (parametrisch, nichtparametrisch, für Regression, für Zeitreihen, Block Bootstrap), Jackknife, Resampling allgemein.
  • Cross-Validation (Leave one out, k-fold)
  • Expectation Maximization Algorithmus. Gaussian Mixture Model und k-means.
  • Shrinkage Methoden für Regression: Ridge und Lasso Regression, shooting algorithmus
  • Generalisierung von Lasso, Group Lasso, Elastic Net

Pro Thema mindestens eine Einheit, Bootstrapping waren mehrere Einheiten.

Ablauf[Bearbeiten | Quelltext bearbeiten]

Vorlesung: Vortrag auf Deutsch mit Folien (in englischer Sprache), zu fast jeder Vorlesungseinheit (d.h. wöchentlich) ein Übungsblatt mit Programmieraufgaben in R. Es wird ca. 1h Vorgetragen, dann das neue Übungsblatt kurz besprochen, danach kann (soll) man direkt damit beginnen. Es sollte also ein Rechner (Laptop oÄ) mitgebracht werden. Das ist vermutlich so gedacht dass man gleich mögliche auftauchende Fragen behandeln kann. Der Vortragende schaut einem tw. über die Schulter dabei, ich hatte den Eindruck das war nicht jedem unbedingt angenehm.

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten | Quelltext bearbeiten]

Einigermaßen gute Kenntnisse in R sind erforderlich um die Programmieraufgaben zu lösen. Eigene Funktionen schreiben, Matrizenrechnung in R. Statistik Grundlagen sollte man haben, vor allem (die wichtigsten) statistische Tests, Dichtefunktion, Verteilungsfunktion, Transformation von Variablen, Quantile. Das hilft definitiv dem Vortrag zu folgen und mitdenken, mitdiskutieren zu können. Wissen über Regression schadet auch nicht (wurde in einer extra Einheit auch behandelt). (Aus meiner Sicht waren LVs von Filzmoser: Advanced Regression Models und Multivariate Statistik eine gute gegenseitige Ergänzung. Es gibt offenbar von Nordhausen auch eine eigene Computerstatistik LV, die könnte auch eine gute Ergänzung sein).

Vortrag[Bearbeiten | Quelltext bearbeiten]

Alles andere als Frontalvortrag, meist sehr auf Diskussion ausgelegt. Präsentation der Folien, immer wieder Fragen ans Publikum, man wird zum Mitdenken angeregt, Zwischenfragen von Studierenden werden beantwortet. Anekdoten aus der Praxis.

Übungen[Bearbeiten | Quelltext bearbeiten]

WS 18/19: 10 Übungsblätter mit Programmieraufgaben, in R zu lösen. Abzugeben ist ein R-Skript. Die abgegebenen Lösungen wurden leider nicht diskutiert (wie man es z.B. von Filzmoser kennt) und auch nicht mit Punkten oÄ bewertet, zumindest bekam man während des Semesters dazu kein Feedback. Es sollten 70% der Blätter behandelt werden "und auch passen". (Ich habe definitiv nicht alles vollständig gelöst bei der einen oder anderen Übung...).

Zusätzlich gibt es am Semesterende ein Assignment, im Umfang von ca. 2 Übungsblättern. Dafür hat man ca. 1 Monat Zeit. Dazu dann Abgabegespräch, das gleichzeitig die mündliche Prüfung darstellt.

Prüfung, Benotung[Bearbeiten | Quelltext bearbeiten]

WS 18/19: Abgabegespräch zum Abschlussprojekt, mit einigen Fragen zu den Hintergründen, und was man aus den Ergebnissen des Projektes lernen kann.

Dauer der Zeugnisausstellung[Bearbeiten | Quelltext bearbeiten]

dauert...

Zeitaufwand[Bearbeiten | Quelltext bearbeiten]

Ein paar Stunden pro Blatt einplanen, je nachdem wie gut man den Stoff kapiert hat und je nach R-Kenntnissen. Oft kann man Ansätze und Teile der Übung aus den Vorlesungsfolien ableiten oder kopieren. Das Assignment am Schluss nicht unterschätzen vom Aufwand her. Vom Niveau her war die LV allerdings nicht ganz ohne, richtet sich meinem Gefühl nach eher an weiter fortgeschrittene Bachelor- und vor allem Masterstudenten. Weiter Eindrücke anderer Studierender wären hier noch wilkommen!

Unterlagen[Bearbeiten | Quelltext bearbeiten]

Die für den Vortrag verwendeten Slides werden über TISS zur Verfügung gestellt. Folgende Bücher wurden als weiterführende / vertiefende Literatur genannt:

  • Robert, C. and Casella, G. (2004): Monte Carlo Statistical Methods. Springer. [wirkt ganz gut]
  • Davison, A. C. and Hinkley, D.V. (1997): Bootstrap Methods and their Application. Cambridge University Press.
  • Lahiri, S.N. (2003): Resampling Methods for Dependent Data. Springer. [Afaik Standardwerk für Block-Bootstrap uÄ]
  • McLachlan, G. and Peel, D. (2000): Finite Mixture Models. Wiley.
  • Hastie, T., Tibshirani, R.J. and Friedman, J. (2008): The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. [Als PDF frei verfügbar afaik. Wirklich gut und lesenswert!]
  • James, G., Witten, D., Hastie, T. and Tibshirani, R.J. (2017): An Introduction to Statistical Learning: with Applications in R. Springer.
  • Hastie, T., Tibshirani, R.J. and Wainwright, M. (2015): Statistical Learning with Sparsity: The Lasso and Generalizations. CRC Press. [Für Shrinkage, Sparsity-Zeugs]
  • Templ, M. (2016): Simulation for Data Science with R. packtpub.

Tipps[Bearbeiten | Quelltext bearbeiten]

  • Ähnlich wie bei Filzmoser empfand ich es als sehr auf "Hands-on" ausgelegt. Besuch der Vorlesung zahlt sich mMn aus, wenn auch die Übungsaufgaben leider nicht besprochen werden.
  • Die Folien decken zwar das Behandelte einigermaßen gut ab, wer aber bisschen tiefer eintauchen will, sollte sich nicht scheuen Blicke in die Literatur zu werfen, meist kann man mit ein paar Seiten aus einem der genannten Bücher was gewinnen.
  • Deadlines möglichst einhalten, scheinen zum Teil wichtiger zu sein als inhaltliche Richtigkeit, Vollständigkeit.
  • Bei Zweifeln über was bei der (unter Umständen nicht sehr einfach zu verstehenden) Aufgabenstellung gemeint ist: eher zur einfacheren Lösung tendieren und nach ähnlichem in den LV Unterlagen suchen.

Verbesserungsvorschläge / Kritik[Bearbeiten | Quelltext bearbeiten]

Folien etwas stringenter machen, tw. sind Typos drin (idR aber nicht in der Notation /im Code, also weniger ärgerlich). Ich würde es als gewinnbringender empfinden, wenn im Übungsteil der LV (wo das neue Übungsblatt vorgestellt + begonnen wird) stattdessen Lösungen der letzten Übung besprochen werden, als Feedback für die Studierenden.

Materialien

Diese Seite hat noch keine Anhänge, du kannst aber neue hinzufügen.