TU Wien:Statistische Simulation und computerintensive Methoden VU (Nordhausen)

Aus VoWi
Wechseln zu: Navigation, Suche
Ähnlich benannte LVAs (Materialien):

Daten[Bearbeiten]

Vortragende Klaus Nordhausen
ECTS 3
Abteilung Stochastik und Wirtschaftsmathematik
Wann Wintersemester
Links tiss:107330
Zuordnungen
Bachelor Medizinische Informatik Wahlmodul Multivariate und computerintensive statistische Methoden
Bachelor Software & Information Engineering Wahlmodul Multivariate und computerintensive statistische Methoden
Master Data Science Pflichtmodul MLS/CO - Machine Learning and Statistics - Core

Mattermost: Channel "statistische-simulation-und-computerintensive-methoden0" Team invite & account creation link Mattermost-Infos

Inhalt[Bearbeiten]

Eine Tour quer durch einiges aus der Computerstatistik. Themen:

  • Alogrithmische Umsetzung von z.B. Berechnung der Sample-Varianz, mögliche numerische Probleme.
  • Methoden zur Generierung von Zufallszahlen beliebiger Verteilung (uni-, multivariat)
  • Monte Carlo Integration
  • Bootstrap-Methoden (parametrisch, nichtparamtrisch, für Regression, für Zeitreihen, Block Bootstrap), Jackknife, Resampling allgemein.
  • Cross-Validation (Leave one out, k-fold)
  • Expectation Maximization Algorithmus. Gaussian Mixture Model und k-means.
  • Shrinkage Methoden für Regression: Ridge und Lasso Regression, shooting algorithmus
  • Generalisierung von Lasso, Group Lasso, Elastic Net

Pro Thema mindestens eine Einheit, Bootstrapping waren mehrere Einheiten.

Ablauf[Bearbeiten]

Vorlesung: Vortrag auf Deutsch mit Folien (in englischer Sprache), zu fast jeder Vorlesungseinheit (d.h. wöchentlich) ein Übungsblatt mit Programmieraufgaben in R. Es wird ca. 1h Vorgetragen, dann das neue Übungsblatt kurz besprochen, danach kann (soll) man direkt damit beginnen. Es sollte also ein Rechner (Laptop oÄ) mitgebracht werden. Das ist vermutlich so gedacht dass man gleich mögliche auftauchende Fragen behandeln kann. Der Vortragende schaut einem tw. über die Schulter dabei, ich hatte den Eindruck das war nicht jedem unbedingt angenehm.

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten]

Einigermaßen gute Kenntnisse in R sind erforderlich um die Programmieraufgaben zu lösen. Eigene Funktionen schreiben, Matrizenrechnung in R. Statistik Grundlagen sollte man haben, vor allem (die wichtigsten) statistische Tests, Dichtefunktion, Verteilungsfunktion, Transformation von Variablen, Quantile. Das hilft definitiv dem Vortrag zu folgen und mitdenken, mitdiskutieren zu können. Wissen über Regression schadet auch nicht (wurde in einer extra Einheit auch behandelt). (Aus meiner Sicht waren LVs von Filzmoser: Advanced Regression Models und Multivariate Statistik eine gute gegenseitige Ergänzung. Es gibt offenbar von Nordhausen auch eine eigene Computerstatistik LV, die könnte auch eine gute Ergänzung sein).

Vortrag[Bearbeiten]

Alles andere als Frontalvortrag, meist sehr auf Diskussion ausgelegt. Präsentation der Folien, immer wieder Fragen ans Publikum, man wird zum Mitdenken angeregt, Zwischenfragen von Studierenden werden beantwortet. Anekdoten aus der Praxis.

Übungen[Bearbeiten]

WS 18/19: 10 Übungsblätter mit Programmieraufgaben, in R zu lösen. Abzugeben ist ein R-Skript. Die abgegebenen Lösungen wurden leider nicht diskutiert (wie man es z.B. von Filzmoser kennt) und auch nicht mit Punkten oÄ bewertet, zumindest bekam man während des Semesters dazu kein Feedback. Es sollten 70% der Blätter behandelt werden "und auch passen". (Ich habe definitiv nicht alles vollständig gelöst bei der einen oder anderen Übung...).

Zusätzlich gibt es am Semesterende ein Assignment, im Umfang von ca. 2 Übungsblättern. Dafür hat man ca. 1 Monat Zeit. Dazu dann Abgabegespräch, das gleichzeitig die mündliche Prüfung darstellt.

Prüfung, Benotung[Bearbeiten]

noch offen

Dauer der Zeugnisausstellung[Bearbeiten]

noch offen

Zeitaufwand[Bearbeiten]

Ein paar Stunden pro Blatt einplanen, je nachdem wie gut man den Stoff kapiert hat und je nach R-Kenntnissen. Oft kann man Ansätze und Teile der Übung aus den Vorlesungsfolien ableiten oder kopieren. Das Assignment am Schluss nicht unterschätzen vom Aufwand her. Vom Niveau her war die LV allerdings nicht ganz ohne, richtet sich meinem Gefühl nach eher an weiter fortgeschrittene Bachelor- und vor allem Masterstudenten. Weiter Eindrücke anderer Studierender wären hier noch wilkommen!

Unterlagen[Bearbeiten]

Die für den Vortrag verwendeten Slides werden über TISS zur Verfügung gestellt. Folgende Bücher wurden als weiterführende / vertiefende Literatur genannt:

  • Robert, C. and Casella, G. (2004): Monte Carlo Statistical Methods. Springer. [wirkt ganz gut]
  • Davison, A. C. and Hinkley, D.V. (1997): Bootstrap Methods and their Application. Cambridge University Press.
  • Lahiri, S.N. (2003): Resampling Methods for Dependent Data. Springer. [Afaik Standardwerk für Block-Bootstrap uÄ]
  • McLachlan, G. and Peel, D. (2000): Finite Mixture Models. Wiley.
  • Hastie, T., Tibshirani, R.J. and Friedman, J. (2008): The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. [Als PDF frei verfügbar afaik. Wirklich gut und lesenswert!]
  • James, G., Witten, D., Hastie, T. and Tibshirani, R.J. (2017): An Introduction to Statistical Learning: with Applications in R. Springer.
  • Hastie, T., Tibshirani, R.J. and Wainwright, M. (2015): Statistical Learning with Sparsity: The Lasso and Generalizations. CRC Press. [Für Shrinkage, Sparsity-Zeugs]
  • Templ, M. (2016): Simulation for Data Science with R. packtpub.

Tipps[Bearbeiten]

Ähnlich wie bei Filzmoser empfand ich es als sehr auf "Hands-on" ausgelegt. Besuch der Vorlesung zahlt sich mMn aus, wenn auch die Übungsaufgaben leider nicht besprochen werden. Die Folien decken zwar das Behandelte einigermaßen gut ab, wer aber bisschen tiefer eintauchen will, sollte sich nicht scheuen Blicke in die Literatur zu werfen, meist kann man mit ein paar Seiten aus einem der genannten Bücher was gewinnen.

Verbesserungsvorschläge / Kritik[Bearbeiten]

Folien etwas stringenter machen, tw. sind Typos drin (idR aber nicht in der Notatio /im Code, also weniger ärgerlich). Ich würde es als gewinnbringender empfinden, wenn im Übungsteil der LV (wo das neue Übungsblatt vorgestellt + begonnen wird) stattdessen Lösungen der letzten Übung besprochen werden, als Feedback für die Studierenden.


Materialien

Diese Seite hat noch keine Anhänge, du kannst aber neue hinzufügen.