TU Wien:Datenanalyse VU (Filzmoser)

Aus VoWi
Wechseln zu: Navigation, Suche

Daten[Bearbeiten]

Studienplanzuordnungen:

Ziele[Bearbeiten]

Vermittlung einer datenorientierten und explorativen Analyse von statistischen Daten


Inhalt[Bearbeiten]

Stichprobendesign, Planung der statistischen Datenerhebung, Elemente der explorativen Datenanalyse, Grundbegriffe parametrischer/nichtparametrischer und robuster Verfahren, lineare Modelle, Einführung in multivariate statistische Methoden, Einführung in die Zeitreihenanalyse.

Lt. Filzmoser ist das eine etwas geänderte Fortführung der Explorative Datenanalyse und Visualisierung VU, wo jetzt allerdings zusätzlich Zeitreihenanalyse drin ist (was sehr interessant ist, also keine Klagen darüber) und dafür ein paar andere Sachen nicht.

Ablauf[Bearbeiten]

Wöchentliche Vorlesung. 3 "Projekte", das sind mittelgroße Übungsblätter mit 3-4 R-Aufgaben, wo man verschiedene Themen aus der VO mit mehr oder weniger echten Daten ausarbeiten und als PDF mit Grafiken im TUWEL abgeben muss. Bewertung per Tutoren. Bewertung ist (bis jetzt) OK, habe allerdings noch keine Bewertung fürs 3. Blatt erhalten (ich schreibe das gerade einige Tage nach der letzten Abgabe). Am Ende mündliche VO-Prüfung, Anmeldung per TISS.

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten]

  • Statistik VO + UE (definitiv nötig)
  • Interesse am Stoff (eh kloar)
  • R-Kenntnisse empfehlenswert. Wobei ich selbst vor der Übung R wie meinen Erzfeind gemieden habe. Die Übungsblätter enthalten jedoch massenhaft hilfreiche Tipps, wie man die Grafiken zusammenschraubt. Also falls ihr euch von der Beschreibung aus der TU_Wien:Explorative_Datenanalyse_und_Visualisierung_VU_(Filzmoser) ("Habe x Statistik- und R-Kurse besucht") abschrecken lasst: Tut das nicht. Ein halbwegs intelligenter Mensch wird am R sicher nicht scheitern, und nicht einmal in erwähnenswertem Maß langsamer sein.

Vortrag[Bearbeiten]

Sehr gut. Analog anderen Filzmoser-LVAs.

Er lässt neben dem Vortrag keine Folien, sondern das Skriptum am Beamer herlaufen, was eventuell für schlechter Sehende nicht 100%ig angenehm ist.

Übungen[Bearbeiten]

3 Projekte, wo man Daten mit R analysieren muss, Grafiken erstellen, Fragen zu der Analyse beantworten und dann beantwortete Fragen + Grafiken + R-Code als PDF im TUWEL abgeben muss. Benotung per Tutoren. Benotung kommt ca. 1-2 Wochen nach Abgabe. Bei mir war der R-Code pro Projekt ca. 50-100 Zeilen lang. Die Projekte werden prozentuell beurteilt. Auf jedes Projekt muss man mehr als 30% kriegen. Insgesamt muss man durchschnittlich auf alle 3 zusammen mehr als 50% haben, weil die Projekte die schriftliche Prüfung sind (sic!).

Die Tutoren kann man entweder im TUWEL-Forum mit Fragen bombardieren oder per Mail anschreiben, die E-Mail-Adressen werden veröffentlicht. Beides funktioniert ausgezeichnet, wobei bei Mail-Anfragen mMn die Antwort noch schneller kommt als im TUWEL. Dennoch sollte man mit Rücksicht auf die Kollegen vielleicht im TUWEL fragen, falls die Frage nicht spezifisch für die eigene Angabe ist.

ACHTUNG! Die Angaben werden pro Student generiert, wobei die Angabe meist relativ gleich sind, aber unterschiedliche Datensätze genommen werden und die Fragen oft dementsprechend unterschiedlich zu beantworten sind.

Prüfung, Benotung[Bearbeiten]

Mündliche Prüfung. Die 3 Projekte werden als schriftliche Prüfung definiert (komischer Modus, aber es ist halt so. Vielleicht kriegt Filzmoser so mehr bezahlt). Soweit ich weiß, wird schriftlich:mündlich 1:1 gewichtet. (beide Teile müssen aber separat positiv sein -> also schriftlich 1 und mündlich 5 ist nicht Note 3 sondern Note 5)

Die mündliche Prüfung kann laut Prof. Filzmoser bis zum letzten Termin im Mai im Folgejahr absolviert werden.

Die mündliche Prüfung findet in Prof. Filzmosers Büro statt: Freihaus, Grüner Bereich, 6. Stock.

Prof. Filzmoser legt lt. eigener Angabe Wert auf Formeln. Je nach Notenwunsch sollte man die nötigsten Formeln (z.B. Histogramm) bzw. die etwas komplizierteren (Hauptkomponentenanalyse) draufhaben.

Zur Prüfung (meist in 3er Gruppen) bekommt jeder ein A4-Blatt, und Filzmoser gibt jedem eine Aufgabe theoretischer Natur. Die muss man dann kurz am Blatt zusammenfassen, danach wird jeder zu seinem Thema befragt. Danach kommt das ganze nochmal. Ich selbst war nach 2 Fragen erledigt, kann sein dass es insgesamt auch 3 Runden geben kann.

Die Fragen kommen aus dem gesamten Stoffgebiet, ausgenommen R-Code. In meiner Gruppe waren z.B. folgende Fragen (könnts euch immer "mit den wichtigsten Formeln und ein bisschen Erklärung" dazudenken):

  • Histogrammfunktion & Wahl der Intervalllänge nach verschiedenen Methoden (Wichtig: Histogramm-Funktion aufschreiben können + Indikatorfunktion erklären können)
  • Zeitreihen: MA, AR, ARMA, ARIMA-Modelle. Autokovarianz, Autokorrelation (hier war er besonders darauf bedacht, dass ich die richtigen Formeln produziere + komponenten der Formel erklären + Unterschiede).
  • Kriterium für klassische Regression, warum robuste Regression, paar robuste Regressionsmethoden freier Wahl erklären (Formeln der robusten Regression aufschreiben können), LOWESS (hier wäre es gut, die beiden Gewichtungsfunktionen zu kennen und außerdem, wie Regression einfließt. Natürlich muss man nicht die ganze Seite aus dem Skriptum 1:1 runterratschen.)
  • Dichteschätzung & warum gesichert ist, dass bei den gegebenen Eigenschaften der Schätzer auch wirklich eine Dichtefunktion rauskommt (dazu muss man halt die Eigenschaften der Schätzer und die Eigenschaften der Dichtefunktion kennen)
  • QQ-Plots
  • Hauptkomponentenanalyse -> Linearkombination, Definition der Hauptkomponenten, Anzahl der relevanten Hauptkomponenten (das mit dem "Scree Plot" erklären)
  • Mulitvariate Ausreißererkennung -> Formel der Mahalanobis-Distanz aufschreiben können, was ist der "Vorteil" gegenüber Euklidischer-Distanz, wie werden "Ausreißer" erkannt

i.A. fragt er zwar recht streng, die Benotung ist dann aber relativ mild. Wenn man etwas nicht 100%ig richtig hat, hakt er 5x nach, bis irgendjemand genau das gesagt hat, was er hören will. Dennoch kommt es danach meist zu guten Teilbewertungen, die sich dann zu einer guten Gesamtbewertung der mündlichen Prüfung summieren.

Weitere Anmerkungen:

Er ist bei der Prüfung sehr nett und hilft weiter. Das Skriptum als Unterlage hat vollkommen ausgereicht. Grundverständnis aus Statistik sollte vorhanden sein, sonst könnte es schwer werden, alles aus dem Skriptums zu verstehen. Einen Fetzen zu bekommen ist relativ schwierig, er hat einem Kollegen neben mir permanent neue Fragen (am Ende waren wir bei "Was ist denn die Dichtefunktion und was eine Verteilungsfunktion) gestellt, in der Hoffnung, dass er irgendetwas wüsste - die Hoffnung war vergebens . Insgesamt eine sehr nette Prüfung, muss man sich keine großen Sorgen machen davor - Zeit zum Vorbereiten hat man sehr lange, also auch da kein Stress.

WS16: Habe die Prüfung zweimal versucht, 1. Antritt ein knapper 5er (erwartet hab ich laut der VoWi-Einträge einen 3er), zweiter Antritt war dann ein 3er (habe nie versucht etwas besseres zu erreichen). Grundsätzlich kann ich sagen das ich (auch aufgrund der VoWi-Einträge) stark unterschätzt habe wie wichtig es für ihn ist das man die Formeln auswendig kann und die viel strenger die Benotung bei der Prüfung im Vergleich zur Übung ist (Übung benoten angeblich ausschließlich die Tutoren). Wenn man die Formel auf Anhieb richtig hinschreibt fragt er normalerweise nicht mehr sehr genau nach, wenn die Formel nicht 100% stimmt fragt er bis er sicher ist das man alles wirklich verstanden hat (und geht auch gerne mal über sein Skriptum hinaus bis tief in die Statistik). Bei den Fragen sollte man auch besonders die letzten Kapitel genau lernen weil er die gerne fragt. Bei den Prüfungen bei denen ich anwesend war sind jeweils ca 50% durchgekommen, für die meisten davon war es der 2. Antritt (kein Wunder wenn man mit so sanfter Benotung wie bei der Übung rechnet). Erwähnenswert ist dabei ev auch das ich die Vorlesung aufgrund von Terminkollision nicht besuchen konnte, das spart natürlich Zeit beim Skriptum lernen, bei den Formeln hilft es leider wenig. Mein Lernaufwand für den 2. Antritt war ca 40 Stunden (reine Lernzeit ohne Pausen, Tagträumen etc). Für die Formeln kann ich die Lernkartei sehr empfehlen, gerade am Anfang wenn noch alle Karten in der ersten Abteilung sind ist sie aber sehr umfangreich (die einfacheren Karten in der Übersicht lernen hilft hier schneller auf eine normalere Verteilung zu kommen).

WS17: Um eine positive Note zu bekommen muss man die Formeln zu den gefragten Themen aufschreiben können, aber auch nur die Formeln zu wissen würde nicht ausreichend sein. Es wird auch detailliert nachgefragt was jede Variable bedeutet z.B bei der Autokovarianz und Autokorrelation muss man erklären was Ordnung k bedeutet. Prüfungsfragen: PCA, Regression, Exponentielles Glätten, Zeitrehen(MA, AR, ARMA, ARIMA, Autokovarianz und Autokorrelation, Partielle Autokorrelation erklären), LOWESS, Dichteschätzung, Ausreißererkennung, Diskriminanzanalyse, Histogrammfunktion.

SS17: Die Prüfung ist nicht zu unterschätzen! Ein Grundverständnis von Statistik ist wärmstens zu empfehlen. Statistik und Wahrscheinlichkeitstheorie sollte man vorher gemacht und verstanden haben. Es wird sehr auf Zusammenhänge und Verständnis wertgelegt. Diese Zusammenhänge und das Verständnis kommen meiner Meinung nach aber nicht so ganz aus dem Skriptum heraus, daher empfehle ich den Besuch in der Vorlesung. Ansonsten ist das Skriptum ausreichend.

Meine Prüfung hat mit einem Kollegen gleichzeitig stattgefunden. Man bekommt einen A4-Zettel, auf dem man sich Notizen machen kann, und anhand derer man seine Fragen beantwortet und Zusammenhänge erklärt. Wenn man eine Formel hinschreibt, sollte man sämtliche Variablen erklären können, warum was wie gewählt wird und in die Formel einfließt. Man sollte die wichtigsten Formeln zu den Themen aufschreiben und diese interpretieren können.

Gestellte Prüfungsfragen:

  • PCA: Was ist das Ziel der Hauptkomponentenanalyse und warum macht man das? Wenn man nur U = XB hinschreibt, fragt er nach, was das ist. Man muss dann erklären, dass es sich um Matrizen handelt, welche Dimension sie haben und was sie darstellen. Was sind die Spalten der Matrizen? Was davon wird maximiert? Was bedeutet b^T * Sigma * b im Lagrange-Problem? Was sind die Lambdas? (Zitat: "Das ist das Schöne an der Mathematik, dass man nichts auswendig lernen muss.")
  • Eindimensionale Dichteschätzung: Was tut man generell? Welche Eigenschaften hat die Dichte? (Fläche unter der Dichte = 1) Wie wird gewährleistet, dass diese Fläche gleich 1 ist? Kann eine Dichte negativ sein, wenn ja/nein: warum? (Wahl der Gewichtsfunktion: Bei Boxcar und Kosinus-Gewichtsfunktion wird so gewichtet, dass die Gewichte positiv sind.)
  • LMS: Formel aufschreiben. Warum nimmt man dem Median und nicht die Summe im Vergleich zu LS-Regession?
  • LTS (Least Trimmed Sum of Squares): Formel aufschreiben. Welche Werte/Punkte werden weggelassen und warum? (Große Residuenquadrate haben größeren Einfluss)
  • Zeitreihenmodelle: Was bedeuten die u bei MA? (Restkomponenten) Was wird bei ARIMA ersetzt? (xt durch Differenzen)
  • Univariate Ausreißererkennung: Boxplot, IQR, Schätzwerte, ...

Ohne die Vorlesung ernsthaft zu besuchen, habe ich an vier aufeinanderfolgenden Wochenenden zu je mehreren Stunden gelernt - ich arbeite Vollzeit - und einen 4er mit Bauchweh bekommen. Die letzten beiden Fragen wurden dem Kollegen gestellt, jedoch konnte er seine Fragen nicht wirklich beantworten und Prof. Filzmoser hat seine Prüfung nach der zweiten Frage abgebrochen.


Prüfung 30.1.18: Kann mich den anderen anschließen. Ihm sind korrekte Formeln wichtig. Habe ca eine Woche intensiv gelernt und hat für einen schwachen 3er gereicht. Konzentriert euch auf die oben erwähnten Prüfungsfragen!

Prüfung 13.3.18: Zusätzlich kam eine Frage zur Diskriminanzanalyse

Prüfung 15.05.18: LOWESS, PCA, Diskriminanzanalyse, Univariate Schätzer, Autokorr. & Autokovarianz, Kovarianzmatrix erklären (MCD, Spearman Rang-Korrelation) Er legt viel Wert auf Zusammenhänge (man sollte die Formel gut erklären können) ist aber in der Endnote in der Benotung mild und gibt ggf. auch Tipps bzw. Alternativfragen im jeweiligen Themengebiet.

Prüfung 02.10.18: Fragen:

  • Diskriminanzanalyse (Lineare, quadratische Diskriminanzanalyse, Formel der j-ten Gruppe (wie kommt man drauf))
  • Hauptkomponentenanalyse (U=XB, Dimensionen der Matrizen, wie kommt man auf die Spaltenvektoren von b?, Was sind die Bedingungen für die Spalten der score-Matrix (Varianzmaximierung, Einheitsvektoren, Orthogonalität), Wie kann man die Hauptkomponenten ausrechnen? -> Eigenwertproblem (allerdings nicht genau wie das funktioniert))
  • Regression (Formel für LS, andere Verfahren)
  • Medianglättungsalgorithmen (Formel, warum und wie)
  • Histogramme(Allgemeine Formel, Was drückt die Höhe aus? (=Dichte), was die Fläche? (=Häufigkeit), Formeln der Intervallbreiten, warum sind diese Formeln so gewählt)
  • Exponentielles Glätten(Formel für exponentielles Glätten)

Hr. Filzmoser hat jedem ein Thema gegeben zum ausarbeiten (rein theoretisch immer) und während zwei geschrieben hat, sich mit einem unterhalten. Insgesamt 2 Runden das Ganze. Obwohl ich viel geschrieben habe, hat er dann sehr detaillierte Fragen gestellt. (Wie kommt man auf die Formeln, etc.) Mündlich konnte ich ihm nahezu nichts beantworten, doch das Schriftliche hat ausgereicht. Es macht den Anschein als würde er genau das Fragen was man nicht notiert hat, weiß man das auch stehen die Chancen gut auf ein Sehr gut, kann man die Formeln und versteht grundlegendes reicht es auch für ein Befriedigend. Also wie meine Vorredner gesagt haben: Die Prüfung und die Fragen sind schwer und sehr detailliert, allerdings die Benotung dann sehr human.

Dauer der Zeugnisausstellung[Bearbeiten]

Kommt wenige Stunden nach der mündlichen Prüfung.

Zeitaufwand[Bearbeiten]

Die Projektausarbeitungen brauchen jeweils 1-2 Nachmittage. Für die Prüfung hängt der Zeitaufwand sehr stark von der erwarteten Note ab. Wer einen 1er will, sollte sich die meisten Formeln und ev. ein paar Herleitungen wirklich anschauen. Ich habe 2 Wochen lang jeweils täglich ca. 1/2 Stunde in der U-Bahn bzw. am 1 Stunde am WE zuhaus Skriptum gelesen und versucht, die wichtigsten Formeln zu reproduzieren, was locker zu einem 1er gereicht hat.

Unterlagen[Bearbeiten]

SS16: Das Skriptum wird vom Professor im TUWEL zur Verfügung gestellt.

Ein Skriptum, das es um 10€ bei ihm am Institut zu kaufen gibt (FH grüner Bereich, 6. Stock, rechts den ersten (kurzen) Gang bis zum Ende, sein Zimmer ist die letzte Tür links).

Außerdem online der R-Code für sämtliche Abbildungen im Skriptum: [1]

Gute Erklärung von Hauptkomponentenanalyse (principial component analysis): [2] (Anmeldung erforderlich)

Tipps[Bearbeiten]

  • Wie schon erwähnt, die Übungsangaben sind für jeden Studenten unterschiedlich. Stures Abschreiben führt daher unweigerlich zur Katastrophe, vor allem in Anbetracht dessen, dass auf jede Übung mindestens 30% erreicht werden müssen (was bei einem Plagiatsfall sicher nicht erreicht wird).
  • Für einen 1er solltest du bei der Prüfung die Formeln wissen
  • Andere Meinung zum Thema Formeln: Wenn man die Modelle ("Formeln") nicht aufschreiben kann und nur auf Verständnis gelernt kann es schnell in die andere Richtung gehen, da er meinen Beobachtungen nach entweder eine sehr gute Note vergibt oder einen bittet noch einmal zu kommen.
  • R kann man auch online gratis unter https://notebook.thrive.to verwenden , dort finden sich auch einige Beispiele für oft verwendete Funktionen

Verbesserungsvorschläge / Kritik[Bearbeiten]

noch offen