TU Wien:Datenanalyse VU (Filzmoser)

Aus VoWi
Zur Navigation springen Zur Suche springen
Ähnlich benannte LVAs (Materialien):

Daten[Bearbeiten | Quelltext bearbeiten]

Vortragende Peter Filzmoser
ECTS 6,0
Alias Data analysis (en)
Ersetzt Explorative Datenanalyse und Visualisierung VU (Filzmoser)
Letzte Abhaltung 2024S
Sprache „bei bedarf in englisch“ ist kein zulässiger Sprachcode.
Mattermost datenanalyseRegisterMattermost-Infos
Links tiss:105175, tiss:107A03
Zuordnungen
Bachelorstudium Informatik Modul Datenanalyse (Breite Wahl)
Bachelorstudium Wirtschaftsinformatik Modul STW/DAT - Datenanalyse (Pflichtfach)
Bachelorstudium Medizinische Informatik Modul Statistische Datenanalyse (Gebundenes Wahlfach)
Bachelorstudium Software & Information Engineering Modul Statistische Datenanalyse (Gebundenes Wahlfach)

Ziele

Vermittlung einer datenorientierten und explorativen Analyse von statistischen Daten

Inhalt[Bearbeiten | Quelltext bearbeiten]

Stichprobendesign, Planung der statistischen Datenerhebung, Elemente der explorativen Datenanalyse, Grundbegriffe parametrischer/nichtparametrischer und robuster Verfahren, lineare Modelle, Einführung in multivariate statistische Methoden, Einführung in die Zeitreihenanalyse.

Lt. Filzmoser ist das eine etwas geänderte Fortführung der Explorative Datenanalyse und Visualisierung VU, wo jetzt allerdings zusätzlich Zeitreihenanalyse drin ist (was sehr interessant ist, also keine Klagen darüber) und dafür ein paar andere Sachen nicht.

Ablauf[Bearbeiten | Quelltext bearbeiten]

Wöchentliche Vorlesung. 3 "Projekte", das sind mittelgroße Übungsblätter mit 3-4 R-Aufgaben, wo man verschiedene Themen aus der VO mit mehr oder weniger echten Daten ausarbeiten und als PDF mit Grafiken im TUWEL abgeben muss. Bewertung per Tutoren. Bewertung ist (bis jetzt) OK, habe allerdings noch keine Bewertung fürs 3. Blatt erhalten (ich schreibe das gerade einige Tage nach der letzten Abgabe). Am Ende mündliche VO-Prüfung, Anmeldung per TISS.

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten | Quelltext bearbeiten]

  • Statistik VO + UE (definitiv nötig)
  • Interesse am Stoff (eh kloar)
  • R-Kenntnisse empfehlenswert. Wobei ich selbst vor der Übung R wie meinen Erzfeind gemieden habe. Die Übungsblätter enthalten jedoch massenhaft hilfreiche Tipps, wie man die Grafiken zusammenschraubt. Also falls ihr euch von der Beschreibung aus der TU_Wien:Explorative_Datenanalyse_und_Visualisierung_VU_(Filzmoser) ("Habe x Statistik- und R-Kurse besucht") abschrecken lasst: Tut das nicht. Ein halbwegs intelligenter Mensch wird am R sicher nicht scheitern, und nicht einmal in erwähnenswertem Maß langsamer sein.

Vortrag[Bearbeiten | Quelltext bearbeiten]

Sehr gut. Analog anderen Filzmoser-LVAs.

Er lässt neben dem Vortrag keine Folien, sondern das Skriptum am Beamer herlaufen, was eventuell für schlechter Sehende nicht 100%ig angenehm ist.

Übungen[Bearbeiten | Quelltext bearbeiten]

3 Projekte, wo man Daten mit R analysieren muss, Grafiken erstellen, Fragen zu der Analyse beantworten und dann beantwortete Fragen + Grafiken + R-Code als PDF im TUWEL abgeben muss. Benotung per Tutoren. Benotung kommt ca. 1-2 Wochen nach Abgabe. Bei mir war der R-Code pro Projekt ca. 50-100 Zeilen lang. Die Projekte werden prozentuell beurteilt. Auf jedes Projekt muss man mehr als 30% kriegen. Insgesamt muss man durchschnittlich auf alle 3 zusammen mehr als 50% haben, weil die Projekte die schriftliche Prüfung sind (sic!).

Die Tutoren kann man entweder im TUWEL-Forum mit Fragen bombardieren oder per Mail anschreiben, die E-Mail-Adressen werden veröffentlicht. Beides funktioniert ausgezeichnet, wobei bei Mail-Anfragen mMn die Antwort noch schneller kommt als im TUWEL. Dennoch sollte man mit Rücksicht auf die Kollegen vielleicht im TUWEL fragen, falls die Frage nicht spezifisch für die eigene Angabe ist.

ACHTUNG! Die Angaben werden pro Student generiert, wobei die Angabe meist relativ gleich sind, aber unterschiedliche Datensätze genommen werden und die Fragen oft dementsprechend unterschiedlich zu beantworten sind.

Prüfung, Benotung[Bearbeiten | Quelltext bearbeiten]

Mündliche Prüfung. Die 3 Projekte werden als schriftliche Prüfung definiert (komischer Modus, aber es ist halt so. Vielleicht kriegt Filzmoser so mehr bezahlt). Soweit ich weiß, wird schriftlich:mündlich 1:1 gewichtet. (beide Teile müssen aber separat positiv sein -> also schriftlich 1 und mündlich 5 ist nicht Note 3 sondern Note 5)

  • Andere Meinung: schriftlich:mündlich wird NICHT 1:1 gewichtet. Ich hatte nämlich auf die "schriftliche" Prüfung (d.h. auf die 3 Übungen) 78% und somit ein "Gut" und auf die mündliche Prüfung ein "Genügend", habe als Gesamtnote allerdings trotzdem nur ein "Genügend" bekommen. Zitat Peter Filzmoser: "Die Gewichtung 50:50 habe ich nie praktiziert."
  • SS2021: Gewichtung 20-25:75-80 schriftlich:mündlich

Die mündliche Prüfung kann laut Prof. Filzmoser bis zum letzten Termin im Mai im Folgejahr absolviert werden.

Die mündliche Prüfung findet in Prof. Filzmosers Büro statt: Freihaus, Grüner Bereich, 6. Stock.

Prof. Filzmoser legt lt. eigener Angabe Wert auf Formeln. Je nach Notenwunsch sollte man die nötigsten Formeln (z.B. Histogramm) bzw. die etwas komplizierteren (Hauptkomponentenanalyse) draufhaben.

Zur Prüfung (meist in 3er Gruppen) bekommt jeder ein A4-Blatt, und Filzmoser gibt jedem eine Aufgabe theoretischer Natur. Die muss man dann kurz am Blatt zusammenfassen, danach wird jeder zu seinem Thema befragt. Danach kommt das ganze nochmal. Ich selbst war nach 2 Fragen erledigt, kann sein dass es insgesamt auch 3 Runden geben kann.

Die Fragen kommen aus dem gesamten Stoffgebiet, ausgenommen R-Code. In meiner Gruppe waren z.B. folgende Fragen (könnts euch immer "mit den wichtigsten Formeln und ein bisschen Erklärung" dazudenken):

  • Histogrammfunktion & Wahl der Intervalllänge nach verschiedenen Methoden (Wichtig: Histogramm-Funktion aufschreiben können + Indikatorfunktion erklären können)
  • Zeitreihen: MA, AR, ARMA, ARIMA-Modelle. Autokovarianz, Autokorrelation (hier war er besonders darauf bedacht, dass ich die richtigen Formeln produziere + komponenten der Formel erklären + Unterschiede).
  • Kriterium für klassische Regression, warum robuste Regression, paar robuste Regressionsmethoden freier Wahl erklären (Formeln der robusten Regression aufschreiben können), LOWESS (hier wäre es gut, die beiden Gewichtungsfunktionen zu kennen und außerdem, wie Regression einfließt. Natürlich muss man nicht die ganze Seite aus dem Skriptum 1:1 runterratschen.)
  • Dichteschätzung & warum gesichert ist, dass bei den gegebenen Eigenschaften der Schätzer auch wirklich eine Dichtefunktion rauskommt (dazu muss man halt die Eigenschaften der Schätzer und die Eigenschaften der Dichtefunktion kennen)
  • QQ-Plots
  • Hauptkomponentenanalyse -> Linearkombination, Definition der Hauptkomponenten, Anzahl der relevanten Hauptkomponenten (das mit dem "Scree Plot" erklären)
  • Mulitvariate Ausreißererkennung -> Formel der Mahalanobis-Distanz aufschreiben können, was ist der "Vorteil" gegenüber Euklidischer-Distanz, wie werden "Ausreißer" erkannt

i.A. fragt er zwar recht streng, die Benotung ist dann aber relativ mild. Wenn man etwas nicht 100%ig richtig hat, hakt er 5x nach, bis irgendjemand genau das gesagt hat, was er hören will. Dennoch kommt es danach meist zu guten Teilbewertungen, die sich dann zu einer guten Gesamtbewertung der mündlichen Prüfung summieren.

Weitere Anmerkungen:

Er ist bei der Prüfung sehr nett und hilft weiter. Das Skriptum als Unterlage hat vollkommen ausgereicht. Grundverständnis aus Statistik sollte vorhanden sein, sonst könnte es schwer werden, alles aus dem Skriptums zu verstehen. Einen Fetzen zu bekommen ist relativ schwierig, er hat einem Kollegen neben mir permanent neue Fragen (am Ende waren wir bei "Was ist denn die Dichtefunktion und was eine Verteilungsfunktion) gestellt, in der Hoffnung, dass er irgendetwas wüsste - die Hoffnung war vergebens . Insgesamt eine sehr nette Prüfung, muss man sich keine großen Sorgen machen davor - Zeit zum Vorbereiten hat man sehr lange, also auch da kein Stress.

WS16: Habe die Prüfung zweimal versucht, 1. Antritt ein knapper 5er (erwartet hab ich laut der VoWi-Einträge einen 3er), zweiter Antritt war dann ein 3er (habe nie versucht etwas besseres zu erreichen). Grundsätzlich kann ich sagen das ich (auch aufgrund der VoWi-Einträge) stark unterschätzt habe wie wichtig es für ihn ist das man die Formeln auswendig kann und die viel strenger die Benotung bei der Prüfung im Vergleich zur Übung ist (Übung benoten angeblich ausschließlich die Tutoren). Wenn man die Formel auf Anhieb richtig hinschreibt fragt er normalerweise nicht mehr sehr genau nach, wenn die Formel nicht 100% stimmt fragt er bis er sicher ist das man alles wirklich verstanden hat (und geht auch gerne mal über sein Skriptum hinaus bis tief in die Statistik). Bei den Fragen sollte man auch besonders die letzten Kapitel genau lernen weil er die gerne fragt. Bei den Prüfungen bei denen ich anwesend war sind jeweils ca 50% durchgekommen, für die meisten davon war es der 2. Antritt (kein Wunder wenn man mit so sanfter Benotung wie bei der Übung rechnet). Erwähnenswert ist dabei ev auch das ich die Vorlesung aufgrund von Terminkollision nicht besuchen konnte, das spart natürlich Zeit beim Skriptum lernen, bei den Formeln hilft es leider wenig. Mein Lernaufwand für den 2. Antritt war ca 40 Stunden (reine Lernzeit ohne Pausen, Tagträumen etc). Für die Formeln kann ich die Lernkartei sehr empfehlen, gerade am Anfang wenn noch alle Karten in der ersten Abteilung sind ist sie aber sehr umfangreich (die einfacheren Karten in der Übersicht lernen hilft hier schneller auf eine normalere Verteilung zu kommen).

WS17: Um eine positive Note zu bekommen muss man die Formeln zu den gefragten Themen aufschreiben können, aber auch nur die Formeln zu wissen würde nicht ausreichend sein. Es wird auch detailliert nachgefragt was jede Variable bedeutet z.B bei der Autokovarianz und Autokorrelation muss man erklären was Ordnung k bedeutet. Prüfungsfragen: PCA, Regression, Exponentielles Glätten, Zeitrehen(MA, AR, ARMA, ARIMA, Autokovarianz und Autokorrelation, Partielle Autokorrelation erklären), LOWESS, Dichteschätzung, Ausreißererkennung, Diskriminanzanalyse, Histogrammfunktion.

SS17: Die Prüfung ist nicht zu unterschätzen! Ein Grundverständnis von Statistik ist wärmstens zu empfehlen. Statistik und Wahrscheinlichkeitstheorie sollte man vorher gemacht und verstanden haben. Es wird sehr auf Zusammenhänge und Verständnis wertgelegt. Diese Zusammenhänge und das Verständnis kommen meiner Meinung nach aber nicht so ganz aus dem Skriptum heraus, daher empfehle ich den Besuch in der Vorlesung. Ansonsten ist das Skriptum ausreichend.

Meine Prüfung hat mit einem Kollegen gleichzeitig stattgefunden. Man bekommt einen A4-Zettel, auf dem man sich Notizen machen kann, und anhand derer man seine Fragen beantwortet und Zusammenhänge erklärt. Wenn man eine Formel hinschreibt, sollte man sämtliche Variablen erklären können, warum was wie gewählt wird und in die Formel einfließt. Man sollte die wichtigsten Formeln zu den Themen aufschreiben und diese interpretieren können.

Gestellte Prüfungsfragen:

  • PCA: Was ist das Ziel der Hauptkomponentenanalyse und warum macht man das? Wenn man nur U = XB hinschreibt, fragt er nach, was das ist. Man muss dann erklären, dass es sich um Matrizen handelt, welche Dimension sie haben und was sie darstellen. Was sind die Spalten der Matrizen? Was davon wird maximiert? Was bedeutet b^T * Sigma * b im Lagrange-Problem? Was sind die Lambdas? (Zitat: "Das ist das Schöne an der Mathematik, dass man nichts auswendig lernen muss.")
  • Eindimensionale Dichteschätzung: Was tut man generell? Welche Eigenschaften hat die Dichte? (Fläche unter der Dichte = 1) Wie wird gewährleistet, dass diese Fläche gleich 1 ist? Kann eine Dichte negativ sein, wenn ja/nein: warum? (Wahl der Gewichtsfunktion: Bei Boxcar und Kosinus-Gewichtsfunktion wird so gewichtet, dass die Gewichte positiv sind.)
  • LMS: Formel aufschreiben. Warum nimmt man dem Median und nicht die Summe im Vergleich zu LS-Regession?
  • LTS (Least Trimmed Sum of Squares): Formel aufschreiben. Welche Werte/Punkte werden weggelassen und warum? (Große Residuenquadrate haben größeren Einfluss)
  • Zeitreihenmodelle: Was bedeuten die u bei MA? (Restkomponenten) Was wird bei ARIMA ersetzt? (xt durch Differenzen)
  • Univariate Ausreißererkennung: Boxplot, IQR, Schätzwerte, ...

Ohne die Vorlesung ernsthaft zu besuchen, habe ich an vier aufeinanderfolgenden Wochenenden zu je mehreren Stunden gelernt - ich arbeite Vollzeit - und einen 4er mit Bauchweh bekommen. Die letzten beiden Fragen wurden dem Kollegen gestellt, jedoch konnte er seine Fragen nicht wirklich beantworten und Prof. Filzmoser hat seine Prüfung nach der zweiten Frage abgebrochen.

Prüfung 30.1.2018: Kann mich den anderen anschließen. Ihm sind korrekte Formeln wichtig. Habe ca eine Woche intensiv gelernt und hat für einen schwachen 3er gereicht. Konzentriert euch auf die oben erwähnten Prüfungsfragen!

Prüfung 13.3.2018: Zusätzlich kam eine Frage zur Diskriminanzanalyse

Prüfung 15.05.2018: LOWESS, PCA, Diskriminanzanalyse, Univariate Schätzer, Autokorr. & Autokovarianz, Kovarianzmatrix erklären (MCD, Spearman Rang-Korrelation) Er legt viel Wert auf Zusammenhänge (man sollte die Formel gut erklären können) ist aber in der Endnote in der Benotung mild und gibt ggf. auch Tipps bzw. Alternativfragen im jeweiligen Themengebiet.

Prüfung 02.10.2018: Fragen:

  • Diskriminanzanalyse (Lineare, quadratische Diskriminanzanalyse, Formel der j-ten Gruppe (wie kommt man drauf))
  • Hauptkomponentenanalyse (U=XB, Dimensionen der Matrizen, wie kommt man auf die Spaltenvektoren von b?, Was sind die Bedingungen für die Spalten der score-Matrix (Varianzmaximierung, Einheitsvektoren, Orthogonalität), Wie kann man die Hauptkomponenten ausrechnen? -> Eigenwertproblem (allerdings nicht genau wie das funktioniert))
  • Regression (Formel für LS, andere Verfahren)
  • Medianglättungsalgorithmen (Formel, warum und wie)
  • Histogramme(Allgemeine Formel, Was drückt die Höhe aus? (=Dichte), was die Fläche? (=Häufigkeit), Formeln der Intervallbreiten, warum sind diese Formeln so gewählt)
  • Exponentielles Glätten(Formel für exponentielles Glätten)

Hr. Filzmoser hat jedem ein Thema gegeben zum ausarbeiten (rein theoretisch immer) und während zwei geschrieben hat, sich mit einem unterhalten. Insgesamt 2 Runden das Ganze. Obwohl ich viel geschrieben habe, hat er dann sehr detaillierte Fragen gestellt. (Wie kommt man auf die Formeln, etc.) Mündlich konnte ich ihm nahezu nichts beantworten, doch das Schriftliche hat ausgereicht. Es macht den Anschein als würde er genau das Fragen was man nicht notiert hat, weiß man das auch stehen die Chancen gut auf ein Sehr gut, kann man die Formeln und versteht grundlegendes reicht es auch für ein Befriedigend. Also wie meine Vorredner gesagt haben: Die Prüfung und die Fragen sind schwer und sehr detailliert, allerdings die Benotung dann sehr human.

Prüfung 07.03.2019: PCA, Zeitreihen (MA, AR Unterschiede erklären, Formel für ACF), Formel für exp. Glätten.

Prüfung 09.04.2019: LDA & QDA (inklusive Idee dahinter bzw wie man darauf kommt), Clusteranalyse (inkl Zielkriterium bei kmeans), expo. Glätten, Regression (verschiedene Methoden), Zeitreihenmodelle, PCA, MCD. Überraschend war, dass es diesmal sogar vier Runden gab und die Prüfung insgesamt etwa 40 oder 45min gedauert hat (war der letzte Termin und 3 Personen anwesend).

Prüfung 16.05.2019: Dichteschätzung (univariat), Hauptkomponentenanalyse, Diskriminanzanalyse, Clustering (k-means, modellbasiert), Repeated median Glättung, Robuste Regression

Prüfung 16.07.2019: Histogramm-Funktion, wie kommt man auf Sturges, Scott und F&D? Exponentielles Glätten inkl. Holt Winters, Zeitreihenmodelle inkl. Autokovarrianz und Autokorrelation, Multivariate Ausreißererkennung (Mahalanobis-Distanz), LOWESS, PCA, Diskriminanzanalyse.

Anm. zu 16.07: Im Endeffekt geht es nur darum, die Sachverhalte mit den Formeln kurz zu erklären. Prof. Filzmoser gibt dabei durchaus Tipps und ist bei der Benotung sehr human, für eine positive Note muss man aber die Formeln können (bzw. wenn sie nicht zu 100% richtig sind entsprechend korrigieren können). Wenn das Verständnis bereits da ist, reichen 3-5 Tage für das Wiederholen der Formeln locker aus, auch für eine sehr gute Note - kommt aber darauf an, wie gut man sich Formeln merken kann.

Prüfung 15.10.2021: Mündliche Prüfungen fanden an diesem Termin online statt. Deshalb gab es keine Vorbereitungszeit. Die Prüfungsatmosphäre war aber sehr angenehm und Hr. Prof. Filzmoser hat einem auch sehr viel Zeit gelassen. Die Fragen wurden - anders als oben behauptet - sehr angenehm gestellt. Wichtig war ihm, dass man die korrekten Formeln aufschreibt und auch erklärt. Die Fragen waren konkret:

  • Diskriminanzanalyse: Bayes Theorem aufschreiben, Wozu wird Dichtefunktion benötigt, Wann wählt man LDA und QDA (nicht nur theoretisch, sondern wie entscheidet man das in der Praxis? - Das war eine Zusatzfrage. Ich konnte sie nicht beantworten und habe trotzdem eine 1 bekommen)
  • MA, AR, Autokorrelation: Wann verwendet man MA, wann AR? Modelle aufschreiben und Unterschied erklären. Was ist die Autokorrelation: Formel aufschreiben. Was ist die partielle Autokorrelation - wie wird die berechnet? (Wie sie berechnet wird (also einen konkreten Rechenweg) konnte ich nicht wiedergeben.)
  • Robustes Filtern: Hier wollte er nur wissen, dass man lokale Linearität annimmt und welche Form diese hat. Das gesamte Verfahren braucht man nicht lernen. Es reicht, wenn man dann sagt, dass man Siegel und Qn und gängige Ausreißererkennung verwenden kann, um Ausreißer zu identifizieren.

Zeugnis wurde 4 Tage später ausgestellt.

Prüfung 29.06.2022

Mündliche Prüfung wurde Vorort (auf der TU) geschrieben. Es gab mehrere 30 Minuten Slots wo max. 5 Studenten/Slot die Prüfung parallel geschrieben haben. Man hat einen Zettel bekommen und musste 3 Themen bearbeiten die nacheinander gestellt wurden. Prof.Filzmoser hat jedem ein Themengebiet zum vorbereiteten gegeben und nach zirka 5 Minuten nachgesehen ob man mit der Vorbereitung fertig ist. Falls ja, hat Prof. Filzmoser zu dem was vorbereitet wurde Fragen gestellt und davon gab es drei Runden.

Meine Prüfungsfragen/Themengebiete waren:

  • Exponentielles Glätten und Holt-Winters
  • Zeitreihenmodelle (MA, AR, ARMA, ARIMA)
  • Multivariate Ausreißererkennung (Mahalanobis-Distanz)

Wie erwähnt wurden generell Themengebieten zum vorbereiten gegeben aber die Fragen die gestellt wurden waren sehr detailliert. Insbesondere wurde pro Themengebiet noch folgendes gefragt:

  • ZU Exponentielles Glätten und Holt-Winters: Was ist speziell bei Holt-Winters anders? Wie sehen die Prognosen der beiden Methoden aus wenn man Zeitreihen vorhersagen würde?
  • ZU Zeitreihenmodelle: Was passiert wenn man das Vorzeichen vom Fehlerterm im MA-Modell umkehrt (von minus auf plus)? --> (Es ändert sich nichts) Wie unterscheiden sich MA, AR Modelle? Wie kann der Lag dieser beiden Modelle bestimmt werden? --> (ACF, PACF)
  • ZU Multivariate Ausreißererkennung: Wie können Ausreißer damit identifiziert werden? --> (Siehe dazu Skript Seite 90 und/oder Erklärung zu Abbildung 9.4)

Ich konnte die Fragen kaum beantworten aber die Formeln alle richtig wiedergeben und habe eine 3 bekommen. Ein Studienkollege hat bei der Prüfung Schwierigkeiten gehabt die Fragen zu beantworten und anscheinend die Formeln zu schreiben. Prof. Filzmoser hat ihm angeraten sich genauer die Formeln anzusehen für das nächste Mal.

Prüfung 11.07.2022

Ich habe mich von meinen Vorrednern hier sehr unter Druck setzen lassen und im Endeffekt war es eigentlich ziemlich harmlos. Wenn man die Formeln einigermaßen kann kommt man sicher durch. Bei kleinen Fehlern in den Formeln hilft er auch weiter. Bei mir haben dreieinhalb Tage intensives lernen für einen Einser gereicht - und das obwohl ich nicht annähernd das Gefühl hatte alles zu 100% zu verstehen.

Prüfung 27.07.2022

Es war genau so wie beschrieben bei der Prüfung vom 11.07., der Professor ist durchgegangen und hat jedem der Reihe nach ein Thema genannt, für welches man daraufhin wenige Minuten Zeit hatte, sich vorzubereiten. Er gibt dafür ein leeres Blatt Papier her (was man am Ende der Prüfung nicht behalten darf, er nimmt es wieder mit), worauf man die wichtigsten Formeln zum Thema notieren soll. Er geht dann der Reihe nach durch und fragt dann allgemeine Fragen dazu (zB Vorbedingungen, welche Bedeutung ein gewisser Teil der Formel hat, ...) und nennt dann ein neues Thema, wozu man wieder etwas vorbereiten soll (es geht also 2-3 Runden so weiter). Ich habe das Gefühl, wenn man die Formeln (fast) richtig aufschreiben kann, man sozusagen schon durch ist, da ich gefühlsmäßig oft die mündlichen Fragen nicht oder nur falsch beantworten konnte, trotzdem habe ich eine 1 bekommen (was mich überrascht hat, ich hatte auch nicht annähernd das Gefühl, alles verstanden zu haben).

Meine Fragen/Themengebiete waren:

  • Lineare Regression (LS, LMS, LTS): Warum ist LS so beliebt für lineare Regression? Formel erklären? Was sind die Bedingungen für LS? Was ist der Unterschied zu LTS und LMS?
  • LOESS: Was ist das Prinzip bei LOESS? Wie geht man vor?
  • Mulitvariate Outlier Detection: Er hat keine Fragen dazu gestellt, was ich notiert hatte hat ihn anscheinend davon überzeugt, dass ich es verstehen würde. Ich hatte notiert, dass die Mahalanobis Distanz dafür verwendet wird + deren Formel, dass man die Parameter mü und Sigma mittels MCD abschätzt und was der cut-off value für outlier ist.

Prüfung 17.10.2022

Erneut, wie in den Beschreibungen der vorherhigen Antritte, der Prof. geht zu jedem Studi und gibt ein Thema an zu dem man aufschreiben soll, was man dazu weiß. Er lässt einem kurz Zeit damit. Danach beginnt er bei einem Studi und bittet das Aufgeschriebene zu erklären, ggf. auch nachzufragen wenn etwas nicht stimmt oder unklar ist. Hierbei ist er aber recht locker und gibt kleine Hinweise (z.B. jemand wusste nicht, wie man mit Mahalanobisdistanz Outlier Identification macht; Filzmoser gibt den Hinweis, dass es vielleicht, ähnlich wie im univariaten Fall, mit der Annahme einer Verteilungsfunktion und Quantilen geht, aber eben nicht Normalverteilung). Jeder hat so 3 Frage-Antwort Runden durchgemacht.

In unserem Fall kamen die Themen:

  • Lineare Regression (LS, LMS, LTS): Was is das zugrundeliegende Modell? (und weiter Fragen)
  • Diskriminanz Analyse: Annahmen und Formeln für LDA, QDA
  • K-Means: Kostenfunktion aufschreiben und erklären
  • Outlier Identification (uni- und multivariat): Boxplot Regel, mu+-2*sigma, Mahalanobis Distanz Formel mit cutoff durch Chi^2 Verteilung
  • Varianz Schätzung (multivarait): Formel aufschreiben und erklären: konventionell: Stichprobenvarianz -> Covarianzmatrix, robutst: MCD
  • Time Series Smoothing: Formeln für Exponentielles Glätten und Holt-Winters aufschreiben, wie kann man damit Forecasting machen?
  • Autocorrelation: Formel aufschreiben und erklären

Prüfung 25.01.2023

As others mentioned, he gave first a question to everyone and let you write notes (formulae, no text needed) down on a piece of paper, then he came around and asked questions about the topic. He helped with notation of formulae and was very nice. My studying strategy was reading through his lecture notes to understand the concepts and then memorizing the formulae (e.g. using the summary from the Materials section). Overall I studied together with his other course AMRC around 40h plus 15h for this exam.

My questions were:

  • What is PCA model and how to estimate the parameters, what do we try to optimize?
  • How can we estimate the covariance? (show formula for estimate and describe MCD)
    • what happens when we use MCD and how do we choose the number of observations in the subsample (subsampling uses less observations, hence increases variance and decreases precision)

Prüfung 27.06.2023

Bei mir wurde gefragt:

  • Regression (klassisch Least-Squares, Tukey, Theil, Siegel)
  • exp. Smoothing & Holt-Winters
  • kmeans-Algorithmus, inkl. Zielfunktion

Ich konnte überall grob die Formeln aufschreiben und erklären um was es geht/wies funktioniert. Er hat dann aber immer sehr genau nachgefragt, bis ich dann irgendwann die Fragen auch nicht mehr beantworten konnte. Schlussendlich hab ich dann aber eh einen 1er gekriegt, er benotet also wirklich nett. Das Allerwichtigste ist, dass man die Themen wirklich auch versteht, was Nach- & Vorteile der Methoden sind etc. Stures Lernen der Formeln bringt einem nichts, wenn man die Konzepte dahinter nicht auch verstanden hat. Wenn man es ihm ausreichend erklären kann, passt es dafür auch wenn eine Formel nicht ganz stimmt.

Prüfung 22.01.2024

Meine Fragen heute waren:

  • Exponentielles Glätten
  • Univariate Ausreißererkennung
  • Histogramm

Er lässt einem Zeit und hilft auch wenn man Schwierigkeiten hat die Frage zu beantworten: Trotztdem muss man schon irgendetwas wissen und aufschreiben. Wir waren heute zu 7 gleichzeitig im Kursraum. 4 haben die Prüfung nicht bestanden.

Prüfung 07.03.2024

Prüfungsablauf wie bisher. Fragen in der Runde waren genau wie die bereits genannten Fragen. Unter anderem

  • Diskriminanzanalyse
  • Model Based Clustering (welche Parameter müssen geschätzt werden, wo kann es zu Problemen kommen (Kovarianz Matrix hat Dimension p x p))
  • Robust Filtering (welche Parameter müssen geschätzt werden, wie kann man ein Konfidenzintervall ermitteln)
  • Dichteabschätzungen (univariat und multivariat)
  • PCA
  • Kovarianzmatrix
  • Regression (simple und robuste)
  • Holt Winters und exponentielles Glätten
  • Zeitreihenanalyse (die 4 Modelle beschreiben)

Wenn man die Idee dahinter erklären konnte und weiß, wie die Parameter der Formeln aussehen (also welche Dimension eine Matrix zb hat) bzw. wie man gegebenenfalls die Parameter schätzen kann, ist man sehr gut dabei. Kleine Fehler sind "erlaubt".

Dauer der Zeugnisausstellung[Bearbeiten | Quelltext bearbeiten]

Kommt wenige Stunden nach der mündlichen Prüfung.

Prüfung am 27.07., Zeugnis wurde 24 Std später ausgestellt.

Prüfung am 07.03.24, Zeugnis 2h später

Zeitaufwand[Bearbeiten | Quelltext bearbeiten]

Die Projektausarbeitungen brauchen jeweils 1-2 Nachmittage. Für die Prüfung hängt der Zeitaufwand sehr stark von der erwarteten Note ab. Wer einen 1er will, sollte sich die meisten Formeln und ev. ein paar Herleitungen wirklich anschauen. Ich habe 2 Wochen lang jeweils täglich ca. 1/2 Stunde in der U-Bahn bzw. am 1 Stunde am WE zuhaus Skriptum gelesen und versucht, die wichtigsten Formeln zu reproduzieren, was locker zu einem 1er gereicht hat.

SS21/WS21 Die Übungen waren nicht immer leicht, aber kein großer Aufwand. 1-2 Nachmittage sollte man einplanen. Die Prüfung sollte man wirklich nicht unterschätzen. Ich habe 4 Tage gelernt und es hat für eine 1 gereicht. Das war aber eine wirklich stressige Phase. Ich empfehle also jedem, der nicht von Kovarianzmatrizen und Mahalanobis-Distanzen träumen möchte, mehr Zeit einzuplanen.

Unterlagen[Bearbeiten | Quelltext bearbeiten]

SS16: Das Skriptum wird vom Professor im TUWEL zur Verfügung gestellt.

Ein Skriptum, das es um 10€ bei ihm am Institut zu kaufen gibt (FH grüner Bereich, 6. Stock, rechts den ersten (kurzen) Gang bis zum Ende, sein Zimmer ist die letzte Tür links).

Außerdem online der R-Code für sämtliche Abbildungen im Skriptum: [1]

Gute Erklärung von Hauptkomponentenanalyse (principial component analysis): [2] (Anmeldung erforderlich)

Tipps[Bearbeiten | Quelltext bearbeiten]

  • Investiert viel mehr Zeit darin für die mündliche Prüfung zu lernen, als sich zu viel mit den 3 Übungen zu beschäftigen. Ich hatte nämlich auf die "schriftliche" Prüfung (d.h. auf die 3 Übungen) 78% und somit ein "Gut" und auf die mündliche Prüfung ein "Genügend", habe als Gesamtnote allerdings trotzdem nur ein "Genügend" bekommen. Zitat Peter Filzmoser: "Die Gewichtung 50:50 habe ich nie praktiziert."
  • Wie schon erwähnt, die Übungsangaben sind für jeden Studenten unterschiedlich. Stures Abschreiben führt daher unweigerlich zur Katastrophe, vor allem in Anbetracht dessen, dass auf jede Übung mindestens 30% erreicht werden müssen (was bei einem Plagiatsfall sicher nicht erreicht wird).
  • Für einen Einser solltest du bei der Prüfung die Formeln wissen.
  • Andere Meinung zum Thema Formeln: Wenn man die Modelle ("Formeln") nicht aufschreiben kann und nur auf Verständnis gelernt kann es schnell in die andere Richtung gehen, da er meinen Beobachtungen nach entweder eine sehr gute Note vergibt oder einen bittet noch einmal zu kommen.
  • R kann man auch online gratis unter https://notebook.thrive.to verwenden, dort finden sich auch einige Beispiele für oft verwendete Funktionen.

Highlights / Lob[Bearbeiten | Quelltext bearbeiten]

noch offen

Verbesserungsvorschläge / Kritik[Bearbeiten | Quelltext bearbeiten]

noch offen