TU Wien:Explorative Datenanalyse und Visualisierung VU (Filzmoser)
Daten[Bearbeiten | Quelltext bearbeiten]
Vortragende | Peter Filzmoser |
---|---|
Links | Homepage |
Bachelorstudium Data Engineering & Statistics | |
Masterstudium Medizinische Informatik |
Inhalt[Bearbeiten | Quelltext bearbeiten]
Titel ist Programm. Explorative Datenanalyse betreiben heißt, aus Daten Ideen zu gewinnen, welche Zusammenhänge es hier geben könnte. Hypothesengenerierung also - im Gegensatz zur Inferenzstatistik, in der man Hypothesen, die man bereits hat, auf Signifikanz testet. Diese Hypothesengenerierung geht natürlich Hand in Hand mit verschiedenen Visualisierungstechniken, die auch in der Vorlesung behandelt werden: Wie visualisiere ich Datensätze auf eine Art, die mir Erkenntnisse über Zusammenhänge in den Daten liefern kann? Ich würde sagen, diese Vorlesung ist quasi Pflicht für jeden, der sich tiefergehend mit Statistik beschäftigen will.
Empfehlenswerte Vorkenntnisse[Bearbeiten | Quelltext bearbeiten]
Sowohl gute Statistik-Kenntnisse (mehr, als sich nur halbherzig durch Statistik & Wahrscheinlichkeitstheorie gewurschtelt zu haben) als auch etwas Erfahrung im Umgang mit R sind äußerst empfehlenswert für diese Vorlesung.
Wie viel Vorwissen man wirklich braucht, kann ich allerdings schwer einschätzen. Ich selbst habe vor dieser Vorlesung neben VO+UE Statistik und Wahrscheinlichketistheorie noch den 9 Semesterwochenstunden Basisurs Statistik sowie die 2 SWS VO Statistical Computing (über R) gemacht, ich glaube aber, man kommt mit etwas weniger Vorkenntnissen auch aus, ausreichend Interesse für die Materie vorausgesetzt.
- Meiner Meinung nach ist es nicht unbedingt notwendig, Statistik und Wahrscheinlichkeitstheorie abgeschlossen zu haben, wenn man mitlernt und genügend Interesse für R und statistische Themen aufbringen kann. Filzmoser bemüht sich sehr, seinen Vortrag "anfängerfreundlich" zu gestalten und wiederholt auch sehr grundlegende Sachen (zB Definition einer Verteilungsfunktion). Einige Kolleg/innen von mir haben diese LVA und die Statistik-Einführung parallel besucht und keine Schwierigkeiten gehabt. Allmylittlewords 17:49, 11. Okt. 2011 (CEST)
Vortrag[Bearbeiten | Quelltext bearbeiten]
Der Vortrag ist von so ziemlich allen, die ich dort gesehen habe, als ausgezeichnet wahrgenommen worden. Prof. Filzmoser ist sehr bemüht, den Stoff auf verständliche Art näherzubringen, geht gerne auf Fragen ein und schafft es stets, den Vortrag interessant zu gestalten. Insgesamt kann ich sagen, dass die EDAVis-Vorlesung zu den besten Vorlesungen zählt, die ich auf der TU bisher gehört habe, was sich auch in den LVA-Bewertungen widergespiegelt hat.
Übungen[Bearbeiten | Quelltext bearbeiten]
Es gibt jede Woche ein Übungsblatt, das man in R ausarbeitet und den R-code schickt man per Mail an Prof. Filzmoser. Nach der Vorlesung werden dann die Lösungen von einigen Teilnehmern besprochen.
Zu den Übungsblättern selbst ist zu sagen, dass in den Übungsblättern nicht nur die Angaben selbst, sondern auch Hilfestellungen zur Lösung derselben gegeben sind (in Form der Namen der benötigten R-Funktionen - die Hilfeseiten dieser Funktionen in R waren ansonsten neben dem Skriptum die einzigen Unterlagen, die ich zur Lösung der Übungsbeispiele gebraucht haben).
Prüfung[Bearbeiten | Quelltext bearbeiten]
Die Prüfung erfolgt mündlich (und einzeln, also keine Gruppenprüfung).
Meine Prüfungsfragen:
- Methoden zur robusten Geradenanpassung (Tukey, Theil, Siegel, LMS, LTS, LOWESS (hätte ich persönlich nicht zur Geradenanpassung gezählt, aber er hat explizit danach gefragt))
- PCA (Warum, Wie, Was kommt dabei raus, Was sind gute Voraussetzungen) -> Wie macht man robuste PCA - das führt direkt zur letzten Frage:
- MCD
Es müssen nicht alle Formeln auf Punkt und Komma richtig sein, viel wichtiger ist es, die Verfahren verstanden zu haben und gut erklären zu können.
Ich habe im Großen und Ganzen sehr ähnliche Fragen gestellt bekommen, wie der Kollege über mir.. Regression, PCA, MCD, LOWESS.. Dazu noch Histogramme (hier wurde auch ganz grob gefragt, welche Variablen wohl in die verschiedenen Kriterien für "optimale" Klassenbreiten hineinspielen, und was "optimal" überhaupt bedeutet), das Wahrscheinlichkeitsnetz und Density Traces. Die meisten Fragen waren so gestellt, dass man zuerst grob erklären musste, wie die Verfahren funktionieren, und bei einigen dann eine Formel zur Berechnung angeben (wobei einem hier von Professor Filzmoser ein wenig unter die Arme gegriffen wird, falls man mal ansteht). Alles in allem war es meine erste Prüfung bei Professor Filzmoser und ich muss sagen, eine der entspanntesten, die ich bisher absolviert habe. Ein sehr sehr freundliches Gesprächsklima und vor allem (wovor ich immer ein wenig "Angst" habe) kein ungutes Herumreiten und Nachbohren, wenn man merkt, dass man sich bei dem einen oder anderen Thema nicht auskennt. Die Benotung ist ebenfalls mehr als fair - ich selbst habe ein S1 erhalten, obwohl ich doch ein- zweimal anfangs ziemlich angestanden bin --emptyvi
Zeitaufwand[Bearbeiten | Quelltext bearbeiten]
Die Übungsaufgaben helfen bei der Erarbeitung des Stoffs, jedes Übungsblatt braucht, je nach Vorkenntnissen und natürlich auch je nach Schwierigkeit des aktuellen Übungsblats zwischen 1/2 Stunde und mehreren Stunden (2-4) pro Woche. Insgesamt ist der Stoff dann schon ziemlich umfangreich, sodass man zur Prüfung auch noch ausreichend Lernzeit einkalkulieren sollte.
Skriptum und weitere Unterlagen[Bearbeiten | Quelltext bearbeiten]
Es gibt ein Skriptum, das man am Institut bekommen kann, wenn man die Lehrveranstaltung besucht. Das Skriptum deckt den Stoff der Vorlesung gut ab, und ist sehr hilfreich in der Erarbeitung des Stoffs. Es enthält auch viele Graphiken aus R (bei dem Stoff auch logisch). Einziger Wermutstropfen hier ist, dass der R-code, der zur Erstellung dieser Grafiken verwendet wurde, nicht dabeisteht. Dieser ist aber unter R-Code zum Skriptum zu finden. Es steht eigentlich keine Zeile R-code im Skriptum, offensichtlich beabsichtigt, um allgemeiner zu sein, sich nicht allein auf dieses Statistikpaket zu konzentrieren. Statt R-code findet man also eher die mathematischen Hintergründe, auf denen aufbauend man dann selber passende Verwendungen in R finden kann.
Die Übungsblätter stehen auf der Homepage, im letzten Semester wurden auch die Lösungen aller Teilnehmer zu den bisherigen Übungsblättern dort bereitgestellt.
Ich habe zum Lernen Karteikarten ausgearbeitet, die ich hier unter "Materialien" reinstelle - vielleicht helfen sie ja dem einen oder anderen beim Lernen. ;) --emptyvi
Tipps[Bearbeiten | Quelltext bearbeiten]
- Die Vorlesung zählt, wie bereits gesagt, vom Ablauf, vom Vortrag, von der Atmoshäre zum besten, was ich bisher besucht habe. Wer sich für Statistik begeistern kann, sich die lva von den Vorkenntnissen her zutraut und bereit ist, 4-5 Stunden pro Woche zu investieren, wird mit einer der interessantesten Lehrveranstaltungen belohnt, die ich kenne. Man lernt hier auf jeden Fall sehr viel.
- Dem oben Gesagten kann ich mich wirklich nur anschließen - klar strukturierte Vorlesung, sehr gute Erklärungen, gute Atmosphäre. --emptyvi
- R kann man auch online gratis unter https://notebook.thrive.to verwenden , dort finden sich auch einige Beispiele für oft verwendete Funktionen
Verbesserungsvorschläge / Kritik[Bearbeiten | Quelltext bearbeiten]
noch offen