TU Wien:Klassifikation und Diskriminanzanalyse VL (Filzmoser)

Aus VoWi
Wechseln zu: Navigation, Suche

Daten[Bearbeiten]

Inhalt[Bearbeiten]

Zunächst wird großen Wert auf lineare Regression und Bewertung von Regressionsmodellen (AIC, BIC, Mallows' Cp) gelegt. In diesem Zusammenhang wird auf Cross-Validation und Bootstrap kurz eingegangen. Anschließend kommt die lineare Regression zum Einsatz um Klassifikation und Prognose zu betreiben. Ein einfaches Beispiel zur Illustration: Ich messe Gewicht (y-Variable oder auch Response genannt), Bauchumfang, Hüftumfang, Fußgelenkumfang und Oberschenkelumfang (x-Variablen) und möchte nun aus den zuletzt genannten 4 Merkmalen auf das Gewicht schließen mittels einem linearen Modell (y = \beta_1 * x_1+ \beta_2 * x_2 + \beta_3 * x_3 + \beta_4 * x_4), sofern dies überhaupt möglich ist. Anschließend kann man den prognostizierten Wert für neue Beobachtungen mit dem realen Wert vergleichen.

Die Verfahren um Regression zu betreiben werden dann weiter erläutert und es kommen Themen wie Hauptkomponenten-Regression (PCR), Partial-Least-Squares (PLS) und Schrumpfschätzer.

Anschließend wird übergegangen zur Klassifikation, z.B. schließen von gewissen Merkmalen ob eine gewisse Krankheit vorliegt oder nicht (= 2-Gruppen-Fall), oder in welche Gruppe eine Beobachtung fällt (allgemeiner n-Gruppen-Fall). Hierzu werden Methoden wie Lineare Diskriminanzanalyse, Quadratische Diskriminanzanalyse, sowie logistische Regression und trennende Hyperebenen erläutert.

Abschließend gibt es noch nicht-lineare und basiserweiternde Methoden wie Splines, Verallgemeinerte Additive Modelle (GAM), sowie Baumbasierte Methoden und Nearest Neighbour Methoden.

Ablauf[Bearbeiten]

Prof. Filzmoser trägt 2 Stunden vor, die dritte Stunde ist wöchentlich eine Übung, die von jedem Studenten in R selbstständig gelöst werden soll und bis spätestens am Vorabend per Email an ihn geschickt werden muss.

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten]

Regression und Statistik sollten geläufig sein, sowie mathematische Vorkenntnisse über das Arbeiten mit Matrizen sind vorteilhaft. Weiters wird vorausgesetzt, dass man mit der Statistik-Software R umgehen kann. Falls dies noch nicht der Fall ist, empfehle ich zuerst die Vorlesung Explorative Datenanalyse und Visualisierung von Prof. Filzmoser.

Vortrag[Bearbeiten]

Prof. Filzmoser legt viel Wert darauf, den Stoff verständlich zu erklären und trägt anhand des Skriptums, welches er an die Wand projiziert vor. Der Vortrag ist sehr auflockernd, vor allem da häufig praktische Beispiele in R gezeigt werden und in den Übungen das neue Wissen der aktuellen Woche direkt angewendet werden kann, um z.B. Herzerkrankungen in einem Südafrikanischem Dorf vorherzusagen (SAHeart-Daten).

Übungen[Bearbeiten]

Im WS 2010/2011 gab es 9 Übungsblätter, wobei jeweils eine Woche Zeit war, um das Beispiel zu lösen. Sollte man einmal Probleme haben, die Lösung zu finden, oder schlicht ergreifend scheitern, so ist dies auch kein Problem, da in der nächsten Stunde das Beispiel besprochen und eine Lösung hergezeigt und diskutiert wird. Hier ist Prof. Filzmoser selbst manchmal über Lösungen von Studenten überrascht, da kreative Ansätze durchaus zu einer besseren Lösung führen können.

Prüfung, Benotung[Bearbeiten]

Die Prüfung ist mündlich am Ende des Semesters. Geprüft wird Verständnis der Materie und die wichtigsten Formeln (z.B. Formel für LS-Schätzer).

Dauer der Zeugnisausstellung[Bearbeiten]

Maximal eine Woche (bei mir waren es zwei Tage).

Zeitaufwand[Bearbeiten]

Die wöchentlichen Übungen verlangen unterschiedlich viel Zeit, je nachdem wie intensiv man sich damit auseinandersetzt. Ich habe im Schnitt jede Woche 1-2 Stunden daran gearbeitet. Manchmal aus etwas länger.

Unterlagen[Bearbeiten]

Es gibt ein sehr gutes Skriptum von Prof. Filzmoser, welches am Anfang des Semesters von ihm verkauft wird. In dem Skriptum findet sich auch der entsprechende R-Code, wodurch man alles an einer Stelle finden kann. Das Skriptum wechselt immer abwechselnd zwischen einem theoretischen Teil mit Erklärungen, Herleitungen und Beweisen, und einem praktischen Teil, wo gezeigt wird, wie man die Theorie in R umsetzen kann.

Tipps[Bearbeiten]

Die Vorlesungen besuchen, da sie echt gut und informativ sind. Prof. Filzmoser gibt sich größte Mühe das Verständnis für den Stoff zu wecken, statt Formeln herunter zubeten. Auch die Übungen sind kurz und auf den aktuellen Stoff abgestimmt, was Lernfreude bereitet, da man sofort praktisch etwas ausprobieren kann.

Persönliches Fazit[Bearbeiten]

Viele Leute haben Angst vor Statistik, da sie denken es ist nur Mathematik und Formeln auswendig lernen. Prof Filzmoser schafft es aber den praktischen Aspekt sehr gut zu vermitteln, sodass man richtig Spaß an dem Stoff haben kann. Sehr empfehlenswert. --W1n5t0n 18:54, 12. Feb. 2011 (CET)

Verbesserungsvorschläge / Kritik[Bearbeiten]