TU Wien:Grundlagen der Computer Vision VU (Hermosilla Casajus)

Aus VoWi
Zur Navigation springen Zur Suche springen

Daten[Bearbeiten | Quelltext bearbeiten]

Vortragende Pedro Hermosilla CasajusLisa Magdalena Weijler
ECTS 6,0
Alias Fundamentals of Computer Vision (en)
Letzte Abhaltung 2024W
Sprache English
Mattermost grundlagen-der-computer-visionRegisterMattermost-Infos
Links tiss:193125, eLearning, Homepage
Zuordnungen
Bachelorstudium Informatik Modul Grundlagen der Computer Vision (Breite Wahl)
Bachelorstudium Medieninformatik und Visual Computing Modul Grundlagen der Computer Vision (Pflichtfach)


Inhalt[Bearbeiten | Quelltext bearbeiten]

noch offen, bitte nicht von TISS/u:find oder Homepage kopieren, sondern aus Studierendensicht beschreiben.


Themen waren

  • Image formation und filtering, was man noch von EVC ein bissi kennen sollte
  • Image features wie SIFT
  • Und dann fast nur Neural Network Themen
  • Image classification, klassisch und mit NNs
  • Object detection
  • Image segmentation
  • Image generation
  • 3D reconstruction and vision
  • 3D models

Ablauf[Bearbeiten | Quelltext bearbeiten]

noch offen

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten | Quelltext bearbeiten]

Als Grundlage (bevor man diese LVA besucht), sollte man Einführung in Visual Computing besucht haben um ein gewisses Grundverständnis aufzubauen.

Vortrag[Bearbeiten | Quelltext bearbeiten]

Es gibt 14 Vorlesungen insgesamt, die jeweils ca. 1h 20min dauern und auf Englisch gehalten werden. Eine davon (im Jänner) ist eine Guest lecture, wo man einen Bonuspunkt für Anwesenheit sammeln kann (nicht muss). Die letzte Vorlesung ist ein "Exam rehearsal" wo der Prof. mit den Studierenden einen Probetest (siehe Materialien) durchgeht. Es besteht keine Anwesenheitspflicht. Die Vorlesung wird aufgezeichnet und in TUWEL zum später ansehen zur Verfügung gestellt.

Übungen[Bearbeiten | Quelltext bearbeiten]

Es gibt insgesamt 6 Übungen zu absolvieren, die in zwei-wöchentlichen Takt abzugeben sind.

Die Themen sind:

  • Introduction to Python
  • Transformations & Filtering
  • K-Means Clustering
  • Theory of NN
  • CNN for Image Segementation
  • Point Cloud Classification & Segmentation

Nach Aufgabe 3 und nach Aufgabe 6 ist jeweils ein Abgabegespräch zu führen (über Zoom). Diese sind ganz chillig, wenn man den Code halbwegs verstanden hat. Sie prüfen in den Abgabengesprächen nichts theoretisches, sie wollen nur deine Gedankengänge und den umgesetzten Code verstehen. Kamera muss eingeschalten sein. Code wird gestreamt, muss man nicht selber herzeigen.

Zweites Abgabegespräch findet erst im Februar (also in den Semesterferien) statt!

Prüfung, Benotung[Bearbeiten | Quelltext bearbeiten]

WS 24 - Exam 1[Bearbeiten | Quelltext bearbeiten]

Die Prüfung war diesmal auch ähnlich zum Probetest aber anders als wie letztes Jahr. Es gab nicht nur 3 offene Fragen, sondern zu fast jedem Thema wurde eine offene Frage gestellt (mit jeweils 6 Punkten). Außerdem hatten die Multiple-Choice Fragen nun auch Minuspunkte, wenn man etwas falsch ankreuzt. Test begann übrigens s.t., nicht c.t..

WS 24 - Exam 1 / Open questions[Bearbeiten | Quelltext bearbeiten]

  1. Explain Diffusion and Spectular Reflectance
  2. Explain Data Augumentation
  3. Explain shortly what the median filter does
  4. Explain (each one sentence) Classification, Object Detection, Image Segmentation, Instance Segmentation
  5. Explain in max. three sentences GAN (Generative Adversarial Networks)
  6. Explain the steps for Two-frame Structure-from-Motion

WS 23 - Exam 1[Bearbeiten | Quelltext bearbeiten]

Die Prüfung war ähnlich zu dem Probetest auf Tuwel. Die Themengebiete waren die gleichen, und die Struktur auch. (Multiple Choice und danach schriftliche Fragen)

Bei den Multiple Choice Fragen wurden zu jedem Thema einige Fragen gestellt, z.B. Fragen zu Vektoren (Image Formation), "the result of two convolutions is another convolution (true)"

Eine der beliebten Fragen scheint Backpropagation zu sein, da man dieses gut rechnen kann. Ansonsten war sehr wenig mathematisches gefragt.

Auch wurde zum Pinhole Camera Model eine schriftliche Frage gestellt (erklären, was sind die Limitierungen, warum würde man eine Linse verwenden).

Am Ende wurde noch zu einer eher konkreten NN Architektur eine Frage gestellt. (PointNet Architecture, und wie muss man diese erweitern für ...)

WS 23 - Exam 1 / Open questions[Bearbeiten | Quelltext bearbeiten]

  1. Explain Backpropagation + draw graph with and (memory protocol!)
  2. Explain R-CNN and Fast R-CNN (What does it, Architecture, Difference)
  3. Harris Förstner Corner Detector (How does it work)

Dauer der Zeugnisausstellung[Bearbeiten | Quelltext bearbeiten]

WS23: Prüfung am 26.01.2024, Zeugnis am 26.02.2024 (1 Monat)

Zeitaufwand[Bearbeiten | Quelltext bearbeiten]

Rein die Folien für die VO-Prüfung zu lernen reicht leider nicht aus. Man muss schon die Vorlesungen gesehen haben um zu verstehen, wie die Konzepte funktionieren (sagt er auch in der ersten VO). Es gibt kein Skript zum Lesen, somit sind schon mal 12h reines VO-schauen von nöten.

Für die Übungen braucht man je nach Übung und Erfahrung 30min - 2h.

Unterlagen[Bearbeiten | Quelltext bearbeiten]

noch offen

Tipps[Bearbeiten | Quelltext bearbeiten]

Es gibt für Neural Networks eine gute Video-Playlist von 3Blue1Brown: https://www.youtube.com/watch?v=aircAruvnKk&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi

Highlights / Lob[Bearbeiten | Quelltext bearbeiten]

noch offen

Verbesserungsvorschläge / Kritik[Bearbeiten | Quelltext bearbeiten]

Meiner Meinung nach werden in dem Kurs die Konzepte leider überhaupt nicht intuitiv erklärt. Es fühlt sich eher an, wie ein Speedrun durch eine Formelsammlung, ohne die einzelnen Themen wirklich in einen Zusammenhang miteinander zu bringen.