TU Wien:Grundlagen des Information Retrieval VU (Rauber)

Daten[Bearbeiten | Quelltext bearbeiten]

Vortragende	Allan Hanbury• Andreas Rauber• Gábor Recski• Moritz Staudinger
ECTS	3,0
Alias	Fundamentals of Information Retrieval (en)
Letzte Abhaltung	2024W
Sprache	English
Abkürzung	GIR
Mattermost	grundlagen-des-information-retrieval • Register • Mattermost-Infos
Links	tiss:188977

Zuordnungen
Masterstudium Visual Computing	Modul Media Understanding (Gebundenes Wahlfach)
Masterstudium Media and Human-Centered Computing	Modul Media Understanding (Gebundenes Wahlfach)
Masterstudium Medizinische Informatik	Modul Informationsverarbeitung (Gebundenes Wahlfach)
Masterstudium Software Engineering & Internet Computing	Modul Informationssysteme (Gebundenes Wahlfach)

Inhalt[Bearbeiten | Quelltext bearbeiten]

Textretrieval (Tokenization, Indizierung, Retrieval-Modelle, Web-Suche)

Ablauf[Bearbeiten | Quelltext bearbeiten]

Es gibt etwa 7 Block-Vorlesungen zu je 2 Stunden bis Mitte November. Im WS 2024 gab es ein GitHub Classroom Assignment zum Information Retrieval zu Wikipediaeinträgen zu Filmen. Dazu musste man Elasticsearch verwenden.

Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten | Quelltext bearbeiten]

Keine besonderen, abgesehen von allgemeinen Programmierkenntnissen.

Vortrag[Bearbeiten | Quelltext bearbeiten]

WS2024:

Allan Hanbury trägt sehr interessant vor. Seine Stimme erinnert an die von Tom Scott. Die Vorlesungsfolien sind sinnvoll aufeinander aufgebaut und gut mit Beispielen detailliert.
Es gibt zumindest in GIR kein Musikretrieval. Es ist alles auf Text- und Websuche beschränkt.
Einige Folien sind sehr mathematiklastig, allerdings muss das nicht auswendig gelernt werden.

WS2019:

Vorträge waren nicht so uninteressant wie beschrieben, sind auch sehr in die Richtung wie Implementiert man die Features korrekt, was sind häufige Fehlerstellen gegangen.
Musik IR ist sehr in den Hintergrund gewichen, es gibt nur eine Vorlesung zusammen mit Video IR wo das Thema vorgestellt wird und kurz auf die klein gehaltenen Übung eingegangen wird.

Übungen[Bearbeiten | Quelltext bearbeiten]

WS2024:

Zweitteilige GitHub Classroom Prüfung zu einem Wikipedia Datenset zu Filmen. Das muss mittels Elasticsearch indiziert werden.
Man definiert eigene Tokenizer und Analyzer um die GitHub Classroom Testcases zu erfüllen.
Die Übung ist eigentlich nicht schwer, es ist nur etwas anstrengend die Testcases zu erfüllen. Häufig ist es nicht ganz klar warum eine Änderung an den Elasticsearch Parametern einen bestimmten Effekt verursacht. Damit ist es sehr viel Trial and Error ohne klare Feedback-loop.
Programmiert wird mit Python, Installation von Elasticsearch ist nötig, aber es ist alles gut dokumentiert für Windows, MacOS und sogar Linux.

WS2019:

Zweiteilige Übung, 50 Punkte für Ex1, 10 Punkte für Ex2, Prüfung 40 Punkte
Ex1: Ein Datenset von Wikipedia (2.2GB) indizieren und interaktiv querien. Zusätzlich noch eine standardisierte Evaluation drüber laufen zu lassen.
Code Repository auf GitHub Classrooms wird zur Verfügung gestellt und als Abgabe genutzt.
Indexer und co musste alles selbst geschrieben werden, Programmiersprache war frei zu wählen, Ausnahme ist Python (laut VO Leitung zu langsam). Man wurde ermutigt eine neue Sprache zu probieren, wir haben Rust getestet und war auch kein Problem.
Es wird vor allem Wert auf andauerndes Benchmarken und Profiling Wert gelegt. Dadurch findet man recht gut Schwachstellen wo man nachbessern kann und kann Bonuspunkte einheimsen ;)
VO ging in 1, 2 Vorlesungen auf Implementierungsdetails ein, die sehr wertvoll beim eigentlichen Programmieren waren.
Benotung der Übung war sehr nett, für geforderte Grundfeatures gab es bis zu 100%. Falls das Programm in annehmbarer Zeit das ganze Set indizieren kann gabs Bonuspunkte. Auch für andere Features gabs weitere Bonuspunkte (e.g. Anzeigen des Textes mit Highlighting des gesuchten Begriffes usw.). Abgabegespräch war sehr casual und freundlich, mir kam es so vor als würde drauf wert gelegt Spaß zu haben und einfach rumzuspielen.
Ex2: Musik IR

Prüfung, Benotung[Bearbeiten | Quelltext bearbeiten]

WS2024: Die Prüfung hat sich sehr an den Altklausuren orientiert. Einige Multiple Choice Questions waren einfach leicht abgeändert übernommen geworden. Weiter ist auch die Aufteilung in Multiple Choice Fragen und Freitext Fragen wie erwartet. Die Fragen sind grundsätzlich klar und beziehen sich auf die in den Vorlesungen besprochenen Konzepte. Die Folien der Vorlesung enthalten zwar häufig viel Mathematik, diese wird aber nicht im Detail abgefragt. Wenn dann muss man das Konzept erklären oder vielleicht die groben Aspekte einer Berechnung wissen, nie wurde aber eine Formel abgefragt.

Prüfung WS2019: Fragen waren sehr entgegenkommend, wenn man die Übung sauber gemacht hat und einmal über die Folien drüber liest reicht das vollkommen. Viel mehr Fokus auf den Übungsteil als auf die Prüfung.

Zeitaufwand[Bearbeiten | Quelltext bearbeiten]

WS 2019: Recht exakt dem ECTS-Breakdown entsprechend (50 Stunden für die Beispiele, ca. 2 Tage Testvorbereitung).

Unterlagen[Bearbeiten | Quelltext bearbeiten]

http://www.ifs.tuwien.ac.at/~andi/download/thesis/pen_jul_thesis07.pdf - Diplomarbeit über Text Summarization (bei A. Rauber)
http://www.asgaard.tuwien.ac.at/techreports/Asgaard-TR-2005-6.pdf - Arbeit von K. Kaiser über Information Extraction

Tipps[Bearbeiten | Quelltext bearbeiten]

Wie bei jeder Gruppenarbeit: Arbeitet wenn möglich mit jemandem zusammen, den ihr kennt und der verlässlich ist.
Die LVA besteht eigentlich großteils (Bewertung und Aufwand) aus dem ersten Projekt, bei dem es auch Bonuspunkte gibt. Für den Test muss man nicht viel lernen.
In die Vorlesung zu Music Retrieval gehen: Gerade bei diesem Thema ist lernen nach den Folien eher mühsam (kam im WS 2019/20 allerdings gar nicht zum Test).
Wie immer, nicht zu spät anfangen für die eigentliche Übung (Ex1) haut richtig rein wenn man sich viel vornimmt.

Highlights / Lob[Bearbeiten | Quelltext bearbeiten]

Allan Hanburry trägt gut vor und die Übungsaufgaben sind mit angemessenen Aufwand möglich zu lösen.

Verbesserungsvorschläge / Kritik[Bearbeiten | Quelltext bearbeiten]

noch offen