TU Wien:Grundlagen des Information Retrieval VU (Rauber)
Jump to navigation
Jump to search
Daten[edit | edit source]
Lecturers | Allan Hanbury• Eszter Iklodi• Andreas Rauber• Gábor Recski |
---|---|
ECTS | 3 |
Alias | Introduction to Information Retrieval (en) |
Department | Information Systems Engineering |
When | winter semester |
Last iteration | 2022WS |
Language | "if required in english" was not recognized as a supported language code. |
Abbreviation | GIR |
Mattermost | grundlagen-des-information-retrieval • Register • Mattermost-Infos |
Links | tiss:188977 |
Inhalt[edit | edit source]
- Textretrieval (Indizierung, Retrieval-Modelle, Web-Suche)
- Music-Retrieval (Merkmalsextraktion, Anwendungen von MR)
Ablauf[edit | edit source]
Es gibt etwa 7 Block-Vorlesungen zu je 2 Stunden bis Anfang Dezember. Parallel dazu gibt es 2 Übungsbeispiele, die in Gruppen zu zweit gelöst werden.
Benötigte/Empfehlenswerte Vorkenntnisse[edit | edit source]
Keine besonderen, abgesehen von allgemeinen Programmierkenntnissen.
Vortrag[edit | edit source]
- Vorträge waren eher uninteressiert und uninteressant vorgetragen. Man ist nachher deswegen ohnehin auf Eigenstudium angewiesen. Bei den Voträgen wurde teilweise bei sehr trivialen Themen schmerzhaft und lange ins Detail gegangen während dann aber gleichzeitig die relevanten schweren Themen nur überflogen wurden und nicht ausreichend erklärt wurden.
- Gut waren hier einzig die Music Retrieval - Vorträge.
WS2019:
- Vorträge waren nicht so uninteressant wie beschrieben, sind auch sehr in die Richtung wie Implementiert man die Features korrekt, was sind häufige Fehlerstellen gegangen.
- Musik IR ist sehr in den Hintergrund gewichen, es gibt nur eine Vorlesung zusammen mit Video IR wo das Thema vorgestellt wird und kurz auf die klein gehaltenen Übung eingegangen wird.
Übungen[edit | edit source]
WS2019:
- Zweiteilige Übung, 50 Punkte für Ex1, 10 Punkte für Ex2, Prüfung 40 Punkte
- Ex1: Ein Datenset von Wikipedia (2.2GB) indizieren und interaktiv querien. Zusätzlich noch eine standardisierte Evaluation drüber laufen zu lassen.
- Code Repository auf GitHub Classrooms wird zur Verfügung gestellt und als Abgabe genutzt.
- Indexer und co musste alles selbst geschrieben werden, Programmiersprache war frei zu wählen, Ausnahme ist Python (laut VO Leitung zu langsam). Man wurde ermutigt eine neue Sprache zu probieren, wir haben Rust getestet und war auch kein Problem.
- Es wird vor allem Wert auf andauerndes Benchmarken und Profiling Wert gelegt. Dadurch findet man recht gut Schwachstellen wo man nachbessern kann und kann Bonuspunkte einheimsen ;)
- VO ging in 1, 2 Vorlesungen auf Implementierungsdetails ein, die sehr wertvoll beim eigentlichen Programmieren waren.
- Benotung der Übung war sehr nett, für geforderte Grundfeatures gab es bis zu 100%. Falls das Programm in annehmbarer Zeit das ganze Set indizieren kann gabs Bonuspunkte. Auch für andere Features gabs weitere Bonuspunkte (e.g. Anzeigen des Textes mit Highlighting des gesuchten Begriffes usw.). Abgabegespräch war sehr casual und freundlich, mir kam es so vor als würde drauf wert gelegt Spaß zu haben und einfach rumzuspielen.
- Ex2: Musik IR
WS2021:
- Programmiersprache ist Python
Prüfung, Benotung[edit | edit source]
Prüfung WS2019: Fragen waren sehr entgegenkommend, wenn man die Übung sauber gemacht hat und einmal über die Folien drüber liest reicht das vollkommen. Viel mehr Fokus auf den Übungsteil als auf die Prüfung.
Zeitaufwand[edit | edit source]
WS 2019: Recht exakt dem ECTS-Breakdown entsprechend (50 Stunden für die Beispiele, ca. 2 Tage Testvorbereitung).
Unterlagen[edit | edit source]
- http://www.ifs.tuwien.ac.at/~andi/download/thesis/pen_jul_thesis07.pdf - Diplomarbeit über Text Summarization (bei A. Rauber)
- http://www.asgaard.tuwien.ac.at/techreports/Asgaard-TR-2005-6.pdf - Arbeit von K. Kaiser über Information Extraction
Tipps[edit | edit source]
- Wie bei jeder Gruppenarbeit: Arbeitet wenn möglich mit jemandem zusammen, den ihr kennt und der verlässlich ist.
- Die LVA besteht eigentlich großteils (Bewertung und Aufwand) aus dem ersten Projekt, bei dem es auch Bonuspunkte gibt. Für den Test muss man nicht viel lernen.
- In die Vorlesung zu Music Retrieval gehen: Gerade bei diesem Thema ist lernen nach den Folien eher mühsam (kam im WS 2019/20 allerdings gar nicht zum Test).
- Wie immer, nicht zu spät anfangen für die eigentliche Übung (Ex1) haut richtig rein wenn man sich viel vornimmt.
Verbesserungsvorschläge / Kritik[edit | edit source]
noch offen