TU Wien:Advanced Information Retrieval VU (Rauber)
Daten[Bearbeiten | Quelltext bearbeiten]
Vortragende | Varvara Arzt• Peter Knees• Ilya Lasy• Andreas Rauber |
---|---|
ECTS | 3,0 |
Letzte Abhaltung | 2024S |
Sprache | English |
Mattermost | advanced-information-retrieval • Register • Mattermost-Infos |
Links | tiss:188980 |
Inhalt[Bearbeiten | Quelltext bearbeiten]
Kurze Einführung in Grundlagen des Information retrievals (Inverted Index, Scoring methods), NLP, Word embeddings, Neural IR, music information retrieval
Ablauf[Bearbeiten | Quelltext bearbeiten]
SS20:
9 Vorlesungen:
- Vorbesprechung
- Crash Course: Fundamentals (Wiederholung Grundlagen IR, z.B. Indexing, Ranked Retrieval)
- Crash Course: Evaluation (Wiederholung Grundlagen IR, z.B. IR Metrics)
- Data Aquisition (Wie werden Datensets für Supervised Learning und Evaluation erstellt?)
- Word Representation Learning (Repräsentation von Wörtern als Vektoren, Word2Vec, Query Expansion)
- Sequence Modelling in NLP (Wie und warum werden CNNs und RNNs in NLP eingesetzt?)
- Introduction to Neural Re-Ranking
- Transformer Contextualization and Re-Ranking
- Neural Methods for Indexing
Zwei Übungsaufgaben (siehe unten), wobei die zweite in 3er-Teams zu lösen ist.
2 mögliche Prüfungstermine, einer Ende Mai und einer Mitte Juni.
Davor: ca. 8 Vorlesungen. Drei Übungsaufgaben welche in Teams von drei Studierenden zu lösen sind. Ein Abgabegespräch für die ersten zwei Übungen. VO Prüfung
Benötigte/Empfehlenswerte Vorkenntnisse[Bearbeiten | Quelltext bearbeiten]
Grundlagen des IR ist empfehlenswert, aber kein muss. Programmierkenntnisse (!), Erfahrung mit pytorch von Vorteil, aber kein muss.
Andere Meinung (SS20): Die Überschneidungen mit Grundlagen des IR sind ziemlich gering. Viel wichtiger sind Kenntnisse über Deep Learning, also Neural Networks, Model Training, Gradient Descent, CNNs, RNNs, Pooling, Softmax, ReLU, LSTMs, Attention, Self-Attention, Transformers, etc. und deren Anwendung mittels entsprechender Python-Libraries. Wem hier die Grundlagen fehlen, sollte einige Stunden an Einarbeitungszeit einplanen, da das entsprechende Wissen weitestgehend vorausgesetzt wird.
Vortrag[Bearbeiten | Quelltext bearbeiten]
Hängt vom Vortragenden ab, aber grundsätzlich gut, insb. der Vortrag von Hofstätter
Übungen[Bearbeiten | Quelltext bearbeiten]
SS20:
- Übung: Creation of a test collection (10 Pkte, alleine): Es mussten 500 Query-Document pairs mithilfe einer Web-Applikation annotated werden. Die dabei enstandenen Relevanzlables wurden dann als Dataset für die 2. Übung verwendet. Aufwand pro 100 Annotations war ca. 1 Stunde. Darüber hinaus konnte weiter annotated werden, um Bonuspunkte zu sammeln.
- Übung: Neural IR (50 Pkte, 3er-Gruppen): Implementation, Training und Evaluation von drei Neural IR Re-ranking models (Match Pyramid, KNRM, Conv-KNRM) mithilfe von PyTorch und AllenNLP. Dazu wurde ein Git-Repo mit boilerplate bereitgestellt. Das Training konnte entweder lokal oder via Google Colab durchgeführt werden.
Davor:
- Übung: Invertend Index und scoring methods
- Übung: Neural IR
- Übung: Music IR
Prüfung, Benotung[Bearbeiten | Quelltext bearbeiten]
Prüfung im SS19: Gegeben war ein Paper zu einem aktuellen Thema aus Neural IR, zu dem Paper mussten Fragen beantwortet werden. Nicht allzu schwer, etwas Hintergrundwissen sollte man aber haben.
Prüfung im SS23:
Prüfungsmodus: 1/3 der Fragen bezogen sich rein auf die Folien 1/3 der Fragen bezogen sich rein auf das Paper 1/3 der Fragen bezogen sich auf die Folien und das Paper
Mehrere Blöcke und man musste ankreuzen, welche Aussagen stimmen.
Fragen zu den Folien: Fragen waren nicht sehr technisch (die Berechnungen von nDCG oder Formeln und welcher Vektor mit welcher Matrix multipliziert wird, wurde nicht gefragt), es war wichtiger die Anwendungen zu verstehen. (Beispiele waren: Recall and nDCG are typically measured at a lower cutoff than MAP and MRR (falsch), Judgement pairs should use pooling of many diverse system results (richtig)) Summary per Foliensatz anschauen! (genau solche Aussagen werden herangezogen und müssen dann mit richtig / falsch bewertet werden)
Fragen zum Paper: Je besser man das Paper verstanden hat, um so leichter ist es - auch die Grafiken gut anschauen und verstehen.
Fragen zu Folien und Paper: Waren quasi Fragen (bzw Aussagen die mit richtig / falsch zu berwerten sind), wo man ein Detail aus dem Paper und eines aus den Folien wissen musste. (Beispiele waren: The in the paper proposed system does ... and so does the model XY, that we know from the lecture)
Prüfungsergebnisse waren schon wenige Stunden danach verfügbar, weil die Bögen automatisch ausgewertet wurden.
Dauer der Zeugnisausstellung[Bearbeiten | Quelltext bearbeiten]
noch offen
Zeitaufwand[Bearbeiten | Quelltext bearbeiten]
SS19: Die Übungen sind nicht zu unterschätzen! Falls man Grundlagen des IR nicht gemacht hat kann auch das erste Beispiel etwas Zeit kosten. Übung zwei kostet viel Zeit (früh anfangen!). Übung drei war im SS19 ebenfalls nicht zu unterschätzen.
Insgesamt bleibt der Aufwand aber im Rahmen der 3ECTS.
Unterlagen[Bearbeiten | Quelltext bearbeiten]
noch offen
Tipps[Bearbeiten | Quelltext bearbeiten]
- Übungen nicht unterschätzen. VO ist kein Muss aber sicher kein Fehler.
- Depending on your knowledge of the involved things (e.g. python, pytorch, how to train a DL model, etc.), start early to pick up the required things. Talk to others (groups) about their approaches, look for existing implementations (or versions) online. Starting from scratch only using the papers was not really possible (for me / group), so look for reference implementations. Check who in your group has which skills / knowledge and try to distribute the work accordingly.
Highlights / Lob[Bearbeiten | Quelltext bearbeiten]
noch offen
Verbesserungsvorschläge / Kritik[Bearbeiten | Quelltext bearbeiten]
noch offen