TU Wien:Advanced Information Retrieval VU (Rauber)

From VoWi
Jump to navigation Jump to search

Daten[edit]

Lecturers Andreas Rauber, Peter Knees, Markus Zlabinger, Sebastian Hofstätter
ECTS 3
Department Information Systems Engineering
When summer semester
Language English
Links tiss:188980 , Mattermost-Channel
Zuordnungen
Master Data Science Wahlmodul VAST/CO - Visual Analytics and Semantic Technologies - Core
Master Business Informatics Wahlmodul DA/EXT - Data Analytics Extension
Master Visual Computing Wahlmodul Media Understanding
Master Media and Human-Centered Computing Wahlmodul Media Understanding
Master Medizinische Informatik Wahlmodul Informationsverarbeitung
Master Software Engineering & Internet Computing Wahlmodul Informationssysteme

Mattermost: Channel "advanced-information-retrieval"RegisterMattermost-Infos

Inhalt[edit]

Kurze Einführung in Grundlagen des Information retrievals (Inverted Index, Scoring methods), NLP, Word embeddings, Neural IR, music information retrieval

Ablauf[edit]

SS20:

9 Vorlesungen:

  1. Vorbesprechung
  2. Crash Course: Fundamentals (Wiederholung Grundlagen IR, z.B. Indexing, Ranked Retrieval)
  3. Crash Course: Evaluation (Wiederholung Grundlagen IR, z.B. IR Metrics)
  4. Data Aquisition (Wie werden Datensets für Supervisied Learning und Evaluation erstellt?)
  5. Word Representation Learning (Repräsentation von Wörtern als Vektoren, Word2Vec, Query Expansion)
  6. Sequence Modelling in NLP (Wie und warum werden CNNs und RNNs in NLP eingesetzt?)
  7. Introduction to Neural Re-Ranking
  8. Transformer Contextualization and Re-Ranking
  9. Neural Methods for Indexing

Zwei Übungsaufgaben (siehe unten), wobei die zweite in 3er-Teams zu lösen ist.

2 mögliche Prüfungstermine, einer Ende Mai und einer Mitte Juni.


Davor: ca. 8 Vorlesungen. Drei Übungsaufgaben welche in Teams von drei Studierenden zu lösen sind. Ein Abgabegespräch für die ersten zwei Übungen. VO Prüfung

Benötigte/Empfehlenswerte Vorkenntnisse[edit]

Grundlagen des IR ist empfehlenswert, aber kein muss. Programmierkenntnisse (!), Erfahrung mit pytorch von Vorteil, aber kein muss.

Andere Meinung (SS20): Die Überschneidungen mit Grundlagen des IR sind ziemlich gering. Viel wichtiger sind Kenntnisse über Deep Learning, also Neural Networks, Model Training, Gradient Descent, CNNs, RNNs, Pooling, Softmax, ReLU, LSTMs, Attention, Self-Attention, Transformers, etc. und deren Anwendung mittels entsprechender Python-Libraries. Wem hier die Grundlagen fehlen, sollte einige Stunden an Einarbeitungszeit einplanen, da das entsprechende Wissen weitestgehend vorausgesetzt wird.

Vortrag[edit]

Hängt vom Vortragenden ab, aber grundsätzlich gut, insb. der Vortrag von Hofstätter

Übungen[edit]

SS20:

  1. Übung: Creation of a test collection (10 Pkte, alleine): Es mussten 500 Query-Document pairs mithilfe einer Web-Applikation annotated werden. Die dabei enstandenen Relevanzlables wurden dann als Dataset für die 2. Übung verwendet. Aufwand pro 100 Annotations war ca. 1 Stunde. Darüber hinaus konnte weiter annotated werden, um Bonuspunkte zu sammeln.
  2. Übung: Neural IR (50 Pkte, 3er-Gruppen): Implementation, Training und Evaluation von drei Neural IR Re-ranking models (Match Pyramid, KNRM, Conv-KNRM) mithilfe von PyTorch und AllenNLP. Dazu wurde ein Git-Repo mit boilerplate bereitgestellt. Das Training konnte entweder lokal oder via Google Colab durchgeführt werden.

Davor:

  1. Übung: Invertend Index und scoring methods
  2. Übung: Neural IR
  3. Übung: Music IR

Prüfung, Benotung[edit]

Prüfung im SS19: Gegeben war ein Paper zu einem aktuellen Thema aus Neural IR, zu dem Paper mussten Fragen beantwortet werden. Nicht allzu schwer, etwas Hintergrundwissen sollte man aber haben.

Dauer der Zeugnisausstellung[edit]

noch offen

Zeitaufwand[edit]

SS19: Die Übungen sind nicht zu unterschätzen! Falls man Grundlagen des IR nicht gemacht hat kann auch das erste Beispiel etwas Zeit kosten. Übung zwei kostet viel Zeit (früh anfangen!). Übung drei war im SS19 ebenfalls nicht zu unterschätzen.

Insgesamt bleibt der Aufwand aber im Rahmen der 3ECTS.

Unterlagen[edit]

noch offen

Tipps[edit]

  • Übungen nicht unterschätzen. VO ist kein Muss aber sicher kein Fehler.
  • Depending on your knowledge of the involved things (e.g. python, pytorch, how to train a DL model, etc.), start early to pick up the required things. Talk to others (groups) about their approaches, look for existing implementations (or versions) online. Starting from scratch only using the papers was not really possible (for me / group), so look for reference implementations. Check who in your group has which skills / knowledge and try to distribute the work accordingly.

Verbesserungsvorschläge / Kritik[edit]

noch offen


Attachments

This page has no attachments yet but you can add some.