MU Wien:Machine Learning in der Medizin VU (Dorffner, Seeböck, Widder)/2021 Prüfung

Sie bekommen die Aufgabe gestellt, eine Vorhersage der Mortalität nach Schlaganfall anhand von ca. 2000 Voxel-Werten eines MRT-Bildes mittels maschinellen Lernens zu erstellen. Sie bekommen dafür 45 Fälle (20 Verstorbene und 25 Überlebende). Wie würden Sie hier zwecks Validierung des Modells vorgehen und warum?
Was ist das grundlegende Prinzip, mit dem neuronale Netze und Support Vector Machines eine Nichtlinearität in den Daten (Klassifikation oder Regression) modellieren können? In welcher Art der medizinischen Anwendung wird sich diese Form der Nichtlinearität am ehesten in besserer Performance (im Vergleich zu linearen statistischen Modellen) niederschlagen?
Stellen Sie sich vor, Ihre Aufgabe besteht darin, eine auf Deep-Learning-Techniken basierende Pipeline für die Arzneimittelentdeckung zu entwickeln und sie auf die aktuelle Krise der COVID-19-Pandemie anzuwenden. Sie wollen die Bindungsaffinität von arzneimittelähnlichen Verbindungen an Protein-Targets des neuen Coronavirus SARS-COV2 vorhersagen. Da nur wenige Daten über das neue SARS-COV2-Virus zur Verfügung stehen, gibt es keine schnelle Möglichkeit, markierte (gelabelte) Daten zu erhalten, d. h. die Bindungsaffinität der einzelnen Verbindungen manuell in einer Laborumgebung zu testen. In der Literatur finden Sie jedoch Daten zu 10k Verbindungen (X₁) und deren Bindungsaffinitäten zu Protein-Targets des früheren SARS-COV-Virus (Y₁) Außerdem finden Sie in der Literatur Hinweise darauf, dass die Proteine des SARS-CoV- und SARS-CoV2-Virus eine ähnliche Struktur haben. Ihr Ziel ist es, die Bindungsaffinität von 500 Verbindungen (X₂) und Protein-Targets von SARS-CoV2 (Y₂) ) vorherzusagen. Es gibt keine Überlappung zwischen X₁ und X₂. Es bleibt Ihnen überlassen, wie Sie die molekularen Daten modellieren wollen, als festen binären Merkmalsvektor, als SMILES-String oder als Netzwerk von miteinander verbundenen Atomen (Kanten entsprechen Bindungen). Wie würden Sie die verfügbaren Daten, z. B. X₁, Y₁ verwenden, um ein Vorhersagemodell für X₂ zu erstellen? Beschreiben Sie die von Ihnen gewählte Eingabemodellierung und neuronale Architektur. Beschreiben Sie Ihre Trainings- und Validierungsschritte. Wie würden Sie für die besten Hyper-Parameter optimieren? Was wären die Grenzen Ihres Vorhersagemodells?
Angenommen, Sie möchten numerische Repräsentationen lernen, die unser aktuelles Verständnis der COVID-19-Pandemie kodieren, indem Sie die Wort-Einbettungstechnik word2vec verwenden. Sie laden einen Korpus von veröffentlichten wissenschaftlichen biomedizinischen Artikeln im Jahr 2021 herunter, die auf PubMed verfügbar sind. Sie beginnen mit dem Training eines Sprachmodells in einer unüberwachten Art und Weise, sodass für ein gegebenes Wort w, Wörter, die im gleichen Kontext erscheinen, näher zusammen eingebettet werden, während kontextfremde Wörter weiter entfernt eingebettet werden.
1. Da wir nicht wirklich ein Validierungsset besitzen, was wäre Ihre allgemeine Strategie für die Validierung eines solchen Sprachmodells? Welche Kriterien würden Sie berücksichtigen, um ein besseres Sprachmodell zu wählen, das unser aktuelles Verständnis der COVID-19-Pandemie kodiert?
2. Angenommen, Sie entscheiden sich, ein Sprachmodell für X Epochen zu trainieren, und Sie überwachen den Fehler am Trainingsset. Sie versuchen, das Modell bis zur Konvergenz zu trainieren, d.h. bis der Trainingsfehler ausreichend klein ist. Denken Sie, dass eine solche Strategie die beste sein könnte oder eher ein schlechtes Sprachmodell für COVID-19 ergibt? Begründen Sie die Antwort.
Angenommen, Sie haben eine Zeitreihe von täglichen Laborwerten von einer Menge von Patienten und möchten mittels neuronaler Netze lernen, aus Werten in der Vergangenheit den Gesundheitszustand eines Patienten zwei Tage in die Zukunft vorherzusagen. Man weiß, dass sich eine Schwankung in den Laborwerten bis zu zwei Wochen später auf die Gesundheit auswirken kann. Erklären Sie, welcher Typ von neuronalem Netz (Mehrebenenperzeptron, Rekurrentes Perzeptron, LSTM) sich hier am besten eignen wird und warum, bzw. unter welchen Umständen.
Wie entsteht bei der Bayes‘schen Schätzung eines Modells mittels der Markov-Chain-Monte-Carlo-Methode ein Komitee (Ensemble) von Modellen und wie berechnet man mit diesem Komitee für einen neuen Datensatz den Output?
Die folgende Abbildung zeigt mehrere Durchläufe (rot und grün) einer nichtlinearen Regression anhand von verrauschten Daten (die blaue Linie zeigt das wahre Datenmodell). Betrachten Sie die den eingekreisten Testpunkt und geben an, wie groß der Fehler (in Einheiten der y-Achse) ungefähr ist, den das grüne Modell für diesen Punkt in der Regression macht, in Bias, Varianz und Rauschen zerlegt. Bitte um kurze Begründung (verbal oder durch Zeichnung).

MU Wien:Machine Learning in der Medizin VU (Dorffner, Seeböck, Widder)/2021 Prüfung

Navigationsmenü