* Die Q-Funktion wird bei komplexen Problemen oft durch ein neuronales Netz angenähert. * Der Akteur in einem Reinforcement-Learning-Modell wird als "Action" bezeichnet. * Die Optimierung von Hyperparametern (auch Hypervariablen genannt) ist ein komplexer, zeitaufwändiger Vorgang. * Algorithmen für Reinforcement Learning können nicht in Simulations-Umgebungen trainiert werden. * Die Policy Function gibt im Reinforcement Learning für eine bestimmte Situation und Aktion eine Wahrscheinlichkeit aus. * Reinforcement Learning kann z.B. mithilfe von Deep Learning implementiert werden. * Reinforcement Learning ist gut geeignet, um in Videos visuelle Objekte (z.B. Katzen) zu erkennen. * "Eager Execution" ist ein Reinforcement-Learning-spezifischer Begriff. * TensorFlow bietet für die Lösung visueller Lernprobleme auch die wesentlichen Bildverarbeitungsfunktionen an. * Die Belohnung im Reinforcement Learning wird mithilfe der Quality Function berechnet. * Reinforcement Learning ist ein neues Verfahren des Deep Learnings. * Beim Reinforcement Learning erfolgt das Feedback direkt nach der Entscheidung durch den Algorithmus. * Q-Learning versucht, einen Ausgleich zwischen maximaler Belohnung und minimalem Berechnungsaufwand zu erzielen. * Mit Reinforcement Learning sollen Computer lernen, selbständig Entscheidungen zu treffen. * Maschinenlern-Verfahren werden durch Hyperparameter konfiguriert. * Im Reinforcement-Learning benutzt die Loss-Funktion die Q-Funktion. * Die Loss-Funktion beschreibt im Maschinenlernen den Unterschied zwischen gewünschtem und tatsächlichem Lernergebnis. * Mit TensorFlow können Convolution-Ebenen, aber keine vollständig verknüpften Ebenen erstellt werden. * OpenAI ist die Standardisierungs-Behörde für Deep-Learning-Algorithmen. * Die Quality Function ist vom aktuellen Zustand (State) und der vorgeschlagenen Aktion (Action) abhängig. * Maschienenlern-Bibliotheken (z.B. TensorFlow) bieten oft Python-Sprachbindungen an. * Reinforcement Learning ist eine Form des Maschinenlernens. * Der Replay-Speicher enthält eine beschränkte Anzahl früherer Spielsituationen. * Der aktuelle Zustand eines Reinforcement-Modells wird als "State" bezeichnet. * Eine Lern-Iteration wird im Reinforcement Learning oft als Episode oder als Epoche bezeichnet. * Die Ausgabe von Q(s,a) ist eine Wahrscheinlichkeit. * Die Lernrate ist ein typischer Hyperparameter im Reinforcement Learning. * Im Laufe des Lernens spielt Zufall beim Q-Learning eine immer größere Rolle. * DeepMind verwendet weder eine zufällige Initialisierung noch Vorwissen für den Trainings-Prozess. * Das Epsilon-Greedy-Verfahren versucht, immer die beste Aktion auszuwählen.