* Die Q-Funktion wird bei komplexen Problemen oft durch ein neuronales Netz angenähert.
* Der Akteur in einem Reinforcement-Learning-Modell wird als "Action" bezeichnet.
* Die Optimierung von Hyperparametern (auch Hypervariablen genannt) ist ein komplexer, zeitaufwändiger Vorgang.
* Algorithmen für Reinforcement Learning können nicht in Simulations-Umgebungen trainiert werden.
* Die Policy Function gibt im Reinforcement Learning für eine bestimmte Situation und Aktion eine Wahrscheinlichkeit aus.
* Reinforcement Learning kann z.B. mithilfe von Deep Learning implementiert werden.
* Reinforcement Learning ist gut geeignet, um in Videos visuelle Objekte (z.B. Katzen) zu erkennen.
* "Eager Execution" ist ein Reinforcement-Learning-spezifischer Begriff.
* TensorFlow bietet für die Lösung visueller Lernprobleme auch die wesentlichen Bildverarbeitungsfunktionen an.
* Die Belohnung im Reinforcement Learning wird mithilfe der Quality Function berechnet.
* Reinforcement Learning ist ein neues Verfahren des Deep Learnings.
* Beim Reinforcement Learning erfolgt das Feedback direkt nach der Entscheidung durch den Algorithmus.
* Q-Learning versucht, einen Ausgleich zwischen maximaler Belohnung und minimalem Berechnungsaufwand zu erzielen.
* Mit Reinforcement Learning sollen Computer lernen, selbständig Entscheidungen zu treffen.
* Maschinenlern-Verfahren werden durch Hyperparameter konfiguriert.
* Im Reinforcement-Learning benutzt die Loss-Funktion die Q-Funktion.
* Die Loss-Funktion beschreibt im Maschinenlernen den Unterschied zwischen gewünschtem und tatsächlichem Lernergebnis.
* Mit TensorFlow können Convolution-Ebenen, aber keine vollständig verknüpften Ebenen erstellt werden.
* OpenAI ist die Standardisierungs-Behörde für Deep-Learning-Algorithmen.
* Die Quality Function ist vom aktuellen Zustand (State) und der vorgeschlagenen Aktion (Action) abhängig.
* Maschienenlern-Bibliotheken (z.B. TensorFlow) bieten oft Python-Sprachbindungen an.
* Reinforcement Learning ist eine Form des Maschinenlernens.
* Der Replay-Speicher enthält eine beschränkte Anzahl früherer Spielsituationen.
* Der aktuelle Zustand eines Reinforcement-Modells wird als "State" bezeichnet.
* Eine Lern-Iteration wird im Reinforcement Learning oft als Episode oder als Epoche bezeichnet.
* Die Ausgabe von Q(s,a) ist eine Wahrscheinlichkeit.
* Die Lernrate ist ein typischer Hyperparameter im Reinforcement Learning.
* Im Laufe des Lernens spielt Zufall beim Q-Learning eine immer größere Rolle.
* DeepMind verwendet weder eine zufällige Initialisierung noch Vorwissen für den Trainings-Prozess.
* Das Epsilon-Greedy-Verfahren versucht, immer die beste Aktion auszuwählen.