Reinforcement Learning

Reinforcement Learning = Lernen durch Verstärken

Reinforcement Learning (RL) ist ein Teilbereich des maschinellen Lernens, bei dem ein Agent durch Trial-and-Error in einer Umgebung handelt, um eine maximale Belohnung zu erhalten. Der Agent lernt aus den Belohnungen oder Bestrafungen, die er für seine Aktionen erhält.

Trial-and-Error

Es gibt ein Belohnungsverfahren
- Gutes Verhalten → Reward
- Schlechtes Verhalten → Strafe
Agent kann Aktionen durchführen, um maximimum an Belohnungenzu erhalten, dabei verändert er das Environment
Environment ist in einem Zustand - State, den der Agent kennt.
Agent bekommt kein Briefing - Verfahren zur Problemlösung, sondern er entickelt sich selbst
- alle Verfahren
- Methoden
Voraussetzung. Es gibt eine Umgebung - Simulationsumgebung, in der der Agent gefahrlos trainieren kan.

Funktion

Agent entwickelt durch Trial-and-Error eine Funktion $Q$

Q (s_{t}, a_{t}) = r_{t} + γ \cdot ma x Q (s_{t + 1}, a)

$γ$ → Abzinsfaktor (Gegeben)
- Je höher $γ$ , desto mehr werden zukünftige Belohnungen gewichtet.
$r_{t}$ = Reward, welches der Agent in einem nächsten Zustand erhält.
max → Gewichtung von den nächsten Verbindungen aus Zustand $s_{2}$ zu $s_{4}$ oder zu $s_{5}$
- Agent wählt Aktionen mit dem besten Reward

Grundprinzipien

Agent: Software-Komponente, die trainiert wird.
Umgebung: Umgebung, in der der Agent trainiert wird.
Aktion: Möglicher Schritt des Agenten.
Zustand: Aktueller Zustand
Belohnung: Belohnung für aktuellen Zustand, welche auf hinterlegte Bewertung basiert.

Q-Learning

Q-Learning ist ein wichtiger Algorithmus im RL, bei dem der Agent eine Q-Tabelle nutzt, um den Wert jeder Aktion in jedem Zustand zu speichern. Er aktualisiert diese Tabelle basierend auf den Belohnungen, die er erhält.

Es gibt eine Reaktion der Umgebung auf eine Aktion $a$ im Zustand - State $s$ zu verscheidenen Zeitpunkten.
- Diese Reaktionen führen zu Nachfolgezustände und Belohnungen
- z.B. ein hinderns taucht zufällig auf

Formel

Q (s_{t}, a_{t}) = (1 - a) \cdot Q (s_{t}, a_{t}) + a \cdot (r_{t} + γ \cdot ma x Q (s_{t + 1}, a))

$a$ ist Lernrate.
$γ$ → Abzinsfaktor (Gegeben)
- Je höher $γ$ , desto mehr werden zukünftige Belohnungen gewichtet.
$Q (s_{t}, a_{t})$ Reward für bisherigen Zustand
$r_{t}$ = Reward, welches der Agent in einem nächsten Zustand erhält.
max → Gewichtung von den nächsten Verbindungen aus Zustand $s_{2}$ zu $s_{4}$ oder zu $s_{5}$
- Agent wählt Aktionen mit dem besten Reward

Algorithmus

Start in zufälligen Zustand
Lerne bis zum Endzustand
Wähle eine Aktionen beim Lernen aus:
- Zuällig eine Aktion, um Graph zu erkunden → Explore (Zu)
- Max(Q) → Konvergenz suchen (die beste bekannte Aktion wählen) → Exploit

Beispiel: Schatzsuche

Ein Agent sucht in einem Labyrinth nach einem Schatz. Durch Q-Learning lernt er den optimalen Pfad, um den Schatz zu finden und Fallen zu vermeiden.

Reinforcement Learning

Lösen von komplexen Aufgaben
Erfolgt hängt von der richtigen Belohnungsfunktion und Algorithmus ab.

Anwendung-Bereich

Spielen
Robotik
Kontrollsystemen

Reinforcement vs. Überwachtes Lernen

Aspekt	Reinforcement Learning	Überwachtes Lernen
Feedback	Der Agent wird durch ein Belohnungssystem für seine Aktionen in der Umgebung belohnt oder bestraft.	Das Modell erhält direktes Feedback in Form von gelabelten Daten.
Datensatz	Benötigt keine Daten, sondern verbessert sich durch wiederholtes Ausprobieren.	Benötigt Datensatz mit gelabelten Daten.
Ziel	Eine Strategie zu entwickeln, um eine Steuerungs- oder Kontroll-Aufgabe möglichst gut zu erfüllen.	Zu einer Eingabe soll die passende Ausgabe ermittelt werden.

Quiz

Frage 1: Was ist die Grundidee des Reinforcement Learning?

a) Ein Modell wird mit gelabelten Daten trainiert, um Vorhersagen zu treffen.
b) Ein Agent lernt durch Interaktion mit einer Umgebung und erhält Belohnungen oder Bestrafungen für seine Aktionen.
c) Ein Algorithmus findet Muster in ungelabelten Daten, um diese in Gruppen einzuteilen.

Lösung

b) Ein Agent lernt durch Interaktion mit einer Umgebung und erhält Belohnungen oder Bestrafungen für seine Aktionen.
Erläuterung: Reinforcement Learning ist ein Teilbereich des maschinellen Lernens, bei dem ein Agent lernt, in einer Umgebung zu agieren, indem er Belohnungen für erwünschte Aktionen und Bestrafungen für unerwünschte Aktionen erhält.

Frage 2: Nennen Sie drei Anwendungsbeispiele für Reinforcement Learning.

a) Bilderkennung, Textübersetzung, Spracherkennung
b) Spiele, Robotik, Steuerung von Systemen
c) Clustering, Klassifikation, Regression

Lösung

b) Spiele, Robotik, Steuerung von Systemen
Erläuterung: Die Quellen erwähnen Spiele, Robotik und die Steuerung von Systemen als Beispiele für Reinforcement Learning.

Frage 3: Was ist ein Q-Wert im Q-Learning?

a) Die Wahrscheinlichkeit, dass eine Aktion in einem bestimmten Zustand zum Erfolg führt.
b) Der geschätzte Wert einer Aktion in einem bestimmten Zustand, der die zukünftigen Belohnungen berücksichtigt.
c) Die Bestrafung, die ein Agent erhält, wenn er eine falsche Aktion in einem bestimmten Zustand ausführt.

Lösung

b) Der geschätzte Wert einer Aktion in einem bestimmten Zustand, der die zukünftigen Belohnungen berücksichtigt.
Erläuterung: Im Q-Learning wird jedem Zustand-Aktions-Paar ein Q-Wert zugewiesen. Dieser Wert repräsentiert den geschätzten Wert der Ausführung dieser Aktion in diesem Zustand, unter Berücksichtigung aller zukünftigen Belohnungen.

Frage 4: Was ist der Unterschied zwischen "Exploitation" und "Exploration" im Reinforcement Learning?

a) Exploitation nutzt das vorhandene Wissen, um die beste Aktion auszuwählen, während Exploration neue Aktionen ausprobiert, um das Wissen zu erweitern.
b) Exploitation beschreibt die Ausnutzung der Umgebung, um maximale Belohnungen zu erhalten, während Exploration die Vermeidung von Bestrafungen durch vorsichtiges Handeln beschreibt.
c) Exploitation und Exploration beschreiben die zwei Phasen des Reinforcement Learning: In der Exploitation-Phase wird das Modell trainiert, in der Exploration-Phase wird es angewendet.

Lösung

a) Exploitation nutzt das vorhandene Wissen, um die beste Aktion auszuwählen, während Exploration neue Aktionen ausprobiert, um das Wissen zu erweitern.
Erläuterung: “Exploitation” bedeutet, die Aktion mit dem aktuell höchsten Q-Wert auszuwählen, während “Exploration” bedeutet, neue Aktionen auszuprobieren, um möglicherweise bessere Aktionen zu entdecken.

Frage 5: Welche Herausforderungen können beim Reinforcement Learning auftreten?

a) Die Wahl der richtigen Belohnungsfunktion kann schwierig sein.
b) Das Training von Reinforcement Learning-Agenten kann sehr rechenintensiv sein.
c) Es kann schwierig sein, eine geeignete Simulationsumgebung für das Training zu finden.
d) Alle oben genannten Punkte.

Lösung

d) Alle oben genannten Punkte.
Erläuterung: Die Quellen erwähnen, dass die Wahl der Belohnungsfunktion, die Rechenintensität und die Verfügbarkeit einer Simulationsumgebung Herausforderungen beim Reinforcement Learning sein können.

Frage 6: Beschreiben Sie den Unterschied zwischen Reinforcement Learning und überwachtem Lernen.

Lösung

Überwachtes Lernen: Das Modell erhält direktes Feedback in Form von gelabelten Daten. Es benötigt einen Datensatz mit gelabelten Daten, um den Zusammenhang zwischen Eingabe und Ausgabe zu lernen. Das Ziel ist es, für eine Eingabe die passende Ausgabe zu ermitteln.
Reinforcement Learning: Der Agent erhält Feedback durch ein Belohnungssystem. Es benötigt keinen Datensatz, sondern verbessert sich durch wiederholtes Ausprobieren in einer Umgebung. Das Ziel ist, eine Strategie zu entwickeln, um eine Aufgabe optimal zu lösen.

Frage 7: Erläutern Sie den Begriff "Abzinsen" im Kontext des Reinforcement Learning.

Lösung

“Abzinsen” im Reinforcement Learning bedeutet, den Wert zukünftiger Belohnungen im Vergleich zu gegenwärtigen Belohnungen zu reduzieren. Dies spiegelt die Idee wider, dass eine Belohnung, die in der Zukunft erhalten wird, weniger wertvoll ist als eine Belohnung, die jetzt erhalten wird. Der Diskontierungsfaktor γ bestimmt, wie stark zukünftige Belohnungen abgezinst werden.

Frage 8: Nennen Sie zwei Gründe, warum Reinforcement Learning für Spiele besonders gut geeignet ist.

Lösung

Spiele haben oft eine begrenzte Anzahl möglicher Aktionen und klar definierte Zustände, was die Modellierung vereinfacht.

In Spielen kann man leicht Simulationsumgebungen erstellen, in denen Agenten gefahrlos trainieren können.

Tiger103 ˚₊‧🐯.𖥔 ݁

Explorer

Reinforcement Learning

Trial-and-Error

Funktion

Grundprinzipien

Q-Learning

Formel

Algorithmus

Beispiel: Schatzsuche

Reinforcement Learning

Anwendung-Bereich

Reinforcement vs. Überwachtes Lernen

Quiz

Graph View

Table of Contents

Backlinks