Bestärkendes Lernen

Bestärkendes Lernen bzw. Verstärkendes Lernen (engl. Reinforcement Learning) ist der Überbegriff für eine Reihe von Methoden des Maschinellen Lernens, bei denen ein Agent den Nutzen von Aktionsabfolgen in einer Welt bestimmt. Zu diesem Zweck benutzt Bestärkendes Lernen die Theorie der Markow-Entscheidungsprobleme (engl. Markov Decision Processes (MDP)). Konkret formuliert, steht dahinter der Versuch, an einen Agenten ausgeschüttete Belohnungen so über die vorangegangenen Aktionen zu verteilen, dass der Agent den Nutzen einer jeden Aktion kennt und ausnutzen kann.

Inhaltsverzeichnis

1 Einführung
- 1.1 Erwarteter Gewinn
- 1.2 Strategien
2 Markow-Entscheidungsprozess
3 Approximation
4 Simultanes Lernen mehrerer Agenten
5 Literatur
6 Weblinks

Einführung

Betrachtet wird ein dynamisches System - bestehend aus einem Agenten und seiner Umgebung (der Welt) - in diskreten Zeitschritten $t=0,1,2,...\,\!$ . Zu jedem Zeitpunkt $t\,\!$ befindet sich die Welt in einem Zustand $z_t\in Z$ und der Agent wählt eine Aktion $a_t \in A(z_t)$ aus. Daraufhin geht die Welt in den Zustand $z_{t+1}\in Z$ und der Agent erhält eine Belohnung $b_t\in B$ .

Erwarteter Gewinn

Ziel ist es den erwarteten Gewinn (engl. expected return)

$B_t = \sum_{k=0}^N \delta^k\cdot b_{t+k+1}$ mit $0\le\delta\le 1$

zu maximieren. Der erwartete Gewinn ist also so etwas wie die erwartete Gesamtbelohnung. Dabei nennt man $\delta\,\!$ den Diskontierungsfaktor (engl. discount factor). Bei episodischen Problemen, d. h. die Welt geht nach einer endlichen Anzahl von Schritten in einen Endzustand über (wie z. B. eine Schachpartie), eignet sich der Diskontierungsfaktor $\delta=1\,\!$ . In diesem Fall wird jede Belohnung $b_{t+k+1}\,\!$ gleich gewertet. Bei kontinuierlichen Problemen ( $N=\infty$ ) muss man ein $\delta<1\,\!$ wählen, damit die unendliche Reihe $B_t\,\!$ konvergiert. Für $\delta=0\,\!$ zählt nur die aktuelle Belohnung $b_t\,\!$ ; alle zukünftigen Belohnungen werden ignoriert. Geht $\delta\,\!$ gegen 1, wird der Agent weitsichtiger.

Strategien

Beim Bestärkenden Lernen verfolgt der Agent eine Strategie (engl. policy). Üblicherweise wird die Strategie als eine Funktion $s:Z \rightarrow A(Z)$ betrachtet, die jedem Zustand eine Aktion zuweist. Jedoch sind auch nichtdeterministische Strategien (oder gemischte Strategien) möglich, sodass eine Aktion mit einer bestimmten Wahrscheinlichkeit ausgewählt wird. Im Allgemeinen wird eine Strategie demnach als bedingte Wahrscheinlichkeitsverteilung definiert: $s(z,a) = p(a|s) \quad$ .

Markow-Entscheidungsprozess

Bestärkendes Lernen wird häufig als Markow-Entscheidungsprozess (engl. Markov Decision Process) aufgefasst. Charakteristisch ist die Annahme, dass die Markow-Eigenschaft erfüllt ist:

$p(z_{t+1},r_{t+1}|z_{0:t},a_{0:t},b_{0:t})=p(z_{t+1},r_{t+1}|z_{t},a_{t})\,\!$ .

Zentrale Begriffe eines Markow-Entscheidungsprozess sind das Aktionsmodell (oder Transitionswahrscheinlichkeit) und die erwartete Belohnung im nächsten Zeitschritt (engl. expected reward). Das Aktionsmodell $p(z_{t+1}|z_{t},a_{t})\,\!$ ist die bedingte Wahrscheinlichkeitsverteilung, dass die Welt von Zustand $z_{t}\,\!$ in Zustand $z_{t+1}\,\!$ übergeht, falls der Agent die Aktion $a_t\,\!$ ausgewählt hat. Im deterministischen Fall ist das Aktionsmodell einfach eine Funktion, die einem Zustands-Aktions-Paar einen neuen Zustand zuordnet. Die Erwartete Belohnung ist folgendermaßen definiert

$b(z_t,z_{t+1},a_t):=E\{b_{t+1}|z_t,z_{t+1},a_t\}\,\!$ .

Approximation

Bei unendlichen Zustandsräumen muss diese Nutzenfunktion approximiert werden, z. B. mit Neuronalen Netzen^[1] oder Gaußschen Prozessen.

Simultanes Lernen mehrerer Agenten

Soll mehr als ein Agent lernen, kann selbst bei kooperativen Agenten, außer in trivialen Fällen, die Konvergenz der Lernvorgänge (bislang) nicht mehr garantiert werden. Trotzdem kann unter Zuhilfenahme von Heuristiken oft ein in der Praxis nützliches Verhalten gelernt werden, da der worst case selten auftritt.^[2]

Literatur

Richard Sutton, Andrew Barto: Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998 (Online-Version)
Stuart Russell, Peter Norvig: Künstliche Intelligenz: Ein moderner Ansatz. Pearson Studium, August 2004, ISBN 3-8273-7089-2 (deutsche Übersetzung der 2. Auflage) Kapitel 21.

↑ Michel Tokic: Reinforcement Learning an Robotern mit Neuronalen Netzen, M.Sc. Thesis, University of Applied Sciences Ravensburg-Weingarten, 2008. (Online-Version)
↑ J. F. Knabe: Kooperatives Reinforcement Lernen in Multiagentensystemen. B. Sc. Thesis, Universität Osnabrück, 2005. http://www.panmental.de/papers/CooperativeRLinMAS.pdf

Weblinks

Tutorial zu Reinforcement Learning (englisch, PDF; 101 kB)
Häufige Fragen (FAQ) zu RL verwaltet von Richard Sutton (englisch)
Artikel über TD-Gammon, eine KI, basierend auf Verstärkendem Lernen, die Backgammon spielt (englisch)
Artikel. In: Scholarpedia (englisch, inkl. Literaturangaben)

Kategorien:

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

Lernen von Maschinen — Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele … Deutsch Wikipedia
Lernen — Kinder lernen den Umgang mit Computern Unter Lernen versteht man den absichtlichen (intentionales Lernen) und den beiläufigen (inzidentelles und implizites Lernen), individuellen oder kollektiven Erwerb von geistigen, körperlichen, sozialen… … Deutsch Wikipedia
Statistisches Lernen — Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele … Deutsch Wikipedia
Maschinelles Lernen — ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele auswendig, sondern… … Deutsch Wikipedia
Reinforcement Learning — Bestärkendes Lernen bzw. Verstärkendes Lernen (engl. Reinforcement Learning) ist eine Variante des Maschinellen Lernens, bei dem ein Agent (ein Computerprogramm) lediglich durch ein System von Belohnung und Bestrafung lernt, seinen Nutzen zu… … Deutsch Wikipedia
Künstliches neuronales Netz — Künstliche neuronale Netze (selten auch künstliche neuronale Netzwerke, kurz: KNN, engl. artificial neural network – ANN) sind Netze aus künstlichen Neuronen. Sie sind ein Zweig der künstlichen Intelligenz und prinzipieller Forschungsgegenstand… … Deutsch Wikipedia
Künstliche neuronale Netze — (kurz: KNN, engl. artificial neural network – ANN) sind Netze aus künstlichen Neuronen. Sie sind ein Zweig der künstlichen Intelligenz und prinzipieller Forschungsgegenstand der Neuroinformatik. Der Ursprung der künstlichen neuronalen Netze liegt … Deutsch Wikipedia
Künstliche neuronale Netzwerke — Künstliche neuronale Netze (kurz: KNN, engl. artificial neural network – ANN) sind Netze aus künstlichen Neuronen. Sie sind ein Zweig der künstlichen Intelligenz und prinzipieller Forschungsgegenstand der Neuroinformatik. Der Ursprung der… … Deutsch Wikipedia
Lernprozess — Kinder lernen den Umgang mit Computern Unter Lernen versteht man den absichtlichen (intentionales Lernen) und den beiläufigen (inzidentelles und implizites Lernen), individuellen oder kollektiven Erwerb von geistigen, körperlichen, sozialen… … Deutsch Wikipedia
Machine Learning — Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das heißt, es lernt nicht einfach die Beispiele … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Bestärkendes Lernen

Inhaltsverzeichnis

Einführung

Erwarteter Gewinn

Strategien

Markow-Entscheidungsprozess

Approximation

Simultanes Lernen mehrerer Agenten

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Bestärkendes Lernen

Inhaltsverzeichnis

Einführung

Erwarteter Gewinn

Strategien

Markow-Entscheidungsprozess

Approximation

Simultanes Lernen mehrerer Agenten

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link