2 resultados para Policy Learning
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines Funktionsapproximators und dessen Verwendung in Verfahren zum Lernen von diskreten und kontinuierlichen Aktionen: 1. Ein allgemeiner Funktionsapproximator – Locally Weighted Interpolating Growing Neural Gas (LWIGNG) – wird auf Basis eines Wachsenden Neuralen Gases (GNG) entwickelt. Die topologische Nachbarschaft in der Neuronenstruktur wird verwendet, um zwischen benachbarten Neuronen zu interpolieren und durch lokale Gewichtung die Approximation zu berechnen. Die Leistungsfähigkeit des Ansatzes, insbesondere in Hinsicht auf sich verändernde Zielfunktionen und sich verändernde Eingabeverteilungen, wird in verschiedenen Experimenten unter Beweis gestellt. 2. Zum Lernen diskreter Aktionen wird das LWIGNG-Verfahren mit Q-Learning zur Q-LWIGNG-Methode verbunden. Dafür muss der zugrunde liegende GNG-Algorithmus abgeändert werden, da die Eingabedaten beim Aktionenlernen eine bestimmte Reihenfolge haben. Q-LWIGNG erzielt sehr gute Ergebnisse beim Stabbalance- und beim Mountain-Car-Problem und gute Ergebnisse beim Acrobot-Problem. 3. Zum Lernen kontinuierlicher Aktionen wird ein REINFORCE-Algorithmus mit LWIGNG zur ReinforceGNG-Methode verbunden. Dabei wird eine Actor-Critic-Architektur eingesetzt, um aus zeitverzögerten Belohnungen zu lernen. LWIGNG approximiert sowohl die Zustands-Wertefunktion als auch die Politik, die in Form von situationsabhängigen Parametern einer Normalverteilung repräsentiert wird. ReinforceGNG wird erfolgreich zum Lernen von Bewegungen für einen simulierten 2-rädrigen Roboter eingesetzt, der einen rollenden Ball unter bestimmten Bedingungen abfangen soll.
Resumo:
This study examines the case of Vietnam and uses the method of process tracing to explore the sources of foreign policy choice and change. Foreign policy is derived from grand strategy, which refers to the full package of a state’s domestic and foreign policies. I argue that a state’s grand strategy results from the interaction of four factors—its society’s historical experience, social motivation, international power, and political contest among domestic groups. Grand strategies emerge as a response to perceived shifts in the balance of international economic, political, and military power. However, this is not to say that international pressures and incentives are translated into foreign policy. Rather, pressures and incentives are given meaning by worldviews, which reflect a society’s historical experiences of its place in the international system at traumatic junctures of its encounter with the outside world. Strategic changes in foreign policy follow what I call the “strategic algorithm,” which incorporates four major mechanisms—balancing against threat, bandwagoning with power, learning, and survival by transformation. This case study generates hypotheses for a theory of strategic choice, a theory of foreign policy transformation, and a theory of grand strategy emergence.