3 resultados para tunnel reinforcement
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines Funktionsapproximators und dessen Verwendung in Verfahren zum Lernen von diskreten und kontinuierlichen Aktionen: 1. Ein allgemeiner Funktionsapproximator – Locally Weighted Interpolating Growing Neural Gas (LWIGNG) – wird auf Basis eines Wachsenden Neuralen Gases (GNG) entwickelt. Die topologische Nachbarschaft in der Neuronenstruktur wird verwendet, um zwischen benachbarten Neuronen zu interpolieren und durch lokale Gewichtung die Approximation zu berechnen. Die Leistungsfähigkeit des Ansatzes, insbesondere in Hinsicht auf sich verändernde Zielfunktionen und sich verändernde Eingabeverteilungen, wird in verschiedenen Experimenten unter Beweis gestellt. 2. Zum Lernen diskreter Aktionen wird das LWIGNG-Verfahren mit Q-Learning zur Q-LWIGNG-Methode verbunden. Dafür muss der zugrunde liegende GNG-Algorithmus abgeändert werden, da die Eingabedaten beim Aktionenlernen eine bestimmte Reihenfolge haben. Q-LWIGNG erzielt sehr gute Ergebnisse beim Stabbalance- und beim Mountain-Car-Problem und gute Ergebnisse beim Acrobot-Problem. 3. Zum Lernen kontinuierlicher Aktionen wird ein REINFORCE-Algorithmus mit LWIGNG zur ReinforceGNG-Methode verbunden. Dabei wird eine Actor-Critic-Architektur eingesetzt, um aus zeitverzögerten Belohnungen zu lernen. LWIGNG approximiert sowohl die Zustands-Wertefunktion als auch die Politik, die in Form von situationsabhängigen Parametern einer Normalverteilung repräsentiert wird. ReinforceGNG wird erfolgreich zum Lernen von Bewegungen für einen simulierten 2-rädrigen Roboter eingesetzt, der einen rollenden Ball unter bestimmten Bedingungen abfangen soll.
Resumo:
Die Arbeit behandelt das Problem der Skalierbarkeit von Reinforcement Lernen auf hochdimensionale und komplexe Aufgabenstellungen. Unter Reinforcement Lernen versteht man dabei eine auf approximativem Dynamischen Programmieren basierende Klasse von Lernverfahren, die speziell Anwendung in der Künstlichen Intelligenz findet und zur autonomen Steuerung simulierter Agenten oder realer Hardwareroboter in dynamischen und unwägbaren Umwelten genutzt werden kann. Dazu wird mittels Regression aus Stichproben eine Funktion bestimmt, die die Lösung einer "Optimalitätsgleichung" (Bellman) ist und aus der sich näherungsweise optimale Entscheidungen ableiten lassen. Eine große Hürde stellt dabei die Dimensionalität des Zustandsraums dar, die häufig hoch und daher traditionellen gitterbasierten Approximationsverfahren wenig zugänglich ist. Das Ziel dieser Arbeit ist es, Reinforcement Lernen durch nichtparametrisierte Funktionsapproximation (genauer, Regularisierungsnetze) auf -- im Prinzip beliebig -- hochdimensionale Probleme anwendbar zu machen. Regularisierungsnetze sind eine Verallgemeinerung von gewöhnlichen Basisfunktionsnetzen, die die gesuchte Lösung durch die Daten parametrisieren, wodurch die explizite Wahl von Knoten/Basisfunktionen entfällt und so bei hochdimensionalen Eingaben der "Fluch der Dimension" umgangen werden kann. Gleichzeitig sind Regularisierungsnetze aber auch lineare Approximatoren, die technisch einfach handhabbar sind und für die die bestehenden Konvergenzaussagen von Reinforcement Lernen Gültigkeit behalten (anders als etwa bei Feed-Forward Neuronalen Netzen). Allen diesen theoretischen Vorteilen gegenüber steht allerdings ein sehr praktisches Problem: der Rechenaufwand bei der Verwendung von Regularisierungsnetzen skaliert von Natur aus wie O(n**3), wobei n die Anzahl der Daten ist. Das ist besonders deswegen problematisch, weil bei Reinforcement Lernen der Lernprozeß online erfolgt -- die Stichproben werden von einem Agenten/Roboter erzeugt, während er mit der Umwelt interagiert. Anpassungen an der Lösung müssen daher sofort und mit wenig Rechenaufwand vorgenommen werden. Der Beitrag dieser Arbeit gliedert sich daher in zwei Teile: Im ersten Teil der Arbeit formulieren wir für Regularisierungsnetze einen effizienten Lernalgorithmus zum Lösen allgemeiner Regressionsaufgaben, der speziell auf die Anforderungen von Online-Lernen zugeschnitten ist. Unser Ansatz basiert auf der Vorgehensweise von Recursive Least-Squares, kann aber mit konstantem Zeitaufwand nicht nur neue Daten sondern auch neue Basisfunktionen in das bestehende Modell einfügen. Ermöglicht wird das durch die "Subset of Regressors" Approximation, wodurch der Kern durch eine stark reduzierte Auswahl von Trainingsdaten approximiert wird, und einer gierigen Auswahlwahlprozedur, die diese Basiselemente direkt aus dem Datenstrom zur Laufzeit selektiert. Im zweiten Teil übertragen wir diesen Algorithmus auf approximative Politik-Evaluation mittels Least-Squares basiertem Temporal-Difference Lernen, und integrieren diesen Baustein in ein Gesamtsystem zum autonomen Lernen von optimalem Verhalten. Insgesamt entwickeln wir ein in hohem Maße dateneffizientes Verfahren, das insbesondere für Lernprobleme aus der Robotik mit kontinuierlichen und hochdimensionalen Zustandsräumen sowie stochastischen Zustandsübergängen geeignet ist. Dabei sind wir nicht auf ein Modell der Umwelt angewiesen, arbeiten weitestgehend unabhängig von der Dimension des Zustandsraums, erzielen Konvergenz bereits mit relativ wenigen Agent-Umwelt Interaktionen, und können dank des effizienten Online-Algorithmus auch im Kontext zeitkritischer Echtzeitanwendungen operieren. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand von zwei realistischen und komplexen Anwendungsbeispielen: dem Problem RoboCup-Keepaway, sowie der Steuerung eines (simulierten) Oktopus-Tentakels.
Resumo:
Der Begriff "Bannerwolke" bezeichnet ein eindrucksvolles Phänomen aus dem Bereich der Gebirgsmeteorologie. Bannerwolken können gelegentlich im Hochgebirge im Bereich steiler Bergspitzen oder langgezogener Bergrücken, wie z.B. dem Matterhorn in den Schweizer Alpen oder dem Zugspitzgrat in den Bayrischen Alpen beobachtet werden. Der Begriff bezeichnet eine Banner- oder Fahnen-ähnliche Wolkenstruktur, welche an der windabgewandten Seite des Berges befestigt zu sein scheint, während die windzugewandte Seite vollkommen wolkenfrei ist. Bannerwolken fanden bislang, trotz ihres relativ häufigen Auftretens in der wissenschaftlichen Literatur kaum Beachtung. Entsprechend wenig ist über ihren Entstehungsmechanismus und insbesondere die relative Bedeutung dynamischer gegenüber thermodynamischer Prozesse bekannt. In der wissenschaftlichen Literatur wurden bislang 3 unterschiedliche Mechanismen postuliert, um die Entstehung von Bannerwolken zu erklären. Demnach entstehen Bannerwolken durch (a) den Bernoulli-Effekt, insbesondere durch die lokale adiabatische Kühlung hervorgerufen durch eine Druckabnahme entlang quasi-horizontal verlaufender, auf der windzugewandten Seite startender Trajektorien, (b) durch isobare Mischung bodennaher kälterer Luft mit wärmerer Luft aus höheren Schichten, oder (c) durch erzwungene Hebung im aufsteigenden Ast eines Leerotors. Ziel dieser Arbeit ist es, ein besseres physikalisches Verständnis für das Phänomen der Bannerwolke zu entwickeln. Das Hauptaugenmerk liegt auf dem dominierenden Entstehungsmechanismus, der relativen Bedeutung dynamischer und thermodynamischer Prozesse, sowie der Frage nach geeigneten meteorologischen Bedingungen. Zu diesem Zweck wurde ein neues Grobstruktursimulations (LES)-Modell entwickelt, welches geeignet ist turbulente, feuchte Strömungen in komplexem Terrain zu untersuchen. Das Modell baut auf einem bereits existierenden mesoskaligen (RANS) Modell auf. Im Rahmen dieser Arbeit wurde das neue Modell ausführlich gegen numerische Referenzlösungen und Windkanal-Daten verglichen. Die wesentlichen Ergebnisse werden diskutiert, um die Anwendbarkeit des Modells auf die vorliegende wissenschaftliche Fragestellung zu überprüfen und zu verdeutlichen. Die Strömung über eine idealisierte pyramidenförmige Bergspitze wurde für Froude-Zahlen Fr >> 1 sowohl auf Labor- als auch atmosphärischer Skala mit und ohne Berücksichtigung der Feuchtephysik untersucht. Die Simulationen zeigen, dass Bannerwolken ein primär dynamisches Phänomen darstellen. Sie entstehen im Lee steiler Bergspitzen durch dynamisch erzwungene Hebung. Die Simulationen bestätigen somit die Leerotor-Theorie. Aufgrund des stark asymmetrischen, Hindernis-induzierten Strömungsfeldes können Bannerwolken sogar im Falle horizontal homogener Anfangsbedingungen hinsichtlich Feuchte und Temperatur entstehen. Dies führte zu der neuen Erkenntnis, dass zusätzliche leeseitige Feuchtequellen, unterschiedliche Luftmassen in Luv und Lee, oder Strahlungseffekte keine notwendige Voraussetzung für die Entstehung einer Bannerwolke darstellen. Die Wahrscheinlichkeit der Bannerwolkenbildung steigt mit zunehmender Höhe und Steilheit des pyramidenförmigen Hindernisses und ist in erster Näherung unabhängig von dessen Orientierung zur Anströmung. Simulationen mit und ohne Berücksichtigung der Feuchtephysik machen deutlich, dass thermodynamische Prozesse (insbes. die Umsetzung latenter Wärme) für die Dynamik prototypischer (nicht-konvektiver) Bannerwolken zweitrangig ist. Die Verstärkung des aufsteigenden Astes im Lee und die resultierende Wolkenbildung, hervorgerufen durch die Freisetzung latenter Wärme, sind nahezu vernachlässigbar. Die Feuchtephysik induziert jedoch eine Dipol-ähnliche Struktur im Vertikalprofil der Brunt-Väisälä Frequenz, was zu einem moderaten Anstieg der leeseitigen Turbulenz führt. Es wird gezeigt, dass Gebirgswellen kein entscheidendes Ingredienz darstellen, um die Dynamik von Bannerwolken zu verstehen. Durch eine Verstärkung der Absinkbewegung im Lee, haben Gebirgswellen lediglich die Tendenz die horizontale Ausdehnung von Bannerwolken zu reduzieren. Bezüglich geeigneter meteorologischer Bedingungen zeigen die Simulationen, dass unter horizontal homogenen Anfangsbedingungen die äquivalentpotentielle Temperatur in der Anströmung mit der Höhe abnehmen muss. Es werden 3 notwendige und hinreichende Kriterien, basierend auf dynamischen und thermodynamischen Variablen vorgestellt, welche einen weiteren Einblick in geeignete meteorologische Bedingungen geben.