4 resultados para Reinforcement composites
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines Funktionsapproximators und dessen Verwendung in Verfahren zum Lernen von diskreten und kontinuierlichen Aktionen: 1. Ein allgemeiner Funktionsapproximator – Locally Weighted Interpolating Growing Neural Gas (LWIGNG) – wird auf Basis eines Wachsenden Neuralen Gases (GNG) entwickelt. Die topologische Nachbarschaft in der Neuronenstruktur wird verwendet, um zwischen benachbarten Neuronen zu interpolieren und durch lokale Gewichtung die Approximation zu berechnen. Die Leistungsfähigkeit des Ansatzes, insbesondere in Hinsicht auf sich verändernde Zielfunktionen und sich verändernde Eingabeverteilungen, wird in verschiedenen Experimenten unter Beweis gestellt. 2. Zum Lernen diskreter Aktionen wird das LWIGNG-Verfahren mit Q-Learning zur Q-LWIGNG-Methode verbunden. Dafür muss der zugrunde liegende GNG-Algorithmus abgeändert werden, da die Eingabedaten beim Aktionenlernen eine bestimmte Reihenfolge haben. Q-LWIGNG erzielt sehr gute Ergebnisse beim Stabbalance- und beim Mountain-Car-Problem und gute Ergebnisse beim Acrobot-Problem. 3. Zum Lernen kontinuierlicher Aktionen wird ein REINFORCE-Algorithmus mit LWIGNG zur ReinforceGNG-Methode verbunden. Dabei wird eine Actor-Critic-Architektur eingesetzt, um aus zeitverzögerten Belohnungen zu lernen. LWIGNG approximiert sowohl die Zustands-Wertefunktion als auch die Politik, die in Form von situationsabhängigen Parametern einer Normalverteilung repräsentiert wird. ReinforceGNG wird erfolgreich zum Lernen von Bewegungen für einen simulierten 2-rädrigen Roboter eingesetzt, der einen rollenden Ball unter bestimmten Bedingungen abfangen soll.
Resumo:
Die Arbeit behandelt das Problem der Skalierbarkeit von Reinforcement Lernen auf hochdimensionale und komplexe Aufgabenstellungen. Unter Reinforcement Lernen versteht man dabei eine auf approximativem Dynamischen Programmieren basierende Klasse von Lernverfahren, die speziell Anwendung in der Künstlichen Intelligenz findet und zur autonomen Steuerung simulierter Agenten oder realer Hardwareroboter in dynamischen und unwägbaren Umwelten genutzt werden kann. Dazu wird mittels Regression aus Stichproben eine Funktion bestimmt, die die Lösung einer "Optimalitätsgleichung" (Bellman) ist und aus der sich näherungsweise optimale Entscheidungen ableiten lassen. Eine große Hürde stellt dabei die Dimensionalität des Zustandsraums dar, die häufig hoch und daher traditionellen gitterbasierten Approximationsverfahren wenig zugänglich ist. Das Ziel dieser Arbeit ist es, Reinforcement Lernen durch nichtparametrisierte Funktionsapproximation (genauer, Regularisierungsnetze) auf -- im Prinzip beliebig -- hochdimensionale Probleme anwendbar zu machen. Regularisierungsnetze sind eine Verallgemeinerung von gewöhnlichen Basisfunktionsnetzen, die die gesuchte Lösung durch die Daten parametrisieren, wodurch die explizite Wahl von Knoten/Basisfunktionen entfällt und so bei hochdimensionalen Eingaben der "Fluch der Dimension" umgangen werden kann. Gleichzeitig sind Regularisierungsnetze aber auch lineare Approximatoren, die technisch einfach handhabbar sind und für die die bestehenden Konvergenzaussagen von Reinforcement Lernen Gültigkeit behalten (anders als etwa bei Feed-Forward Neuronalen Netzen). Allen diesen theoretischen Vorteilen gegenüber steht allerdings ein sehr praktisches Problem: der Rechenaufwand bei der Verwendung von Regularisierungsnetzen skaliert von Natur aus wie O(n**3), wobei n die Anzahl der Daten ist. Das ist besonders deswegen problematisch, weil bei Reinforcement Lernen der Lernprozeß online erfolgt -- die Stichproben werden von einem Agenten/Roboter erzeugt, während er mit der Umwelt interagiert. Anpassungen an der Lösung müssen daher sofort und mit wenig Rechenaufwand vorgenommen werden. Der Beitrag dieser Arbeit gliedert sich daher in zwei Teile: Im ersten Teil der Arbeit formulieren wir für Regularisierungsnetze einen effizienten Lernalgorithmus zum Lösen allgemeiner Regressionsaufgaben, der speziell auf die Anforderungen von Online-Lernen zugeschnitten ist. Unser Ansatz basiert auf der Vorgehensweise von Recursive Least-Squares, kann aber mit konstantem Zeitaufwand nicht nur neue Daten sondern auch neue Basisfunktionen in das bestehende Modell einfügen. Ermöglicht wird das durch die "Subset of Regressors" Approximation, wodurch der Kern durch eine stark reduzierte Auswahl von Trainingsdaten approximiert wird, und einer gierigen Auswahlwahlprozedur, die diese Basiselemente direkt aus dem Datenstrom zur Laufzeit selektiert. Im zweiten Teil übertragen wir diesen Algorithmus auf approximative Politik-Evaluation mittels Least-Squares basiertem Temporal-Difference Lernen, und integrieren diesen Baustein in ein Gesamtsystem zum autonomen Lernen von optimalem Verhalten. Insgesamt entwickeln wir ein in hohem Maße dateneffizientes Verfahren, das insbesondere für Lernprobleme aus der Robotik mit kontinuierlichen und hochdimensionalen Zustandsräumen sowie stochastischen Zustandsübergängen geeignet ist. Dabei sind wir nicht auf ein Modell der Umwelt angewiesen, arbeiten weitestgehend unabhängig von der Dimension des Zustandsraums, erzielen Konvergenz bereits mit relativ wenigen Agent-Umwelt Interaktionen, und können dank des effizienten Online-Algorithmus auch im Kontext zeitkritischer Echtzeitanwendungen operieren. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand von zwei realistischen und komplexen Anwendungsbeispielen: dem Problem RoboCup-Keepaway, sowie der Steuerung eines (simulierten) Oktopus-Tentakels.
Resumo:
ABSTRACT: In this work, proton conducting copolymers, polymer blends and composites containing phosphonic acid groups have been prepared. Proton conduction mechanisms in these materials are discussed respectively in both, the anhydrous and humidified state. Atom transfer radical copolymerization (ATRCP) of diisopropyl-p-vinylbenzyl phosphonate (DIPVBP) and 4-vinyl pyridine (4VP) is studied for the first time in this work. The kinetic parameters are obtained by using the 1H-NMR online technique. Proton conduction in poly(vinylbenzyl phosphonic acid) (PVBPA) homopolymer and its statistical copolymers with 4-vinyl pyridine (poly(VBPA-stat-4VP)s) are comprehensively studied in both, the “dry” and “wet” state. Effects of temperature, water content and polymer composition on proton conductivities are studied and proton transport mechanisms under various conditions are discussed. The proton conductivity of the polymers is in the range of 10-6-10-8 S/cm in nominally dry state at 150 oC. However, proton conductivity of the polymers increases rapidly with water content in the polymers which can reach 10-2 S/cm at the water uptake of 25% in the polymers. The highest proton conductivity obtained from the polymers can even reach 0.3 S/cm which was measured at 85oC with 80% relative humidity in the measuring atmosphere. Poly(4-vinyl pyridine) was grafted from the surface of SiO2 nanoparticles using ATRP in this work for the first time. Following this approach, silica nanoparticles with a shell of polymeric layer are used as basic particles in a polymeric acidic matrix. The proton conductivities of the composites are studied under both, humidified and dry conditions. In dry state, the conductivity of the composites is in the range of 10-10~10-4 S/cm at 150 oC. While in humid state, the composites show much higher proton conductivity. The highest proton conductivity obtained with the composites is 0.5 S/cm measured at 85oC with 80% relative humidity in the measuring atmosphere. The miscibility of poly (vinyl phosphonic acid) and PEO is studied for the first time in this work and a phase diagram is plotted based on a DSC study and optical microscopy. With this knowledge, homogeneous PVPA/PEO mixtures are prepared as proton-conducting polymer blends. The mobility of phosphonic acid groups and PEO in the blends is determined by 1H-MAS-NMR in temperature dependent measurements. The effect of composition and the role of PEO on proton conduction are discussed.
Resumo:
Polymer-nanoparticle hybrids show synergistic effects, demonstrating both, the unique properties of nanosized structures and the good processability and functionalities of polymeric materials. This work shows the synthesis and application of block copolymers containing a soluble, functional block and a short anchor block, which efficiently binds to the surface of nanocrystals. We functionalized anisotropic, semiconducting nanoparticles, which can be dissolved in organic and polymeric matrices upon modification. The modified nanorods have the ability to form liquid crystalline phases, which behave similar to low molecular liquid crystals with a reversible clearing behaviour. These liquid crystalline phases could also be obtained in hole conducting matrices. For a macroscopic orientation of the nanorods, electric fields were applied and a switching (in analogy to known liquid crystals) to a homeotropic orientation was observed.rnBy introduction of dye molecules in the anchor block of a hole conducting block copolymer, all essential components of a solar cell can be combined in a single particle. Light absorption of the dye induces the injection of electrons into the particles, followed by a charging, that was monitored by a special AFM technique.rnLight emitting nanocrystals were functionalized analogously with a hole transporting polymer. The stability of the particles could be enhanced by the sterically stabilizing polymer corona and the particles showed improved properties in terms of processing. We applied these hybrid materials in light emitting devices, which showed better characteristics due to an improved hole injection and well dispersed emitting particles in the active device layer.rnThe work shows the broad spectrum of properties and applications based on the synergistic effects in hybrid and composite materials.