3 resultados para zone-based policy
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Die Arbeit behandelt das Problem der Skalierbarkeit von Reinforcement Lernen auf hochdimensionale und komplexe Aufgabenstellungen. Unter Reinforcement Lernen versteht man dabei eine auf approximativem Dynamischen Programmieren basierende Klasse von Lernverfahren, die speziell Anwendung in der Künstlichen Intelligenz findet und zur autonomen Steuerung simulierter Agenten oder realer Hardwareroboter in dynamischen und unwägbaren Umwelten genutzt werden kann. Dazu wird mittels Regression aus Stichproben eine Funktion bestimmt, die die Lösung einer "Optimalitätsgleichung" (Bellman) ist und aus der sich näherungsweise optimale Entscheidungen ableiten lassen. Eine große Hürde stellt dabei die Dimensionalität des Zustandsraums dar, die häufig hoch und daher traditionellen gitterbasierten Approximationsverfahren wenig zugänglich ist. Das Ziel dieser Arbeit ist es, Reinforcement Lernen durch nichtparametrisierte Funktionsapproximation (genauer, Regularisierungsnetze) auf -- im Prinzip beliebig -- hochdimensionale Probleme anwendbar zu machen. Regularisierungsnetze sind eine Verallgemeinerung von gewöhnlichen Basisfunktionsnetzen, die die gesuchte Lösung durch die Daten parametrisieren, wodurch die explizite Wahl von Knoten/Basisfunktionen entfällt und so bei hochdimensionalen Eingaben der "Fluch der Dimension" umgangen werden kann. Gleichzeitig sind Regularisierungsnetze aber auch lineare Approximatoren, die technisch einfach handhabbar sind und für die die bestehenden Konvergenzaussagen von Reinforcement Lernen Gültigkeit behalten (anders als etwa bei Feed-Forward Neuronalen Netzen). Allen diesen theoretischen Vorteilen gegenüber steht allerdings ein sehr praktisches Problem: der Rechenaufwand bei der Verwendung von Regularisierungsnetzen skaliert von Natur aus wie O(n**3), wobei n die Anzahl der Daten ist. Das ist besonders deswegen problematisch, weil bei Reinforcement Lernen der Lernprozeß online erfolgt -- die Stichproben werden von einem Agenten/Roboter erzeugt, während er mit der Umwelt interagiert. Anpassungen an der Lösung müssen daher sofort und mit wenig Rechenaufwand vorgenommen werden. Der Beitrag dieser Arbeit gliedert sich daher in zwei Teile: Im ersten Teil der Arbeit formulieren wir für Regularisierungsnetze einen effizienten Lernalgorithmus zum Lösen allgemeiner Regressionsaufgaben, der speziell auf die Anforderungen von Online-Lernen zugeschnitten ist. Unser Ansatz basiert auf der Vorgehensweise von Recursive Least-Squares, kann aber mit konstantem Zeitaufwand nicht nur neue Daten sondern auch neue Basisfunktionen in das bestehende Modell einfügen. Ermöglicht wird das durch die "Subset of Regressors" Approximation, wodurch der Kern durch eine stark reduzierte Auswahl von Trainingsdaten approximiert wird, und einer gierigen Auswahlwahlprozedur, die diese Basiselemente direkt aus dem Datenstrom zur Laufzeit selektiert. Im zweiten Teil übertragen wir diesen Algorithmus auf approximative Politik-Evaluation mittels Least-Squares basiertem Temporal-Difference Lernen, und integrieren diesen Baustein in ein Gesamtsystem zum autonomen Lernen von optimalem Verhalten. Insgesamt entwickeln wir ein in hohem Maße dateneffizientes Verfahren, das insbesondere für Lernprobleme aus der Robotik mit kontinuierlichen und hochdimensionalen Zustandsräumen sowie stochastischen Zustandsübergängen geeignet ist. Dabei sind wir nicht auf ein Modell der Umwelt angewiesen, arbeiten weitestgehend unabhängig von der Dimension des Zustandsraums, erzielen Konvergenz bereits mit relativ wenigen Agent-Umwelt Interaktionen, und können dank des effizienten Online-Algorithmus auch im Kontext zeitkritischer Echtzeitanwendungen operieren. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand von zwei realistischen und komplexen Anwendungsbeispielen: dem Problem RoboCup-Keepaway, sowie der Steuerung eines (simulierten) Oktopus-Tentakels.
Resumo:
A series of new columnar discotic liquid crystalline materials based on the superphenalene (C96) core has been synthesized by oxidative cyclodehydrogenation with iron(III) chloride of suitable three-dimensional oligophenylene precursors. These compounds were investigated by means of differential scanning calorimetry (DSC), polarized optical microscopy (POM) and wide angle X-ray scattering (WAXS), and showed highly ordered supramolecular arrays and mesophase behavior over a broad temperature range. Good solubility, through the introduction of long alkyl chains, and the fact that these new superphenalene derivatives were found to be liquid crystalline at room temperature enabled the formation of highly ordered films (using the zone-casting technique), a requirement for application in organic electronic devices. The one-dimensional, intracolumnar charge carrier mobilities of superphenalene derivatives were determined using the pulse-radiolysis time-resolved microwave conductivity technique (PR-TRMC). Electrical properties of different C96-C12 architectures on mica surfaces were examined by using Electrostatic Force Microscopy (EFM) and Kelvin Probe Force Microscopy (KPFM). Hexa-peri-hexabenzocoronene (C42) derivatives substituted at the periphery with six branched alkyl ether chains were also synthesized. It was found that the introduction of ether groups within the side chains enhances the affinity of the discotic molecules towards polar surfaces, resulting in homeotropic self-assembly (as shown by POM and 2D-WAXS) when the compounds are processed from the isotropic state between two surfaces. A new, insoluble, superphenalene building block bearing six reactive sites was prepared, and was further used for the preparation of dendronized superphenalenes with bulky dendritic substituents around the core. UV/Vis and fluorescence experiments suggest reduced π-π stacking of the superphenalene cores as a result of steric hindrance between the peripheral dendritic units. A new family of graphitic molecules with partial ”zig-zag” periphery has been established. The incorporation of ”zig-zag” edges was shown to have a strong influence on the electronic properties of the new molecules (as studied by solution and solid-state UV/Vis, and fluorescence spectroscopy), leading to a significant bathochromic shift with respect to the parent PAHs (C42 and C96). The reactivity of the additional double bonds was examined. The attachment of long alkyl chains to a ”zig-zag” superphenalene core afforded a new, processable, liquid crystalline material.
Resumo:
Phononische Kristalle sind strukturierte Materialien mit sich periodisch ändernden elastischen Moduln auf der Wellenlängenskala. Die Interaktion zwischen Schallwellen und periodischer Struktur erzeugt interessante Interferenzphänomene, und phononische Kristalle erschließen neue Funktionalitäten, die in unstrukturierter Materie unzugänglich sind. Hypersonische phononische Kristalle im Speziellen, die bei GHz Frequenzen arbeiten, haben Periodizitäten in der Größenordnung der Wellenlänge sichtbaren Lichts und zeigen daher die Wege auf, gleichzeitig Licht- und Schallausbreitung und -lokalisation zu kontrollieren, und dadurch die Realisierung neuartiger akusto-optischer Anordnungen. Bisher bekannte hypersonische phononische Kristalle basieren auf thermoplastischen Polymeren oder Epoxiden und haben nur eingeschränkte thermische und mechanische Stabilität und mechanischen Kontrast. Phononische Kristalle, die aus mit Flüssigkeit gefüllten zylindrischen Kanälen in harter Matrix bestehen, zeigen einen sehr hohen elastischen Kontrast und sind bislang noch unerforscht. In dieser Dissertation wird die experimentelle Untersuchung zweidimensionaler hypersonischer phononischer Kristalle mit hexagonaler Anordnung zylindrischer Nanoporen basierend auf der Selbstorganisation anodischen Aluminiumoxids (AAO) beschrieben. Dazu wird die Technik der hochauflösenden inelastischen Brillouin Lichtstreuung (BLS) verwendet. AAO ist ein vielsetiges Modellsystem für die Untersuchung reicher phononischer Phänomene im GHz-Bereich, die eng mit den sich in den Nanoporen befindlichen Flüssigkeiten und deren Interaktion mit der Porenwand verknüpft sind. Gerichteter Fluss elastischer Energie parallel und orthogonal zu der Kanalachse, Lokalisierung von Phononen und Beeinflussung der phononischen Bandstruktur bei gleichzeitig präziser Kontrolle des Volumenbruchs der Kanäle (Porosität) werden erörtert. Außerdem ermöglicht die thermische Stabilität von AAO ein temperaturabhängiges Schalten phononischer Eigenschaften infolge temperaturinduzierter Phasenübergänge in den Nanoporen. In monokristallinen zweidimensionalen phononischen AAO Kristallen unterscheiden sich die Dispersionsrelationen empfindlich entlang zweier hoch symmetrischer Richtungen in der Brillouinzone, abhängig davon, ob die Poren leer oder gefüllt sind. Alle experimentellen Dispersionsrelationen werden unter Zuhilfenahme theoretische Ergebnisse durch finite Elemente Analyse (FDTD) gedeutet. Die Zuordnung der Verschiebungsfelder der elastischen Wellen erklärt die Natur aller phononischen Moden.