19 resultados para Fluch
Resumo:
Die Arbeit behandelt das Problem der Skalierbarkeit von Reinforcement Lernen auf hochdimensionale und komplexe Aufgabenstellungen. Unter Reinforcement Lernen versteht man dabei eine auf approximativem Dynamischen Programmieren basierende Klasse von Lernverfahren, die speziell Anwendung in der Künstlichen Intelligenz findet und zur autonomen Steuerung simulierter Agenten oder realer Hardwareroboter in dynamischen und unwägbaren Umwelten genutzt werden kann. Dazu wird mittels Regression aus Stichproben eine Funktion bestimmt, die die Lösung einer "Optimalitätsgleichung" (Bellman) ist und aus der sich näherungsweise optimale Entscheidungen ableiten lassen. Eine große Hürde stellt dabei die Dimensionalität des Zustandsraums dar, die häufig hoch und daher traditionellen gitterbasierten Approximationsverfahren wenig zugänglich ist. Das Ziel dieser Arbeit ist es, Reinforcement Lernen durch nichtparametrisierte Funktionsapproximation (genauer, Regularisierungsnetze) auf -- im Prinzip beliebig -- hochdimensionale Probleme anwendbar zu machen. Regularisierungsnetze sind eine Verallgemeinerung von gewöhnlichen Basisfunktionsnetzen, die die gesuchte Lösung durch die Daten parametrisieren, wodurch die explizite Wahl von Knoten/Basisfunktionen entfällt und so bei hochdimensionalen Eingaben der "Fluch der Dimension" umgangen werden kann. Gleichzeitig sind Regularisierungsnetze aber auch lineare Approximatoren, die technisch einfach handhabbar sind und für die die bestehenden Konvergenzaussagen von Reinforcement Lernen Gültigkeit behalten (anders als etwa bei Feed-Forward Neuronalen Netzen). Allen diesen theoretischen Vorteilen gegenüber steht allerdings ein sehr praktisches Problem: der Rechenaufwand bei der Verwendung von Regularisierungsnetzen skaliert von Natur aus wie O(n**3), wobei n die Anzahl der Daten ist. Das ist besonders deswegen problematisch, weil bei Reinforcement Lernen der Lernprozeß online erfolgt -- die Stichproben werden von einem Agenten/Roboter erzeugt, während er mit der Umwelt interagiert. Anpassungen an der Lösung müssen daher sofort und mit wenig Rechenaufwand vorgenommen werden. Der Beitrag dieser Arbeit gliedert sich daher in zwei Teile: Im ersten Teil der Arbeit formulieren wir für Regularisierungsnetze einen effizienten Lernalgorithmus zum Lösen allgemeiner Regressionsaufgaben, der speziell auf die Anforderungen von Online-Lernen zugeschnitten ist. Unser Ansatz basiert auf der Vorgehensweise von Recursive Least-Squares, kann aber mit konstantem Zeitaufwand nicht nur neue Daten sondern auch neue Basisfunktionen in das bestehende Modell einfügen. Ermöglicht wird das durch die "Subset of Regressors" Approximation, wodurch der Kern durch eine stark reduzierte Auswahl von Trainingsdaten approximiert wird, und einer gierigen Auswahlwahlprozedur, die diese Basiselemente direkt aus dem Datenstrom zur Laufzeit selektiert. Im zweiten Teil übertragen wir diesen Algorithmus auf approximative Politik-Evaluation mittels Least-Squares basiertem Temporal-Difference Lernen, und integrieren diesen Baustein in ein Gesamtsystem zum autonomen Lernen von optimalem Verhalten. Insgesamt entwickeln wir ein in hohem Maße dateneffizientes Verfahren, das insbesondere für Lernprobleme aus der Robotik mit kontinuierlichen und hochdimensionalen Zustandsräumen sowie stochastischen Zustandsübergängen geeignet ist. Dabei sind wir nicht auf ein Modell der Umwelt angewiesen, arbeiten weitestgehend unabhängig von der Dimension des Zustandsraums, erzielen Konvergenz bereits mit relativ wenigen Agent-Umwelt Interaktionen, und können dank des effizienten Online-Algorithmus auch im Kontext zeitkritischer Echtzeitanwendungen operieren. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand von zwei realistischen und komplexen Anwendungsbeispielen: dem Problem RoboCup-Keepaway, sowie der Steuerung eines (simulierten) Oktopus-Tentakels.
Resumo:
Single gold particles may serve as room temperature single electron memory units because of their size dependent electronic level spacing. Here, we present a proof-of-concept study by electrochemically controlled scanning probe experiments performed on tailor-made Au particles of narrow dispersity. In particular, the charge transport characteristics through chemically synthesized hexane-1-thiol and 4-pyridylbenzene-1-thiol mixed monolayer protected Au144 clusters (MPCs) by differential pulse voltammetry (DPV) and electrochemical scanning tunneling spectroscopy (EC-STS) are reported. The pyridyl groups exposed by the Au-MPCs enable their immobilization on Pt(111) substrates. By varying the humidity during their deposition, samples coated by stacks of compact monolayers of Au-MPCs or decorated with individual, laterally separated Au-MPCs are obtained. DPV experiments with stacked monolayers of Au144-MPCs and EC-STS experiments with laterally separated individual Au144-MPCs are performed both in aqueous and ionic liquid electrolytes. Lower capacitance values were observed for individual clusters compared to ensemble clusters. This trend remains the same irrespective of the composition of the electrolyte surrounding the Au144-MPC. However, the resolution of the energy level spacing of the single clusters is strongly affected by the proximity of neighboring particles.
Resumo:
Wir Bürgermeister und Raht der Stadt Rostock ...
Resumo:
Este artículo se propone analizar la escena del cresmólogo intruso en Aves, revalorizando la comedia aristofánica como fuente de conocimiento histórico. Este análisis se centra en la práctica oracular como una técnica de producción escrita vinculada a la autoridad religiosa. De esta manera, se exploran dos campos de estudios, como la comedia antigua y la adivinación griega, cuyo vínculo no ha sido explorado en profundidad. Para dar cuenta del momento crítico de la institución oracular durante la Guerra del Peloponeso, se reconstruyen perspectivas sobre dicho fenómeno en otras fuentes como Tucídides o Demóstenes. Esto no solo ofrece una mirada «cómica» sobre la adivinación, sino que también permite comprender la práctica oracular como técnica y, en consecuencia, qué elementos de su funcionamiento podían ser manipulados.