2 resultados para Public policy. Public policy evaluation. Implementation evaluation. Processes evaluation. Distance Education

em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Die Arbeit behandelt das Problem der Skalierbarkeit von Reinforcement Lernen auf hochdimensionale und komplexe Aufgabenstellungen. Unter Reinforcement Lernen versteht man dabei eine auf approximativem Dynamischen Programmieren basierende Klasse von Lernverfahren, die speziell Anwendung in der Künstlichen Intelligenz findet und zur autonomen Steuerung simulierter Agenten oder realer Hardwareroboter in dynamischen und unwägbaren Umwelten genutzt werden kann. Dazu wird mittels Regression aus Stichproben eine Funktion bestimmt, die die Lösung einer "Optimalitätsgleichung" (Bellman) ist und aus der sich näherungsweise optimale Entscheidungen ableiten lassen. Eine große Hürde stellt dabei die Dimensionalität des Zustandsraums dar, die häufig hoch und daher traditionellen gitterbasierten Approximationsverfahren wenig zugänglich ist. Das Ziel dieser Arbeit ist es, Reinforcement Lernen durch nichtparametrisierte Funktionsapproximation (genauer, Regularisierungsnetze) auf -- im Prinzip beliebig -- hochdimensionale Probleme anwendbar zu machen. Regularisierungsnetze sind eine Verallgemeinerung von gewöhnlichen Basisfunktionsnetzen, die die gesuchte Lösung durch die Daten parametrisieren, wodurch die explizite Wahl von Knoten/Basisfunktionen entfällt und so bei hochdimensionalen Eingaben der "Fluch der Dimension" umgangen werden kann. Gleichzeitig sind Regularisierungsnetze aber auch lineare Approximatoren, die technisch einfach handhabbar sind und für die die bestehenden Konvergenzaussagen von Reinforcement Lernen Gültigkeit behalten (anders als etwa bei Feed-Forward Neuronalen Netzen). Allen diesen theoretischen Vorteilen gegenüber steht allerdings ein sehr praktisches Problem: der Rechenaufwand bei der Verwendung von Regularisierungsnetzen skaliert von Natur aus wie O(n**3), wobei n die Anzahl der Daten ist. Das ist besonders deswegen problematisch, weil bei Reinforcement Lernen der Lernprozeß online erfolgt -- die Stichproben werden von einem Agenten/Roboter erzeugt, während er mit der Umwelt interagiert. Anpassungen an der Lösung müssen daher sofort und mit wenig Rechenaufwand vorgenommen werden. Der Beitrag dieser Arbeit gliedert sich daher in zwei Teile: Im ersten Teil der Arbeit formulieren wir für Regularisierungsnetze einen effizienten Lernalgorithmus zum Lösen allgemeiner Regressionsaufgaben, der speziell auf die Anforderungen von Online-Lernen zugeschnitten ist. Unser Ansatz basiert auf der Vorgehensweise von Recursive Least-Squares, kann aber mit konstantem Zeitaufwand nicht nur neue Daten sondern auch neue Basisfunktionen in das bestehende Modell einfügen. Ermöglicht wird das durch die "Subset of Regressors" Approximation, wodurch der Kern durch eine stark reduzierte Auswahl von Trainingsdaten approximiert wird, und einer gierigen Auswahlwahlprozedur, die diese Basiselemente direkt aus dem Datenstrom zur Laufzeit selektiert. Im zweiten Teil übertragen wir diesen Algorithmus auf approximative Politik-Evaluation mittels Least-Squares basiertem Temporal-Difference Lernen, und integrieren diesen Baustein in ein Gesamtsystem zum autonomen Lernen von optimalem Verhalten. Insgesamt entwickeln wir ein in hohem Maße dateneffizientes Verfahren, das insbesondere für Lernprobleme aus der Robotik mit kontinuierlichen und hochdimensionalen Zustandsräumen sowie stochastischen Zustandsübergängen geeignet ist. Dabei sind wir nicht auf ein Modell der Umwelt angewiesen, arbeiten weitestgehend unabhängig von der Dimension des Zustandsraums, erzielen Konvergenz bereits mit relativ wenigen Agent-Umwelt Interaktionen, und können dank des effizienten Online-Algorithmus auch im Kontext zeitkritischer Echtzeitanwendungen operieren. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand von zwei realistischen und komplexen Anwendungsbeispielen: dem Problem RoboCup-Keepaway, sowie der Steuerung eines (simulierten) Oktopus-Tentakels.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Der Wandel der bildungspolitischen Ansichten der Weltbank. In dieser Arbeit wird dargestellt, welchen Stellenwert das Thema Bildung in der Politik der Weltbank von 1962 bis heute besessen hat und welche Prioritätensetzung es in der Förderung von Bildungsprojekten zu welchem Zeitpunkt gab. Nach diesen Kriterien werden fünf Phasen in der Bildungspolitik der Weltbank unterschieden. In der ersten Phase (1962 bis Ende der 1970er Jahre) ist ein geringes Interesse der Weltbank am Bildungssektor und ein fehlendes Gesamtkonzept ihrer Bildungspolitik erkennbar. Gefördert wurden in dieser Zeit hauptsächlich Sekundar- und Hochschulbildung. Die zweite Phase (Ende der 1970er Jahre bis 1987) zeichnet sich durch die Förderung von Primarschulbildung und durch einen geringen Bedeutungsgewinn des Themas Bildung als einen entwicklungspolitischen Faktor aus. In der dritten Phase (1987 bis Mitte der 1990er Jahre) wurde der Schwerpunkt der Förderung der Weltbank im Bereich Primarschulförderung um die Bereiche Sekundar- und Hochschulförderung ergänzt. Da Bildung nur als ein Aspekt des Ziels der Armutsbekämpfung betrachtet wurde, mangelte es in der vierten Phase (Mitte bis Ende der 1990er Jahre) an einem eigenständigen Konzept für die Förderung des Bildungssektors. In dieser Zeit war nur eine leichte Schwerpunktsetzung in den Primarschulbereich erkennbar. In der fünften Phase (ab dem Jahre 2000) setzt die Weltbank in der Förderung wieder auf eine Kombination von Primar-, Sekundar- und Hochschulbildung. Bildung wird nun als ein eigenständiges Ziel der Entwicklungszusammenarbeit angesehen. Bei der Betrachtung des Wandels der bildungspolitischen Ansichten der Weltbank wird die additive Politik der Weltbank deutlich. Alte Strategien werden nicht komplett verworfen, sondern lediglich neue Aspekte und Schwerpunktsetzungen in die alten Konzepte eingeflochten. Außerdem sind eine Widersprüchlichkeit in der Bildungspolitik, das Fehlen eines langfristigen Konzeptes, große Unterschiede zwischen den theoretischen Konzepten und der Umsetzung der Bildungspolitik der Weltbank zu erkennen. Festzuhalten ist, dass das Thema Bildung von 1962 bis heute in der Politik der Weltbank stark an Bedeutung hinzugewonnen hat.