2 resultados para Fluch
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Dass Jugenddelinquenz eine ubiquitäre und ganz überwiegend nur passagere Erscheinungsform im Sozialisationsprozess ist, hat in den letzten Jahrzehnten eine Reduzierung formeller Verfahren gegen junge Straftäter bedingt. Empirische Studien haben bestätigt, dass gerade eine frühzeitige Verfahrenseinstellung die Rückfallquote verringert, so dass sich die Chance einer Legalbewährung bei informeller Erledigung besser darstellt als nach einer förmlichen Verurteilung. Damit werden Gefahren einer Wirkungsdynamik reduziert, die letztlich neue Rechtsbrüche begünstigen könnten. Die Wahl informeller Alternativen ist zudem geeignet, den Übergang zum Makel formeller Sanktionierung zu vermeiden bzw. zu verzögern und die stigmatisierende Wirkung förmlicher Strafverfahren zu reduzieren.rnIn der Diskussion um die Bewältigung der Alltags- und Bagatellkriminalität wird immer wieder die Frage nach der Einheitlichkeit der Rechtsanwendung des § 45 JGG aufgeworfen. Zur Beantwortung dieser Frage werden die von fast alle Bundesländern verabschiedeten Diversionsrichtlinien einer Untersuchung unterzogen.rnDiese findet zunächst anhand eines ausführlichen Textvergleichs der einzelnen Diversionsrichtlinien statt, gefolgt von einer Darstellung der Sanktionierungspraxis in Deutschland in den Jahren 1999 bis 2007, wobei zunächst die Häufigkeiten informeller Erledigungen im Jugendstrafrecht und im allgemeinen Strafverfahren für das gesamte Bundesgebiet betrachtet und dann ein Vergleich der Häufigkeiten informeller Erledigungen im Jugendstrafrecht und im allgemeinen Strafverfahren auf der Ebene der Bundesländer dargestellt wird.rnAls Ergebnis dieser Analyse kann festgehalten werden, dass der bisherige Versuch, eine einheitliche Entkriminalisierung auf Bundesebene aufgrund der bestehenden, von den einzelnen Bundesländern geschaffenen Diversions-Richtlinien zu schaffen, als teilweise gescheitert angesehen werden.rn
Resumo:
Die Arbeit behandelt das Problem der Skalierbarkeit von Reinforcement Lernen auf hochdimensionale und komplexe Aufgabenstellungen. Unter Reinforcement Lernen versteht man dabei eine auf approximativem Dynamischen Programmieren basierende Klasse von Lernverfahren, die speziell Anwendung in der Künstlichen Intelligenz findet und zur autonomen Steuerung simulierter Agenten oder realer Hardwareroboter in dynamischen und unwägbaren Umwelten genutzt werden kann. Dazu wird mittels Regression aus Stichproben eine Funktion bestimmt, die die Lösung einer "Optimalitätsgleichung" (Bellman) ist und aus der sich näherungsweise optimale Entscheidungen ableiten lassen. Eine große Hürde stellt dabei die Dimensionalität des Zustandsraums dar, die häufig hoch und daher traditionellen gitterbasierten Approximationsverfahren wenig zugänglich ist. Das Ziel dieser Arbeit ist es, Reinforcement Lernen durch nichtparametrisierte Funktionsapproximation (genauer, Regularisierungsnetze) auf -- im Prinzip beliebig -- hochdimensionale Probleme anwendbar zu machen. Regularisierungsnetze sind eine Verallgemeinerung von gewöhnlichen Basisfunktionsnetzen, die die gesuchte Lösung durch die Daten parametrisieren, wodurch die explizite Wahl von Knoten/Basisfunktionen entfällt und so bei hochdimensionalen Eingaben der "Fluch der Dimension" umgangen werden kann. Gleichzeitig sind Regularisierungsnetze aber auch lineare Approximatoren, die technisch einfach handhabbar sind und für die die bestehenden Konvergenzaussagen von Reinforcement Lernen Gültigkeit behalten (anders als etwa bei Feed-Forward Neuronalen Netzen). Allen diesen theoretischen Vorteilen gegenüber steht allerdings ein sehr praktisches Problem: der Rechenaufwand bei der Verwendung von Regularisierungsnetzen skaliert von Natur aus wie O(n**3), wobei n die Anzahl der Daten ist. Das ist besonders deswegen problematisch, weil bei Reinforcement Lernen der Lernprozeß online erfolgt -- die Stichproben werden von einem Agenten/Roboter erzeugt, während er mit der Umwelt interagiert. Anpassungen an der Lösung müssen daher sofort und mit wenig Rechenaufwand vorgenommen werden. Der Beitrag dieser Arbeit gliedert sich daher in zwei Teile: Im ersten Teil der Arbeit formulieren wir für Regularisierungsnetze einen effizienten Lernalgorithmus zum Lösen allgemeiner Regressionsaufgaben, der speziell auf die Anforderungen von Online-Lernen zugeschnitten ist. Unser Ansatz basiert auf der Vorgehensweise von Recursive Least-Squares, kann aber mit konstantem Zeitaufwand nicht nur neue Daten sondern auch neue Basisfunktionen in das bestehende Modell einfügen. Ermöglicht wird das durch die "Subset of Regressors" Approximation, wodurch der Kern durch eine stark reduzierte Auswahl von Trainingsdaten approximiert wird, und einer gierigen Auswahlwahlprozedur, die diese Basiselemente direkt aus dem Datenstrom zur Laufzeit selektiert. Im zweiten Teil übertragen wir diesen Algorithmus auf approximative Politik-Evaluation mittels Least-Squares basiertem Temporal-Difference Lernen, und integrieren diesen Baustein in ein Gesamtsystem zum autonomen Lernen von optimalem Verhalten. Insgesamt entwickeln wir ein in hohem Maße dateneffizientes Verfahren, das insbesondere für Lernprobleme aus der Robotik mit kontinuierlichen und hochdimensionalen Zustandsräumen sowie stochastischen Zustandsübergängen geeignet ist. Dabei sind wir nicht auf ein Modell der Umwelt angewiesen, arbeiten weitestgehend unabhängig von der Dimension des Zustandsraums, erzielen Konvergenz bereits mit relativ wenigen Agent-Umwelt Interaktionen, und können dank des effizienten Online-Algorithmus auch im Kontext zeitkritischer Echtzeitanwendungen operieren. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand von zwei realistischen und komplexen Anwendungsbeispielen: dem Problem RoboCup-Keepaway, sowie der Steuerung eines (simulierten) Oktopus-Tentakels.