941 resultados para POLYMERIC REINFORCEMENT


Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper proposes a high-level reinforcement learning (RL) control system for solving the action selection problem of an autonomous robot. Although the dominant approach, when using RL, has been to apply value function based algorithms, the system here detailed is characterized by the use of direct policy search methods. Rather than approximating a value function, these methodologies approximate a policy using an independent function approximator with its own parameters, trying to maximize the future expected reward. The policy based algorithm presented in this paper is used for learning the internal state/action mapping of a behavior. In this preliminary work, we demonstrate its feasibility with simulated experiments using the underwater robot GARBI in a target reaching task

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Research Skills Presentation

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The reinforcement omission effects have been traditionally interpreted in terms of: behavioral facilitation after reinforcement omission induced by primary frustration or behavioral suppression after reinforcement delivery induced by postconsummatory states. The studies reviewed here indicate that amygdala is involved in modulation of these effects. However, the fact that amygdala lesions, extensive or selective, can eliminate, reduce and enhance the omission effects makes it difficult to understand how it is the exact nature of their involvement. The amygdala is related to several functions that depend on its connections with other brain systems. Thus, it is necessary to consider the involvement of a more complex neural network in the modulation of the reinforcement omission effects. The connection of amygdala subareas to cortical and subcortical structures may be involved in this modulation since they also are linked to processes related to reward and expectancy.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In this paper, we employ techniques from artificial intelligence such as reinforcement learning and agent based modeling as building blocks of a computational model for an economy based on conventions. First we model the interaction among firms in the private sector. These firms behave in an information environment based on conventions, meaning that a firm is likely to behave as its neighbors if it observes that their actions lead to a good pay off. On the other hand, we propose the use of reinforcement learning as a computational model for the role of the government in the economy, as the agent that determines the fiscal policy, and whose objective is to maximize the growth of the economy. We present the implementation of a simulator of the proposed model based on SWARM, that employs the SARSA(λ) algorithm combined with a multilayer perceptron as the function approximation for the action value function.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El uso de barras de materiales compuestos (FRP) se propone como una alternativa efectiva para las tradicionales estructuras de hormigón armadas con acero que sufren corrosión en ambientes agresivos. La aceptación de estos materiales en el mundo de la construcción está condicionada a la compresión de su comportamiento estructural. Este trabajo estudia el comportamiento adherente entre barras de FRP y hormigón mediante dos programas experimentales. El primero incluye la caracterización de la adherencia entre barras de FRP y hormigón mediante ensayos de pull-out y el segundo estudia el proceso de fisuración de tirantes de hormigón reforzados con barras de GFRP mediante ensayo a tracción directa. El trabajo se concluye con el desarrollo de un modelo numérico para la simulación del comportamiento de elementos de hormigón reforzado bajo cargas de tracción. La flexibilidad del modelo lo convierte en una herramienta flexible para la realización de un estudio paramétrico sobre las variables que influyen en el proceso de fisuración.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina. En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies. En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni. Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Insert and circumaural earphones were used during visual reinforcement audiometry with children 12-to 24-months of age. Acceptance of earphones was determined by the number of ear specific thresholds obtained and by audiologist subjective ratings. Results indicate that children in this age range accept both types of earphones; however, significantly more ear specific thresholds were obtained using insert earphones compared to circumaural.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

We show that close to monodisperse crystalline fibrils of dibenzylidene sorbitol can be obtained by preparation in a polymeric solvent subjected to extended shear flow.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A novel bis(glycinato) copper(II) paradodecatungstate Na-8[{Cu(gly)(2)}(2)]-{H-2(H2W12O42)}] center dot 24H(2)O (1) has been synthesized under hydrothermal conditions. The crystal structure of 1 reveals an infinite one-dimensional chain along the [100] direction and is built from paradodecatungstate (H2W12O42)(10-) clusters joined through [Cu(gly)(2)] moieties. Parallel chains are interlinked by NaO6 octahedra to generate a two-dimensional network.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Three supramolecular complexes of Co(II) using SCN-/SeCN- in combination with 4,4'-dipyridyl-N,N'-dioxide (dpyo), i.e., {[Co(SCN)(2)(dpyo)(2)].(dpyo)}(n) ( 1), {[Co(SCN)(2)(dpyo)(H2O)(2)].(H2O)}(n) ( 2), {[Co(SeCN)(2)(dpyo)(H2O)(2)]center dot(H2O)}(n) ( 3), have been synthesized and characterized by single-crystal X-ray analysis. Complex 1 is a rare example of a dpyo bridged two-dimensional (2D) coordination polymer, and pi-stacked dpyo supramolecular rods are generated by the lattice dpyo, passing through the rhombic grid of stacked layers, resulting in a three-dimensional (3D) superstructure. Complexes 2 and 3 are isomorphous one-dimensional (1D) coordination polymers [-Co-dpyo-Co-] that undergo self-assembly leading to a bilayer architecture derived through an R-2(2)(8) H-bonding synthon between coordinated water and dpyo oxygen. A reinvestigation of coordination polymers [Mn(SCN)(2)(dpyo)( H2O)(MeOH)](n) ( 4) and {[Fe(SCN)(2)(dpyo)(H2O)(2)]center dot(H2O)}(n) ( 5) reported recently by our group [ Manna et al. Indian J. Chem. 2006, 45A, 1813] reveals brick wall topology rather than bilayer architecture is due to the decisive role of S center dot center dot center dot S/Se center dot center dot center dot Se interactions in determining the helical nature in 4 and 5 as compared to zigzag polymeric chains in 2 and 3, although the same R-2(2)(8) synthon is responsible for supramolecular assembly in these complexes.