Biblioteca Digital

Multi-Agent Reinforcement Learning (MARL) algorithms face two main difficulties: the curse of dimensionality, and environment non-stationarity due to the independent learning processes carried out by the agents concurrently. In this paper we formalize and prove the convergence of a Distributed Round Robin Q-learning (D-RR-QL) algorithm for cooperative systems. The computational complexity of this algorithm increases linearly with the number of agents. Moreover, it eliminates environment non sta tionarity by carrying a round-robin scheduling of the action selection and execution. That this learning scheme allows the implementation of Modular State-Action Vetoes (MSAV) in cooperative multi-agent systems, which speeds up learning convergence in over-constrained systems by vetoing state-action pairs which lead to undesired termination states (UTS) in the relevant state-action subspace. Each agent's local state-action value function learning is an independent process, including the MSAV policies. Coordination of locally optimal policies to obtain the global optimal joint policy is achieved by a greedy selection procedure using message passing. We show that D-RR-QL improves over state-of-the-art approaches, such as Distributed Q-Learning, Team Q-Learning and Coordinated Reinforcement Learning in a paradigmatic Linked Multi-Component Robotic System (L-MCRS) control problem: the hose transportation task. L-MCRS are over-constrained systems with many UTS induced by the interaction of the passive linking element and the active mobile robots.

Veja mais

Estudo teórico e experimental da velocidade do som em sistemas contendo hidrocarbonetos

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A descoberta de reservatórios de petróleo na camada do pré-sal abriu novas perspectivas para a economia brasileira. A grandes profundidades, com elevado teor de CO2 e submetidos a altas pressões e temperaturas, a exploração de petróleo das camadas de pré-sal constitui um considerável desafio tecnológico. Neste contexto, o conhecimento dos coeficientes de compressibilidade são fundamentais para o estudo do comportamento termodinâmico e escoamento dos fluidos destes campos de produção. Com este objetivo, foram determinadas experimentalmente nesta dissertação a massa específica e a velocidade do som de sistemas envolvendo quatro hidrocarbonetos puros: n-decano, n-hexadecano, decalina e tetralina, assim como para sistemas multicompostos envolvendo estes hidrocarbonetos e para uma amostra de condensado de petróleo. Os resultados obtidos permitiram o cálculo dos coeficientes de compressibilidade isentrópica, isotérmica e isentálpica. É apresentada uma avaliação sobre a capacidade de se correlacionar dados experimentais de velocidade do som aos dados calculados pelas equações de estado de Peng-Robinson e Lee-Kesler com regras de mistura: (i) Spencer e Danner e (ii) Lee-Kesler

Veja mais

Recent HERMES results from inclusive and semi-inclusive hadron production

Relevância:

80.00% 80.00%

Publicador:

Resumo:

4th International Workshop on Transverse Polisarization Phenomena in Hard Processes (TRANSVERSITY 2014)

Veja mais

820 resultados para multi-dimensional systems

Filtro por publicador