2 resultados para Continuous-time sigma-delta modulation
em Universitat de Girona, Spain
Resumo:
Reinforcement learning (RL) is a very suitable technique for robot learning, as it can learn in unknown environments and in real-time computation. The main difficulties in adapting classic RL algorithms to robotic systems are the generalization problem and the correct observation of the Markovian state. This paper attempts to solve the generalization problem by proposing the semi-online neural-Q_learning algorithm (SONQL). The algorithm uses the classic Q_learning technique with two modifications. First, a neural network (NN) approximates the Q_function allowing the use of continuous states and actions. Second, a database of the most representative learning samples accelerates and stabilizes the convergence. The term semi-online is referred to the fact that the algorithm uses the current but also past learning samples. However, the algorithm is able to learn in real-time while the robot is interacting with the environment. The paper shows simulated results with the "mountain-car" benchmark and, also, real results with an underwater robot in a target following behavior
Resumo:
La tesis pretende explorar acercamientos computacionalmente confiables y eficientes de contractivo MPC para sistemas de tiempo discreto. Dos tipos de contractivo MPC han sido estudiados: MPC con coacción contractiva obligatoria y MPC con una secuencia contractiva de conjuntos controlables. Las técnicas basadas en optimización convexa y análisis de intervalos son aplicadas para tratar MPC contractivo lineal y no lineal, respectivamente. El análisis de intervalos clásicos es ampliado a zonotopes en la geometría para diseñar un conjunto invariante de control terminal para el modo dual de MPC. También es ampliado a intervalos modales para tener en cuenta la modalidad al calcula de conjuntos controlables robustos con una interpretación semántica clara. Los instrumentos de optimización convexa y análisis de intervalos han sido combinados para mejorar la eficacia de contractive MPC para varias clases de sistemas de tiempo discreto inciertos no lineales limitados. Finalmente, los dos tipos dirigidos de contractivo MPC han sido aplicados para controlar un Torneo de Fútbol de Copa Mundial de Micro Robot (MiroSot) y un Tanque-Reactor de Mezcla Continua (CSTR), respectivamente.