6 resultados para Real environments
em Universitat de Girona, Spain
Resumo:
Reinforcement learning (RL) is a very suitable technique for robot learning, as it can learn in unknown environments and in real-time computation. The main difficulties in adapting classic RL algorithms to robotic systems are the generalization problem and the correct observation of the Markovian state. This paper attempts to solve the generalization problem by proposing the semi-online neural-Q_learning algorithm (SONQL). The algorithm uses the classic Q_learning technique with two modifications. First, a neural network (NN) approximates the Q_function allowing the use of continuous states and actions. Second, a database of the most representative learning samples accelerates and stabilizes the convergence. The term semi-online is referred to the fact that the algorithm uses the current but also past learning samples. However, the algorithm is able to learn in real-time while the robot is interacting with the environment. The paper shows simulated results with the "mountain-car" benchmark and, also, real results with an underwater robot in a target following behavior
Resumo:
The system described herein represents the first example of a recommender system in digital ecosystems where agents negotiate services on behalf of small companies. The small companies compete not only with price or quality, but with a wider service-by-service composition by subcontracting with other companies. The final result of these offerings depends on negotiations at the scale of millions of small companies. This scale requires new platforms for supporting digital business ecosystems, as well as related services like open-id, trust management, monitors and recommenders. This is done in the Open Negotiation Environment (ONE), which is an open-source platform that allows agents, on behalf of small companies, to negotiate and use the ecosystem services, and enables the development of new agent technologies. The methods and tools of cyber engineering are necessary to build up Open Negotiation Environments that are stable, a basic condition for predictable business and reliable business environments. Aiming to build stable digital business ecosystems by means of improved collective intelligence, we introduce a model of negotiation style dynamics from the point of view of computational ecology. This model inspires an ecosystem monitor as well as a novel negotiation style recommender. The ecosystem monitor provides hints to the negotiation style recommender to achieve greater stability of an open negotiation environment in a digital business ecosystem. The greater stability provides the small companies with higher predictability, and therefore better business results. The negotiation style recommender is implemented with a simulated annealing algorithm at a constant temperature, and its impact is shown by applying it to a real case of an open negotiation environment populated by Italian companies
Resumo:
This paper shows the impact of the atomic capabilities concept to include control-oriented knowledge of linear control systems in the decisions making structure of physical agents. These agents operate in a real environment managing physical objects (e.g. their physical bodies) in coordinated tasks. This approach is presented using an introspective reasoning approach and control theory based on the specific tasks of passing a ball and executing the offside manoeuvre between physical agents in the robotic soccer testbed. Experimental results and conclusions are presented, emphasising the advantages of our approach that improve the multi-agent performance in cooperative systems
Resumo:
Aquesta tesi tracta sobre el problema de la navegació per a vehicles submarins autònoms que operen en entorns artificials estructurats com ara ports, canals, plataformes marines i altres escenaris similars. A partir d'una estimació precisa de la posició en aquests entorns, les capacitats dels vehicles submarins s'incrementen notablement i s'obre una porta al seu funcionament autònom. El manteniment, inspecció i vigilància d'instal lacions marines són alguns exemples de possibles aplicacions. Les principals contribucions d'aquesta tesi consisteixen per una banda en el desenvolupament de diferents sistemes de localització per a aquelles situacions on es disposa d'un mapa previ de l'entorn i per l'altra en el desenvolupament d'una nova solució al problema de la Localització i Construcció Simultània de Mapes (SLAM en les seves sigles en anglès), la finalitat del qual és fer que un vehicle autònom creï un mapa de l'entorn desconegut que el rodeja i, al mateix temps, utilitzi aquest mapa per a determinar la seva pròpia posició. S'ha escollit un sonar d'imatges d'escaneig mecànic com a sensor principal per a aquest treball tant pel seu relatiu baix cost com per la seva capacitat per produir una representació detallada de l'entorn. Per altra banda, les particularitats de la seva operació i, especialment, la baixa freqúència a la que es produeixen les mesures, constitueixen els principals inconvenients que s'han hagut d'abordar en les estratègies de localització proposades. Les solucions adoptades per aquests problemes constitueixen una altra contribució d'aquesta tesi. El desenvolupament de vehicles autònoms i el seu ús com a plataformes experimentals és un altre aspecte important d'aquest treball. Experiments portats a terme tant en el laboratori com en escenaris reals d'aplicació han proporcionat les dades necessàries per a provar i avaluar els diferents sistemes de localització proposats.
Resumo:
La tesis propone un marco de trabajo para el soporte de la toma de decisiones adecuado para soportar la ejecución distribuida de acciones cooperativas en entornos multi-agente dinámicos y complejos. Soporte para la toma de decisiones es un proceso que intenta mejorar la ejecución de la toma de decisiones en escenarios cooperativos. Este proceso ocurre continuamente en la vida diaria. Los humanos, por ejemplo, deben tomar decisiones acerca de que ropa usar, que comida comer, etc. En este sentido, un agente es definido como cualquier cosa que está situada en un entorno y que actúa, basado en su observación, su interpretación y su conocimiento acerca de su situación en tal entorno para lograr una acción en particular.Por lo tanto, para tomar decisiones, los agentes deben considerar el conocimiento que les permita ser consientes en que acciones pueden o no ejecutar. Aquí, tal proceso toma en cuenta tres parámetros de información con la intención de personificar a un agente en un entorno típicamente físico. Así, el mencionado conjunto de información es conocido como ejes de decisión, los cuales deben ser tomados por los agentes para decidir si pueden ejecutar correctamente una tarea propuesta por otro agente o humano. Los agentes, por lo tanto, pueden hacer mejores decisiones considerando y representando apropiadamente tal información. Los ejes de decisión, principalmente basados en: las condiciones ambientales, el conocimiento físico y el valor de confianza del agente, provee a los sistemas multi-agente un confiable razonamiento para alcanzar un factible y exitoso rendimiento cooperativo.Actualmente, muchos investigadores tienden a generar nuevos avances en la tecnología agente para incrementar la inteligencia, autonomía, comunicación y auto-adaptación en escenarios agentes típicamente abierto y distribuidos. En este sentido, esta investigación intenta contribuir en el desarrollo de un nuevo método que impacte tanto en las decisiones individuales como colectivas de los sistemas multi-agente. Por lo tanto, el marco de trabajo propuesto ha sido utilizado para implementar las acciones concretas involucradas en el campo de pruebas del fútbol robótico. Este campo emula los juegos de fútbol real, donde los agentes deben coordinarse, interactuar y cooperar entre ellos para solucionar tareas complejas dentro de un escenario dinámicamente cambiante y competitivo, tanto para manejar el diseño de los requerimientos involucrados en las tareas como para demostrar su efectividad en trabajos colectivos. Es así que los resultados obtenidos tanto en el simulador como en el campo real de experimentación, muestran que el marco de trabajo para el soporte de decisiones propuesto para agentes situados es capaz de mejorar la interacción y la comunicación, reflejando en un adecuad y confiable trabajo en equipo dentro de entornos impredecibles, dinámicos y competitivos. Además, los experimentos y resultados también muestran que la información seleccionada para generar los ejes de decisión para situar a los agentes, es útil cuando tales agentes deben ejecutar una acción o hacer un compromiso en cada momento con la intención de cumplir exitosamente un objetivo colectivo. Finalmente, algunas conclusiones enfatizando las ventajas y utilidades del trabajo propuesto en la mejora del rendimiento colectivo de los sistemas multi-agente en situaciones tales como tareas coordinadas y asignación de tareas son presentadas.
Resumo:
La coordinació i assignació de tasques en entorns distribuïts ha estat un punt important de la recerca en els últims anys i aquests temes són el cor dels sistemes multi-agent. Els agents en aquests sistemes necessiten cooperar i considerar els altres agents en les seves accions i decisions. A més a més, els agents han de coordinar-se ells mateixos per complir tasques complexes que necessiten més d'un agent per ser complerta. Aquestes tasques poden ser tan complexes que els agents poden no saber la ubicació de les tasques o el temps que resta abans de que les tasques quedin obsoletes. Els agents poden necessitar utilitzar la comunicació amb l'objectiu de conèixer la tasca en l'entorn, en cas contrari, poden perdre molt de temps per trobar la tasca dins de l'escenari. De forma similar, el procés de presa de decisions distribuït pot ser encara més complexa si l'entorn és dinàmic, amb incertesa i en temps real. En aquesta dissertació, considerem entorns amb sistemes multi-agent amb restriccions i cooperatius (dinàmics, amb incertesa i en temps real). En aquest sentit es proposen dues aproximacions que permeten la coordinació dels agents. La primera és un mecanisme semi-centralitzat basat en tècniques de subhastes combinatòries i la idea principal es minimitzar el cost de les tasques assignades des de l'agent central cap als equips d'agents. Aquest algoritme té en compte les preferències dels agents sobre les tasques. Aquestes preferències estan incloses en el bid enviat per l'agent. La segona és un aproximació d'scheduling totalment descentralitzat. Això permet als agents assignar les seves tasques tenint en compte les preferències temporals sobre les tasques dels agents. En aquest cas, el rendiment del sistema no només depèn de la maximització o del criteri d'optimització, sinó que també depèn de la capacitat dels agents per adaptar les seves assignacions eficientment. Addicionalment, en un entorn dinàmic, els errors d'execució poden succeir a qualsevol pla degut a la incertesa i error de accions individuals. A més, una part indispensable d'un sistema de planificació és la capacitat de re-planificar. Aquesta dissertació també proveeix una aproximació amb re-planificació amb l'objectiu de permetre als agent re-coordinar els seus plans quan els problemes en l'entorn no permeti la execució del pla. Totes aquestes aproximacions s'han portat a terme per permetre als agents assignar i coordinar de forma eficient totes les tasques complexes en un entorn multi-agent cooperatiu, dinàmic i amb incertesa. Totes aquestes aproximacions han demostrat la seva eficiència en experiments duts a terme en l'entorn de simulació RoboCup Rescue.