949 resultados para Aprendizado por reforço
Resumo:
We propose a new paradigm for collective learning in multi-agent systems (MAS) as a solution to the problem in which several agents acting over the same environment must learn how to perform tasks, simultaneously, based on feedbacks given by each one of the other agents. We introduce the proposed paradigm in the form of a reinforcement learning algorithm, nominating it as reinforcement learning with influence values. While learning by rewards, each agent evaluates the relation between the current state and/or action executed at this state (actual believe) together with the reward obtained after all agents that are interacting perform their actions. The reward is a result of the interference of others. The agent considers the opinions of all its colleagues in order to attempt to change the values of its states and/or actions. The idea is that the system, as a whole, must reach an equilibrium, where all agents get satisfied with the obtained results. This means that the values of the state/actions pairs match the reward obtained by each agent. This dynamical way of setting the values for states and/or actions makes this new reinforcement learning paradigm the first to include, naturally, the fact that the presence of other agents in the environment turns it a dynamical model. As a direct result, we implicitly include the internal state, the actions and the rewards obtained by all the other agents in the internal state of each agent. This makes our proposal the first complete solution to the conceptual problem that rises when applying reinforcement learning in multi-agent systems, which is caused by the difference existent between the environment and agent models. With basis on the proposed model, we create the IVQ-learning algorithm that is exhaustive tested in repetitive games with two, three and four agents and in stochastic games that need cooperation and in games that need collaboration. This algorithm shows to be a good option for obtaining solutions that guarantee convergence to the Nash optimum equilibrium in cooperative problems. Experiments performed clear shows that the proposed paradigm is theoretical and experimentally superior to the traditional approaches. Yet, with the creation of this new paradigm the set of reinforcement learning applications in MAS grows up. That is, besides the possibility of applying the algorithm in traditional learning problems in MAS, as for example coordination of tasks in multi-robot systems, it is possible to apply reinforcement learning in problems that are essentially collaborative
Resumo:
The objective of reservoir engineering is to manage fields of oil production in order to maximize the production of hydrocarbons according to economic and physical restrictions. The deciding of a production strategy is a complex activity involving several variables in the process. Thus, a smart system, which assists in the optimization of the options for developing of the field, is very useful in day-to-day of reservoir engineers. This paper proposes the development of an intelligent system to aid decision making, regarding the optimization of strategies of production in oil fields. The intelligence of this system will be implemented through the use of the technique of reinforcement learning, which is presented as a powerful tool in problems of multi-stage decision. The proposed system will allow the specialist to obtain, in time, a great alternative (or near-optimal) for the development of an oil field known
Resumo:
Neste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial, limitando a aplicação do método a problemas de menor porte, onde o número de nós e de servos é reduzido. Este problema, denominado maldição da dimensionalidade, foi introduzido por Belmann e implica na impossibilidade de execução de um algoritmo para certas instâncias de um problema pelo esgotamento de recursos computacionais para obtenção de sua saída. De modo a evitar que a solução proposta, baseada exclusivamente na aprendizagem por reforço, seja restrita a aplicações de menor porte, propõe-se uma solução alternativa para problemas mais realistas, que envolvam um número maior de nós e de servos. Esta solução alternativa é hierarquizada e utiliza dois métodos de solução do PKS: a aprendizagem por reforço, aplicada a um número reduzido de nós obtidos a partir de um processo de agregação, e um método guloso, aplicado aos subconjuntos de nós resultantes do processo de agregação, onde o critério de escolha do agendamento dos servos é baseado na menor distância ao local de demanda
Resumo:
In multi-robot systems, both control architecture and work strategy represent a challenge for researchers. It is important to have a robust architecture that can be easily adapted to requirement changes. It is also important that work strategy allows robots to complete tasks efficiently, considering that robots interact directly in environments with humans. In this context, this work explores two approaches for robot soccer team coordination for cooperative tasks development. Both approaches are based on a combination of imitation learning and reinforcement learning. Thus, in the first approach was developed a control architecture, a fuzzy inference engine for recognizing situations in robot soccer games, a software for narration of robot soccer games based on the inference engine and the implementation of learning by imitation from observation and analysis of others robotic teams. Moreover, state abstraction was efficiently implemented in reinforcement learning applied to the robot soccer standard problem. Finally, reinforcement learning was implemented in a form where actions are explored only in some states (for example, states where an specialist robot system used them) differently to the traditional form, where actions have to be tested in all states. In the second approach reinforcement learning was implemented with function approximation, for which an algorithm called RBF-Sarsa($lambda$) was created. In both approaches batch reinforcement learning algorithms were implemented and imitation learning was used as a seed for reinforcement learning. Moreover, learning from robotic teams controlled by humans was explored. The proposal in this work had revealed efficient in the robot soccer standard problem and, when implemented in other robotics systems, they will allow that these robotics systems can efficiently and effectively develop assigned tasks. These approaches will give high adaptation capabilities to requirements and environment changes.
Resumo:
The use of wireless sensor and actuator networks in industry has been increasing past few years, bringing multiple benefits compared to wired systems, like network flexibility and manageability. Such networks consists of a possibly large number of small and autonomous sensor and actuator devices with wireless communication capabilities. The data collected by sensors are sent directly or through intermediary nodes along the network to a base station called sink node. The data routing in this environment is an essential matter since it is strictly bounded to the energy efficiency, thus the network lifetime. This work investigates the application of a routing technique based on Reinforcement Learning s Q-Learning algorithm to a wireless sensor network by using an NS-2 simulated environment. Several metrics like energy consumption, data packet delivery rates and delays are used to validate de proposal comparing it with another solutions existing in the literature
Resumo:
Técnicas de otimização conhecidas como as metaheurísticas tem conseguido resolversatisfatoriamente problemas conhecidos, mas desenvolvimento das metaheurísticas écaracterizado por escolha de parâmetros para sua execução, na qual a opção apropriadadestes parâmetros (valores). Onde o ajuste de parâmetro é essencial testa-se os parâmetrosaté que resultados viáveis sejam obtidos, normalmente feita pelo desenvolvedor que estaimplementando a metaheuristica. A qualidade dos resultados de uma instância1 de testenão será transferida para outras instâncias a serem testadas e seu feedback pode requererum processo lento de “tentativa e erro” onde o algoritmo têm que ser ajustado para umaaplicação especifica. Diante deste contexto das metaheurísticas surgiu a Busca Reativaque defende a integração entre o aprendizado de máquina dentro de buscas heurísticaspara solucionar problemas de otimização complexos. A partir da integração que a BuscaReativa propõe entre o aprendizado de máquina e as metaheurísticas, surgiu a ideia dese colocar a Aprendizagem por Reforço mais especificamente o algoritmo Q-learning deforma reativa, para selecionar qual busca local é a mais indicada em determinado instanteda busca, para suceder uma outra busca local que não pode mais melhorar a soluçãocorrente na metaheurística VNS. Assim, neste trabalho propomos uma implementação reativa,utilizando aprendizado por reforço para o auto-tuning do algoritmo implementado,aplicado ao problema do caixeiro viajante simétrico e ao problema escalonamento sondaspara manutenção de poços.
Resumo:
The objective of reservoir engineering is to manage fields of oil production in order to maximize the production of hydrocarbons according to economic and physical restrictions. The deciding of a production strategy is a complex activity involving several variables in the process. Thus, a smart system, which assists in the optimization of the options for developing of the field, is very useful in day-to-day of reservoir engineers. This paper proposes the development of an intelligent system to aid decision making, regarding the optimization of strategies of production in oil fields. The intelligence of this system will be implemented through the use of the technique of reinforcement learning, which is presented as a powerful tool in problems of multi-stage decision. The proposed system will allow the specialist to obtain, in time, a great alternative (or near-optimal) for the development of an oil field known
Resumo:
Em ambientes dinâmicos e complexos, a política ótima de coordenação não pode ser derivada analiticamente, mas, deve ser aprendida através da interação direta com o ambiente. Geralmente, utiliza-se aprendizado por reforço para prover coordenação em tais ambientes. Atualmente, neuro-evolução é um dos métodos de aprendizado por reforço mais proeminentes. Em vista disto, neste trabalho, é proposto um modelo de coordenação baseado em neuro-evolução. Mais detalhadamente, desenvolveu-se uma extensão do método neuro-evolutivo conhecido como Enforced Subpopulations (ESP). Na extensão desenvolvida, a rede neural que define o comportamento de cada agente é totalmente conectada. Adicionalmente, é permitido que o algoritmo encontre, em tempo de treinamento, a quantidade de neurônios que deve estar presente na camada oculta da rede neural de cada agente. Esta alteração, além de oferecer flexibilidade na definição da topologia da rede de cada agente e diminuir o tempo necessário para treinamento, permite também a constituição de grupos de agentes heterogêneos. Um ambiente de simulação foi desenvolvido e uma série de experimentos realizados com o objetivo de avaliar o modelo proposto e identificar quais os melhores valores para os diversos parâmetros do modelo. O modelo proposto foi aplicado no domínio das tarefas de perseguição-evasão.
Resumo:
Reinforcement learning is a machine learning technique that, although finding a large number of applications, maybe is yet to reach its full potential. One of the inadequately tested possibilities is the use of reinforcement learning in combination with other methods for the solution of pattern classification problems. It is well documented in the literature the problems that support vector machine ensembles face in terms of generalization capacity. Algorithms such as Adaboost do not deal appropriately with the imbalances that arise in those situations. Several alternatives have been proposed, with varying degrees of success. This dissertation presents a new approach to building committees of support vector machines. The presented algorithm combines Adaboost algorithm with a layer of reinforcement learning to adjust committee parameters in order to avoid that imbalances on the committee components affect the generalization performance of the final hypothesis. Comparisons were made with ensembles using and not using the reinforcement learning layer, testing benchmark data sets widely known in area of pattern classification
Resumo:
Para processar a informação ambiental e perceber o tempo, os indivíduos utilizam-se de pistas ambientais, como luz e temperatura, que servem como guias para o relógio interno. O mecanismo temporizador endógeno é chamado relógio circadiano, o qual comanda uma grande variedade de ritmos diários bioquímicos, fisiológicos e comportamentais presentes nos organismos. Com isso, os animais podem antecipar eventos espaço-temporalmente distribuídos e usar essa informação para organizar as atividades diárias, o que é uma vantagem adaptativa para os indivíduos, já que muitos fatores ambientais apresentam variação circadiana. Aprendizagem espaço-temporal (do inglês: "time-place learning’’-TPL) é a habilidade de associar lugares com importantes eventos biológicos em diferentes horas do dia. Em nosso estudo utilizamos como modelo o peixe paulistinha (Danio rerio), conhecido por ser altamente social, para testar aprendizagem espaço-temporal baseada em reforço social. Além disso, objetivamos averiguar os efeitos das condições de claro constante e escuro constante na aprendizagem espaço-temporal, e se nessas condições, a atividade do peixe paulistinha é alterada. Para isso, testamos três diferentes condições (n=10): grupo claro-escuro (CE), grupo claro constante (CC) e grupo escuro constante (EE) durante 30 dias da seguinte maneira: diariamente, um grupo de 5 peixes paulistinha foi introduzido em um recipiente localizado no compartimento da manhã (um dos lados do aquário), às 8:00h e retirado às 9:00h, e em outro recipiente do compartimento da tarde (lado oposto do aquário), às 17:00h e removido às 18:00h, servindo como estímulo para que o peixe experimental ocupasse o compartimento onde o grupo fosse colocado. O comportamento foi filmado nos dois horários, 15 minutos antes e durante os 60 minutos de exposição ao estímulo, no 15º e no 30ª dia, porém neste último, os peixes foram filmados sem a presença do estímulo a fim de averiguarmos a aprendizagem espaço-temporal. Por fim, para saber a influência das três condições luminosas na atividade dos peixes, filmamos os últimos 6 dias de teste, para registrar o padrão de atividade. Nossos resultados mostraram que em ciclo claro-escuro (CE) o peixe paulistinha apresenta TPL, bem como é capaz de antecipar a hora e local do estímulo (grupo de coespecíficos), enfatizando a importância do estímulo social para a aprendizagem. Em condições de claro constante e escuro constante, o peixe paulistinha não apresentou aprendizagem espaço-temporal. Ademais, após 30 dias em condições luminosas constantes (claro constante e escuro constante), o peixe paulistinha mantém ritmo circadiano, porém em claro constante sua atividade é aumentada e seu ritmo atividade-repouso é alterado, através de um padrão de atividade distribuída homogeneamente ao longo das 24h, ao invés de concentrada na subjetiva fase clara, como nos grupos de ciclo claro-escuro e escuro constante, os quais conservam o padrão de atividade diurno da espécie.
Resumo:
Esta investigação enfoca processos de ensino, aprendizagem e avaliação na graduação médica, que acontecem em serviços básicos do Sistema Único de Saúde (SUS), com ênfase nos entraves e potencialidades para a transformação das relações entre a formação e a assistência na perspectiva da integralidade, tendo como referência as Diretrizes Curriculares Nacionais para os Cursos de Graduação em medicina, homologadas pelo Conselho Nacional de Educação em 2001. Com uma abordagem metodológica qualitativa que reúne contribuições da etnografia, da pesquisa transdisciplinar e da cartografia, a pesquisadora propõe ao leitor um diálogo com os relatos de suas observações (de experiências formativas na atenção básica) e dados oriundos da sua própria preceptoria de estudantes de medicina envolvidos em atividades em um centro municipal de saúde. Aponta desafios que necessitam ser enfrentados como: a hegemonia da racionalidade biomédica na conformação do modelo tecnoassistencial e a necessidade de efetivar uma política de recursos humanos no setor que incentive a integração universidade-serviço-comunidade, na aproximação da graduação ao cotidiano do trabalho em saúde e à realidade de vida da população. Estas questões estão associadas ao atual debate sobre integração curricular , educação permanente visando uma práxis formativa criativa que envolva o desenvolvimento de competências (técnico-políticas) e o compromisso para com o cuidado no SUS. Conclui que é justamente na trama local cotidiana, na problematização e intercâmbio entre experiências, que afloram caminhos criativos na superação das rotinas e práticas mecanizadas . Estes processos transformadores são matérias de reflexão para que novos projetos de cuidado sejam construídos coletivamente, emergindo novos patamares na assistência e na formação.
Resumo:
Esta tese objetiva percorrer a trajetória da criação, implantação e mudanças, ao longo do processo histórico do Aprendizado Agrícola de Barbacena, desde seu início, em 1910, até a época do presidente Getúlio Vargas, 1933. Como preliminares e pano de fundo, as iniciativas do Brasil, que, premido pela carência de mão de obra qualificada para atender à demanda das fazendas, após a abolição da escravatura, busca conhecimentos e experiências em outros países, na área da educação agrícola. Com o advento da República, verifica-se uma guinada do Estado brasileiro no sentido de assumir o ensino elementar público, a fim de ir diminuindo o percentual de analfabetos e de ensaiar a implantação do ensino agrícola, tendo em vista a crise que surgira no setor agrícola. É nesse cenário que se criam os aprendizados agrícolas. O Aprendizado Agrícola de Barbacena surge em 1910. Com foco nessa Instituição, abordam-se: o papel de lideranças políticas mineiras para trazer para Barbacena o primeiro Aprendizado Agrícola de Minas Gerais; as mudanças por que o Aprendizado passou, indo de seu início até a época de Getúlio, quando foi transformado em Escola Agrícola; o método de ensino, prevalentemente teórico-prático; a integração do Aprendizado com seu meio; o sistema de administração que incluía participação dos alunos nos lucros; a estrutura didático-pedagógica e o regime de internato. O estudo destaca o trabalho do seu primeiro Diretor, Diaulas Abreu, por 45 anos à frente da Instituição. Como metodologia de pesquisa, analisam-se decretos relativos à criação do Aprendizado, regulamentos, relatórios, dados do arquivo da Instituição e a troca de correspondência entre a direção e órgãos do governo. A pesquisa se encerra na era do presidente Getúlio Vargas, após a Revolução de 1930.
Resumo:
O uso de perfis estruturais tubulares vem aumentando em grande escala no mundo, principalmente devido às vantagens associadas ao comportamento estrutural e estético, levando a uma intensa utilização nos países da Europa, Sudeste Asiático, América do Norte e na Austrália. Países como Canadá, Inglaterra, Alemanha e Holanda fazem uso intensivo dessas estruturas e contam com uma produção corrente, industrializada e contínua com alto grau de desenvolvimento tecnológico. Diante deste fato, no Brasil, o uso desses perfis era bastante limitado, restringindo-se praticamente a coberturas espaciais. A situação do mercado brasileiro começou a se alterar em razão da maior oferta desses perfis proporcionada pelo início da produção pela V&M do BRASIL no ano de 2000. Sendo assim, diante da novidade da tecnologia, impõe-se a necessidade de divulgação e implementação do uso desse tipo de perfil, além de uma ampliação do número de trabalhos de pesquisa para melhor compreensão de seu comportamento estrutural. O presente trabalho apresenta uma análise paramétrica de ligação reforçada tipo T, através da determinação da resistência última da ligação obtida pelo critério de deformação limite proposto por diversos pesquisadores, comparando os resultados com as prescrições do Eurocode 3, do Projeto de Norma Brasileira PN 02.125.03-004 e do CIDECT. As ligações objeto deste estudo são compostas por perfil tubular retangular (RHS) no banzo e perfis circulares (CHS) nos montantes. Nestas análises verificou-se a influência do reforço na região de encontro de banzo e montante, bem como a influência do esforços atuantes no banzo no comportamento global das ligações. As não-linearidades físicas e geométricas foram incorporadas aos modelos, a fim de se mobilizar totalmente a capacidade resistente dessa ligação. Os modelos em elementos finitos, foram desenvolvidos no programa Ansys 12.0. Como resultado final deste trabalho é apresentado o comportamento da ligação tipo T com reforço para diversos tipos de perfis (banzo e montante) e diferentes espessuras da chapa de reforço, fazendo comparação com o dimensionamento proposto pelo Projeto de Norma Brasileira PN 02.125.03-004.
Resumo:
A nutrição inadequada é um dos principais fatores não-genéticos que afetam o desenvolvimento do encéfalo. O hipocampo é uma estrutura bastante sensível a alterações no aporte nutricional durante o desenvolvimento. No hipocampo a óxido nítrico sintase (ONS) é uma enzima altamente expressa e o óxido nítrico (ON) já foi apontado como tendo papel fundamental na potenciação de longa duração (LTP) e depressão de longa duração (LTD), responsáveis pelo processo de memória e aprendizado. Neste trabalho estudamos o efeito da malnutrição no comportamento associado à memória e aprendizado e na distribuição da ONS, através da técnica da nicotinamida adenina dinucleotídeo fosfato diaforase (NADPH-d). O presente trabalho foi aprovado pelo COMITÊ DE ÉTICA (CEA/055/2009). Foram utilizados ratos Wistar machos, divididos em dois grupos: grupo controle (GC) e grupo malnutrido (GM). A malnutrição se deu através da administração, para a mãe, de uma ração com 0% de proteína durante os 10 primeiros dias de lactação, iniciando-se no dia do nascimento dos filhotes. O GC recebeu ração comercial (22% de proteína). Os encéfalos foram processados histologicamente nas idades de P10, P20, P30, P45 e P90 (n=5 para cada idade e grupo estudado), sendo então realizada a histoquímica da NADPH-d para avaliar a distribuição da ONS. A avaliação dos comportamentos associados à ansiedade foi realizada através do labirinto em cruz elevado (LCE), o comportamento associados à busca por novos estímulos foi medida através do campo vazado (CV) e a memória/aprendizado foi avaliada através do labirinto aquático radial de 8 braços (LAROB) em animais P40 (n=10 para cada grupo) e P90 (n=11 para cada grupo). No GM em P10 observamos maior densidade de células NADPHd+ no giro denteado. Em P20, a marcação para NADPH-d no GM foi menor e esse padrão foi mantido em P30 e P45. No GM em P90 não observamos efeitos da dieta. Em P10, no GM observamos menor número de corpos marcados no stratum pyramidale (SPy). Em P20 o SPy encontrava-se intensamente marcado em ambos os grupos. Em P30 GM observamos maior número de células marcadas no SPy. Entretanto em P45, ambos os grupos apresentaram poucos corpos marcados. Em P90, o GM apresentou mais células marcadas no SPy. Não foram observadas diferenças significativas nas variáveis analisadas para o LCE. O GM em P90 explora maior número de orifícios, tanto na periferia (F=8,1; gl=1; P=0,014) quanto no número total (F=7,5; gl=1; P=0,017). Não foram observadas diferenças significativas para as variáveis analisadas no CV em P40. No teste de memória/aprendizagem foram observadas diferenças significativas entre o GM e o GC na latência de escape no 1 dia de testes em P90 (F=5,2; gl=1; P=0,033), com o GM apresentando melhor desempenho quando comparado ao GC. Esses valores podem ser explicados pela redução da latência para encontrar a plataforma de escape no GM. Não foram observadas diferenças significativas no LAROB em P40. Nossos resultados demonstram que a malnutrição protéica restrita aos 10 primeiros dias da lactação altera a distribuição da NADPH-d no hipocampo. A malnutrição afetou o comportamento dos animais em P40. Por outro lado, em P90 os primeiro dia de teste, sugerindo que o efeito observado está mais associado à novidade do ambiente de teste.
Resumo:
Os objetivos deste estudo foram medir o efeito do reforço estrutural com a adição de fibras de vidro, na resistência ao teste de tração diametral e no selamento marginal de restaurações classe II com cimento de ionômero de vidro em molares decíduos. Fibras de vidro foram incorporadas ao pó do cimento de ionômero de vidro (CIV) na concentração de 40%. As fibras usadas foram do tipo E com comprimentos que variavam de 50m a 210m. A propriedade mecânica foi verificada através do teste de tração diametral, após 15 minutos, 24 horas e 15 dias de estocagem em água. Corpos de prova foram preparados com as dimensões de 4x8 mm para cada intervalo de tempo de acordo com as normas do fabricante e padrões internacionais. Para o teste de microinfiltração foram usados segundos molares decíduos hígidos, onde foram preparadas cavidades classe II padronizadas em dois grupos: a) controle com CIV Ketac Molar Easymix (3M/ESPE); e b) teste Ketac Molar Easymix (3M/ESPE); reforçado com fibras. Estes dentes foram restaurados e deixados em água por 24h e, a seguir, imersos em solução de nitrato de prata a 50% pelo mesmo período. Para que houvesse a precipitação de sais de prata os dentes foram colocados em solução reveladora de radiografias por 15 minutos. Para analisar a microinfiltração os espécimes foram seccionados na direção mesio-distal obtendo duas amostras de observação para cada cavidade restaurada. Os resultados do teste mecânico foram analisados através dos testes de variância ANOVA e de múltiplas variáveis de Tukey. Os resultados da microinfiltração foram analisados através do teste de MANN-WHITNEY. Com a metodologia empregada foi possível concluir que houve aumento dos valores de tração diametral no CIV com a adição de fibras de vidro. Para os intervalos de 24 horas e 15 dias, o CIV reforçado com fibras apresentou valores de tração diametral superiores àqueles do CIV não reforçado, havendo diferença significativa estatística (p<0,05) para os intervalos testados. No teste de microinfiltração os grupos mostraram valores semelhantes de infiltração marginal. A adição das fibras de vidro tipo E aumentou a resistência à tração diametral do CIV testado em relação ao grupo controle e as fibras de vidro não alteraram a adesão do cimento reforçado.