7 resultados para Learning algorithms
em Chinese Academy of Sciences Institutional Repositories Grid Portal
Resumo:
为有效地刻画和求解军事装备系统的维修规划问题,建立了一个以维修费用和任务能力为目标的约束优化模型,提出了一种求解装备维修规划问题的多目标禁忌搜索算法。模型考虑了维修器材和工时两种费用指标,并在数质量评估的基础上通过二次回归方程来分层评估装备系统的任务能力指标。算法采用两阶段搜索策略,第一阶段从维修数量下限出发,以任务能力为演化目标进行搜索,直至找到一个可行解;第二阶段以任务能力/维修费用比为演化目标进行搜索,不断改善整个非支配解集。实验表明,算法能够求解型号≥500种,数量≥45000的大规模问题,模型和算法求解的质量也在实际应用中得到了验证。
Resumo:
在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数 ,并应用于多机器人协作任务之中 .实验结果表明 ,基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略 .
Resumo:
强化学习是一种重要的机器学习方法,随着计算机网络和分布式处理技术的飞速发展,多智能体系统中的分布式强化学习方法正受到越来越多的关注。论文将目前已有的各种分布式强化学习方法总结为中央强化学习、独立强化学习、群体强化学习、社会强化学习四类,然后探讨了这四类分布式强化学习方法的体系结构框架,并给出了这四类分布式强化学习方法的形式化定义。
Resumo:
对目前世界上分布式强化学习方法的研究成果加以总结,分析比较了独立强化学习、社会强化学习和群体强化学习三类分布式强化学习方法的特点、差别和适用范围,并对分布式强化学习仍需解决的问题和未来的发展方向进行了探讨。
Resumo:
水下环境的复杂性以及自身模型的不确定性,给水下机器人的控制带来很大困难。针对水下机器人的特点和控制方面所存在的问题,提出了基于预测 校正控制策略的水下机器人神经网络自适应逆控制结构及训练算法。通过在线辨识系统的前向模型,估计出系统的Jacobian矩阵,然后采用预报误差法实现控制器的自适应。同时,为了提高系统对于外扰的鲁棒性,在伪线性回归算法的基础上,在评价函数中引入微分项。理论分析和仿真结果表明,与原来的算法相比,微分项的引入改善了系统对于外扰的鲁棒性和动态性能。
Resumo:
回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数和稀疏函数,分析了密集函数和稀疏函数的特点.提出启发式回报函数的基本设计思路,利用基于保守势函数差分形式的附加回报函数,给学习系统提供更多的启发式信息,并对算法的最优策略不变性和迭代收敛性进行了证明.启发式回报函数能够引导学习,加快学习进程,从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度.
Resumo:
Compared with the ordinary adaptive filter, the variable-length adaptive filter is more efficient (including smaller., lower power consumption and higher computational complexity output SNR) because of its tap-length learning algorithm, which is able to dynamically adapt its tap-length to the optimal tap-length that best balances the complexity and the performance of the adaptive filter. Among existing tap-length algorithms, the LMS-style Variable Tap-Length Algorithm (also called Fractional Tap-Length Algorithm or FT Algorithm) proposed by Y.Gong has the best performance because it has the fastest convergence rates and best stability. However, in some cases its performance deteriorates dramatically. To solve this problem, we first analyze the FT algorithm and point out some of its defects. Second, we propose a new FT algorithm called 'VSLMS' (Variable Step-size LMS) Style Tap-Length Learning Algorithm, which not only uses the concept of FT but also introduces a new concept of adaptive convergence slope. With this improvement the new FT algorithm has even faster convergence rates and better stability. Finally, we offer computer simulations to verify this improvement.