公共文化服务平台

共 9 条记录，以下是 1-9

全选清除导出

排序方式：

基于多Agent并行采样和学习经验复用的E^3算法被引量：2: 2013年; 针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。; 刘全杨旭东荆玲肖飞; 关键词：人工智能多AGENT 并行采样

双精英协同进化遗传算法被引量：86: 2012年; 针对传统遗传算法早熟收敛和收敛速度慢的问题,提出一种双精英协同进化遗传算法(double elitecoevolutionary genetic algorithm,简称DECGA).该算法借鉴了精英策略和协同进化的思想,选择两个相异的、高适应度的个体(精英个体)作为进化操作的核心,两个精英个体分别按照不同的评价函数来选择个体,组成各自的进化子种群.两个子种群分别采用不同的进化策略,以平衡算法的勘探和搜索能力.理论分析证明,该算法具有全局收敛性.通过对测试函数的实验,其结果表明,该算法能搜索到几乎所有测试函数的最优解,同时能够有效地保持种群的多样性.与已有算法相比,该算法在收敛速度和搜索全局最优解上都有了较大的改进和提高.; 刘全王晓燕傅启明张永刚章晓芳; 关键词：遗传算法进化算法精英策略协同进化种群多样性

一种基于线性函数逼近的离策略Q(λ)算法被引量：25: 2014年; 将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.; 傅启明刘全王辉肖飞于俊李娇; 关键词：函数逼近

一种最大集合期望损失的多目标Sarsa(λ)算法被引量：3: 2013年; 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.; 刘全李瑾傅启明崔志明伏玉琛; 关键词：多目标机器人足球

连续空间的递归最小二乘行动者—评论家算法被引量：2: 2014年; 传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。; 朱文文金玉净伏玉琛宋绪文; 关键词：递归最小二乘

一种批量最小二乘策略迭代方法被引量：9: 2014年; 策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。; 周鑫刘全傅启明肖飞; 关键词：最小二乘策略迭代

基于自适应归一化RBF网络的Q-V值函数协同逼近模型被引量：9: 2015年; 径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能.; 刘全肖飞傅启明伏玉琛周小科朱斐; 关键词：函数逼近径向基函数

一种三角形网格空洞修复算法被引量：9: 2013年; 无线传感器网络由大量传感器节点组成,在网络初始化时节点随机部署在目标区域中,导致某一区域未被覆盖而形成覆盖空洞.针对目标区域中存在覆盖空洞问题,设计了一种基于三角形网格的无需地理信息的空洞探测算法ATN和空洞修复算法TNR.利用ATN算法检测节点与其邻居形成的三角形网格是否被完全覆盖,TNR算法以ATN算法理论为基础,向三角形网格中添加节点使目标区域完全覆盖.理论与仿真实验分析表明,ANR算法能够探测出目标区域中所有空洞,TNR算法在部署密集的传感网络中能够快速完成空洞修复.; 刘全杨凯伏玉琛张书奎; 关键词：无线传感器网络三角形网格

基于tableau结点封闭值的非一致性数据库开放分支修复方法: 2013年; 在将tableau方法扩展到非一致性数据库修复的基础上,提出一种新的利用分支封闭值修复数据库的方法。该方法结合tableau分析法的开放和封闭推理标准,以开放公式树TP(IC∪r)分支为基础,为公式树TP(IC∪r)中每个结点引入一个结点封闭值。根据TP(IC∪r)中结点封闭值的定义,通过计算TP(IC∪r)的结点封闭值来选择分支进行开放修复,从而可以直接确定数据库的修复实例,同时考虑了含有I封闭的修复,将开放修复扩展到含有I封闭的TP(IC∪r),并给予逻辑证明。最后,对于一致性应答结果的逻辑特征予以证明。; 高龙刘全傅启明李娇; 关键词：TABLEAU 非一致性数据库

全选清除导出

共1页<1>

教育部重点实验室开放基金(93K172012K04)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

教育部重点实验室开放基金(93K172012K04)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈