您的位置: 专家智库 > >

江苏省高校自然科学研究项目(13KJB520020)

作品数:22 被引量:196H指数:5
相关作者:刘全傅启明朱斐伏玉琛章鹏更多>>
相关机构:苏州大学吉林大学苏州科技大学更多>>
发文基金:江苏省高校自然科学研究项目国家自然科学基金江苏省自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 22篇中文期刊文章

领域

  • 22篇自动化与计算...
  • 1篇电子电信

主题

  • 4篇行动者
  • 4篇评论家
  • 4篇函数
  • 2篇值函数
  • 2篇迁移
  • 2篇自然梯度
  • 2篇网络
  • 2篇函数逼近
  • 2篇高斯
  • 2篇高斯过程
  • 2篇贝叶斯
  • 2篇OPTION
  • 1篇多线程
  • 1篇多线程并行
  • 1篇多线程技术
  • 1篇学习算法
  • 1篇异构
  • 1篇优化算法
  • 1篇语言处理
  • 1篇云计算

机构

  • 21篇苏州大学
  • 16篇吉林大学
  • 5篇苏州科技大学
  • 2篇常熟理工学院
  • 2篇苏州工业职业...
  • 2篇苏州科技学院
  • 1篇浙江纺织服装...

作者

  • 19篇刘全
  • 10篇傅启明
  • 9篇朱斐
  • 5篇伏玉琛
  • 4篇钟珊
  • 4篇章鹏
  • 4篇陈建平
  • 4篇吴宏杰
  • 4篇王辉
  • 3篇凌兴宏
  • 3篇陈冬火
  • 2篇龚声蓉
  • 2篇栾咏红
  • 2篇金海东
  • 2篇胡伏原
  • 2篇翟建伟
  • 1篇陈桂兴
  • 1篇尤树华
  • 1篇徐杨
  • 1篇于俊

传媒

  • 4篇计算机研究与...
  • 4篇通信学报
  • 3篇电子学报
  • 3篇计算机学报
  • 2篇计算机应用研...
  • 1篇计算机工程与...
  • 1篇计算机工程与...
  • 1篇计算机科学
  • 1篇现代电子技术
  • 1篇江苏大学学报...
  • 1篇计算机技术与...

年份

  • 3篇2019
  • 3篇2018
  • 4篇2017
  • 9篇2016
  • 1篇2015
  • 2篇2014
22 条 记 录,以下是 1-10
排序方式:
基于凸多面体抽象域的自适应强化学习技术研究被引量:5
2018年
表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状�
陈冬火刘全朱斐金海东
基于值函数迁移的启发式Sarsa算法被引量:2
2018年
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。
陈建平杨正霞刘全吴宏杰徐杨徐杨
基于云计算的公交OD矩阵构建方法被引量:8
2016年
OD矩阵作为交通客流数据可视化的重要方法,是公交系统评价和优化的重要依据.提出了一种基于云计算的OD矩阵构建框架,在此框架下利用云计算优异的存取速度及计算性能,实现了对公交历史数据的筛选、预处理、变换、数据挖掘、解释评价等操作.此外,还提出一种综合了追踪乘客出行行为规律和估计站点热度的OD矩阵构建模型来实现对乘客下车站点较为精确的估计.算例分析表明,根据该模型计算得到的各站点下车人数结果能较好地拟合实际出行OD矩阵.
孙慈嘉李嘉伟凌兴宏
关键词:云计算数据挖掘
增量式双自然策略梯度的行动者评论家算法被引量:2
2017年
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点。
章鹏刘全钟珊翟建伟钱炜晟
关键词:自然梯度
连续空间中的一种动作加权行动者评论家算法被引量:5
2017年
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.
刘全章鹏钟珊钱炜晟翟建伟
关键词:函数逼近梯度下降人工智能
一种基于高斯过程的行动者评论家算法被引量:1
2016年
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。
陈仕超凌兴宏刘全伏玉琛陈桂兴
关键词:高斯过程贝叶斯推理
一种不稳定环境下的策略搜索及迁移方法被引量:3
2017年
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能.
朱斐刘全傅启明陈冬火王辉伏玉琛
基于可中断Option的在线分层强化学习方法被引量:4
2016年
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。
朱斐许志鹏刘全伏玉琛王辉
关键词:大数据分层强化学习OPTION
一种基于独立任务的POMDP问题的解决方法
2016年
通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中,实验结果表明,该方法能够获得很好的策略。
房俊恒朱斐刘全伏玉琛凌兴宏
关键词:POMDP
连续空间中的随机技能发现算法被引量:2
2016年
针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大。以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能有效克服因为维数灾引起的难以求取最优策略或收敛速度过慢的问题。
栾咏红刘全章鹏
关键词:OPTION
共3页<123>
聚类工具0