您的位置: 专家智库 > >

章鹏

作品数:8 被引量:541H指数:4
供职机构:苏州大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金江苏省高校自然科学研究项目苏州市科技计划项目(应用基础研究计划)更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 8篇自动化与计算...
  • 1篇电子电信

主题

  • 3篇人工智能
  • 2篇行动者
  • 2篇神经网
  • 2篇神经网络
  • 2篇评论家
  • 2篇网络
  • 2篇函数
  • 1篇迭代
  • 1篇迭代算法
  • 1篇动态规划
  • 1篇循环神经网络
  • 1篇语言处理
  • 1篇增量式
  • 1篇值函数
  • 1篇梯度下降
  • 1篇强化学习方法
  • 1篇情感分析
  • 1篇注意力
  • 1篇自然梯度
  • 1篇自然语言

机构

  • 8篇苏州大学
  • 5篇吉林大学
  • 2篇苏州工业职业...

作者

  • 8篇章鹏
  • 6篇刘全
  • 4篇钟珊
  • 4篇翟建伟
  • 3篇周倩
  • 2篇栾咏红
  • 2篇章宗长
  • 2篇徐进
  • 1篇王海燕
  • 1篇梁斌
  • 1篇王辉

传媒

  • 3篇计算机学报
  • 1篇计算机研究与...
  • 1篇通信学报
  • 1篇计算机时代
  • 1篇现代电子技术
  • 1篇电脑知识与技...

年份

  • 1篇2018
  • 4篇2017
  • 1篇2016
  • 1篇2015
  • 1篇2014
8 条 记 录,以下是 1-8
排序方式:
连续空间中的随机技能发现算法被引量:2
2016年
针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大。以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能有效克服因为维数灾引起的难以求取最优策略或收敛速度过慢的问题。
栾咏红刘全章鹏
关键词:OPTION
增量式双自然策略梯度的行动者评论家算法被引量:2
2017年
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点。
章鹏刘全钟珊翟建伟钱炜晟
关键词:自然梯度
连续空间中的一种动作加权行动者评论家算法被引量:5
2017年
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.
刘全章鹏钟珊钱炜晟翟建伟
关键词:函数逼近梯度下降人工智能
一种基于视觉注意力机制的深度循环Q网络模型被引量:17
2017年
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性.
刘全翟建伟钟珊章宗长周倩章鹏
关键词:循环神经网络人工智能
深度强化学习综述被引量:396
2018年
深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.
刘全翟建伟翟建伟钟珊章宗长章鹏钟珊
关键词:人工智能
强化学习方法的对比分析被引量:2
2015年
强化学习是指从环境状态到行为映射的学习,使智能体从环境交互中获得的累积奖赏最大化。文章在介绍强化学习原理和方法的基础上,对动态规划、蒙特卡罗算法和时间差分算法进行了分析,并以栅格问题为仿真实验平台进行算法验证,分析比较了蒙特卡罗算法与时间差分算法学习速率的收敛性,以及学习率对时间差分算法的影响。实验结果表明,时间差分算法收敛速度比蒙特卡罗算法快一些;学习率选取较大时,时间差分算法收敛速度会快一些。
栾咏红章鹏
关键词:动态规划蒙特卡罗方法值函数
基于多注意力卷积神经网络的特定目标情感分析被引量:128
2017年
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意力卷积神经网络(multi-attention convolution neural networks,MATT-CNN)的特定目标情感分析方法.相比基于注意力机制的LSTM网络,该方法可以接收平行化输入的文本信息,大大降低了网络模型的训练时间.同时,该方法通过结合多种注意力机制有效弥补了仅仅依赖内容层面注意力机制的不足,使模型在不需要例如依存句法分析等外部知识的情况下,获取更深层次的情感特征信息,有效识别不同目标的情感极性.最后在SemEval2014数据集和汽车领域数据集(automotive-domain data,ADD)进行实验,取得了比普通卷积神经网络、基于单注意力机制的卷积神经网络和基于注意力机制的LSTM网络更好的效果.
梁斌刘全徐进周倩章鹏
关键词:卷积神经网络自然语言处理
基于强化学习的值迭代算法
2014年
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。
崔军晓朱蒙婷王海燕章鹏王辉
共1页<1>
聚类工具0