吕帅
- 作品数:79 被引量:189H指数:10
- 供职机构:吉林大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金吉林省科技发展计划基金更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论电子电信更多>>
- 基于样本效率优化的深度强化学习方法综述被引量:8
- 2022年
- 深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向.
- 张峻伟吕帅张正昊于佳玉龚晓宇
- 一种多目标增量启发式搜索算法被引量:6
- 2009年
- 提出一种多目标增量启发式搜索算法,该算法结合启发式搜索与增量搜索的思想,当多目标问题搜索图的状态格局发生改变时,该算法并不是对变化后的问题进行完全重新求解,而是部分利用了先前搜索保留的信息求解新问题的最优解集,从而提高了问题求解的效率.通过Gridworld标准测试问题上的实验测试,验证了算法的效率.
- 魏唯欧阳丹彤吕帅殷明浩
- 关键词:启发式搜索多目标问题最优解集
- JLU-RLAO和JLU-QLAO:两个不确定智能规划求解系统
- 2009年
- 不确定环境下的智能规划问题往往假设世界状态的转移概率是确切可知的,然而规划建模专家有时只能在信息不完备的条件下进行建模,从而只能通过猜测或者不完全统计的方法来获取不完备的有关状态转移不确定性的定量信息,有时甚至只能获取相关的定性信息.在2004年概率规划比赛冠军LAO系统的基础上设计了JLU-RLAO系统和JLU-QLAO系统.它们可以在无法获得精确的状态转移概率条件下,依然保证规划求解的健壮性.实验结果表明,JLU-RLAO系统和JLU-QLAO系统可以快速高效地解决上述不确定智能规划问题.
- 孙吉贵殷明浩吕帅
- 智能规划的通用问题描述进展
- 2011年
- 规划领域定义语言是第一届国际规划竞赛提出的问题定义语言,随着两年一次的国际规划竞赛的举办,其语言的描述方式和能力也在不断扩展。本文将现有规划问题的通用描述予以综述,通过形式化地描述智能规划在不同发展阶段的通用描述方法,对其语法和语义以实例进行剖析,为后续的研究者提供精准的规划描述,并提出了未来的发展趋势。
- 刘吉迟学航吕帅
- 关键词:描述语言定义语言IPC
- 鼠标绘图辅助装置
- 本实用新型涉及一种鼠标绘图辅助装置,包括鼠标垫,鼠标垫上表面固定连接有纵向导轨,纵向导轨下表面位于鼠标垫左侧,其上表面中部开设有纵向条形滑动槽,纵向条形滑动槽活动连接有横向导轨滑块,横向导轨滑块固定连接横向导轨,横向导轨...
- 李广力张桐搏池策霸元婕吕帅刘磊
- 文献传递
- 基于压缩编码的经典最优规划方法被引量:1
- 2010年
- 在基于Graphplan的编码方式的基础上,设计了基于PMA的编码方式,并从理论上证明了该编码方式的有效性;提出了编码求解过程中的一种目标状态预处理策略;设计并实现了相应的规划系统PMA-SP,并利用国际规划竞赛选用的Benchmark问题予以测试。结果表明:与SATPLAN2006相比,对于顺序规划域Blocks World,编码规模压缩了40%,求解效率提高了2倍;对于并发规划域Logistics,编码规模压缩了80%以上,求解效率各有好坏,PMA-SP对于所测两类规划域编码规模有所压缩,求解效率也有一定程度的提高。
- 吕帅刘磊江鸿魏唯
- 关键词:人工智能
- 中文网络文本的语义信息处理研究综述被引量:2
- 2015年
- 从学术价值和应用价值两方面分析了将计算机学科与语言学学科的研究方法相结合对于研究网络文本的意义,分别从分析网络文本的特性、网络词汇的演化规律以及构建网络文本语言知识库、开发平台和支持工具等方面对该领域中的研究现状与相关工作予以描述与分析,试图明晰面向中文网络文本的语义信息处理的研究内容和路线,为相关研究的进一步开展奠定基础。
- 刘磊李壮张鑫吕帅
- 关键词:网络词汇网络语言语义分析知识库
- Tabular表达式中正规函数表操作的形式语义
- 2019年
- 正规函数表是一类典型的Tabular表达式,被广泛应用于软件说明文档.文中对Tabular表达式中正规函数表操作的语义进行研究.首先给出了正规函数表的形式文法,讨论了规整性、完全性和不可交叉性等性质,说明了其求值过程;然后根据操作的影响范围,以内部操作和外部操作为分类标准,分别对二元操作、替换操作、提取操作和扩展操作的语义进行刻画,讨论了各个操作的封闭性;最后通过电梯控制系统实例分析了相关操作的实际应用场景,说明了正规函数表操作的形式语义的合理性和可用性.实例结果表明,文中提出的正规函数表操作的语义描述与实际结果是一致的.
- 周文博刘磊张鹏张鹏
- 关键词:操作语义软件文档
- 基于移动平台的异构并行字符串匹配算法被引量:2
- 2017年
- 针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并行字符串匹配算法KMP_MOP.在PowerVR移动平台环境下使用千万级长度的字符串数据对算法的性能进行测试,同时对算法在其他平台的执行情况进行比较,验证了并行算法的性能可移植性.实验结果表明,KMP_MOP算法能充分利用移动平台中的GPU性能,有效提高具有GPU的移动平台设备的字符串匹配效率.
- 刘磊李广力徐玥张桐搏吕帅
- 关键词:字符串匹配
- 基于超扩展规则的动态在线推理算法被引量:6
- 2015年
- 为了提高扩展规则的扩展性能,提出了超扩展规则,并证明了其与扩展负超归结之间的关联关系。KCER算法中使用扩展规则扩展子句,利用超扩展规则替换扩展规则能够更清晰地展示扩展过程,因此提出了基于超扩展规则的动态在线推理算法IKCCER。IKCCER采用离线编译和在线推理过程交互执行的方式,在保持推理效率不变的同时,其空间复杂性为KCCER算法空间复杂性的2/(n+1),其中n为输入子句集的子句数。
- 刘磊牛当当李壮吕帅
- 关键词:知识编译