孙建旺
- 作品数:3 被引量:71H指数:3
- 供职机构:北京信息科技大学更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于语义与最大匹配度的短文本分类研究被引量:18
- 2013年
- 为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。
- 孙建旺吕学强张雷瀚
- 关键词:词语相似度KNN算法
- 基于词典与机器学习的中文微博情感分析研究被引量:50
- 2014年
- 随着Web2.0时代的兴起,与微博相关的研究得到学术界和工业界的广泛关注。选取微博文本中的动词和形容词作为特征;提出基于层次结构的特征降维方法;采用设计的基于表情符号的方法计算特征极性值;在此基础上,提出基于特征极性值的位置权重计算方法,借助SVM作为机器学习模型将微博文本分为正面、负面和中性三类。实验结果表明,提出的方法能够比较有效地对中文微博文本进行情感分类。
- 孙建旺吕学强张雷瀚
- 关键词:表情符号情感分类
- 基于微博转发集的微博过滤研究被引量:3
- 2013年
- 针对微博文本的特点,提出了基于微博转发集的过滤方法。借助微博转发集,构建<子串,频次,转发时间差>三元组,形成用户需求模板;以知网为知识源计算微博文本与用户需求模板的相似度,抽取用户感兴趣的内容形成候选文本集;根据提出的基于三元组的微博权重计算方法,对候选集做进一步筛选,最终得到用户需求的微博文本。实验结果表明,基于微博转发集的过滤方法在滤准率和滤全率2个指标上比基于关键词与KNN的方法有了显著的提高。
- 孙建旺吕学强郭跇秀
- 关键词:三元组相似度