国家教育部博士点基金(20103218120024)
- 作品数:4 被引量:17H指数:3
- 相关作者:牛耘魏欧封二英潘明慧蔡昕烨更多>>
- 相关机构:南京航空航天大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多层次语言特征的弱监督评论倾向性分析被引量:3
- 2015年
- 该文提出一种基于多层次语言特征的弱监督的情感分析方法,先以少量情感词构成初始情感词典,用这些种子词汇作引导,根据评论文本在单词、短语及句子级别的语言特征结合上下文挖掘目标文本中潜在的具有情感倾向的词汇/短语。通过自训练不断扩充情感词典,最终得到一个具有领域特征的情感词典,并用所得到的情感词典对目标文本的情感倾向进行判断。与其他方法在同一数据上的结果相比,该方法以很小的词典规模取得了最高的F-score,并且得到的情感词含义明确。方法用于不同领域也取得了较高的精度,表明方法具有较好的领域适应性。
- 牛耘张黎王世泓魏欧
- 关键词:情感分析情感词典
- 基于大规模文本的蛋白质交互关系自动提取被引量:6
- 2012年
- 针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法。首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本自动分类问题;然后提取签名档中的重要特征,建立蛋白质对的向量空间模型(VSM);最后采用支持向量机(SVM)对签名档进行分类。比较了四种对向量的特征进行加权和特征选择的方案。实验表明,基于大规模文本的蛋白质交互关系识别取得了最高达94.8%的精确度和65.1%的召回率;并且此方法充分利用已有的交互信息,免除了额外的人工标注的负担。
- 封二英牛耘魏欧
- 关键词:向量空间模型支持向量机文本分类
- 基于关系相似性的蛋白质交互自动识别被引量:4
- 2013年
- 针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法。首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断。所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注。实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%)。
- 封二英牛耘魏欧蔡昕烨
- 关键词:句法分析空间向量模型
- 基于多线索混合词典的微博情绪识别被引量:7
- 2014年
- 微博等社交媒体为人们情绪表达提供了重要平台,分析微博的情绪倾向具有重要的商业价值和社会意义。文中提出了基于词典的规则方法识别微博所表达的喜、哀、怒、惧、恶、惊六种情绪。针对情绪表达的重要线索表情符利用互信息法生成了表情符词典,与传统情绪词典相结合,制定了针对否定用法的规则对微博进行分析。建立了第一个包含六种情绪的人工标注微博数据集。实验表明,传统的情绪词典虽然收录了大量词汇,但对于社交媒体文本分析的准确率和覆盖率都不高。表情符词典的应用显著地提高了微博情绪分析的精度和覆盖率。
- 潘明慧牛耘
- 关键词:情绪分析表情符