郑丽
- 作品数:3 被引量:3H指数:1
- 供职机构:北京信息科技大学中文信息处理研究中心更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 搜索引擎日志中“N+V+N”、“V+N+N”型短语识别被引量:1
- 2013年
- 短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中"N+V+N"、"V+N+N"型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模型。实验结果显示,利用最大熵方法对两种短语进行开放性测试,两种短语的识别F值分别达到85.78%和76.47%,取得了较好的自动识别效果,在半开放性测试中,其识别结果更佳。
- 郑丽吕学强
- 关键词:短语识别
- 搜索引擎日志中“N+V”和“N_1+N_2+V”型短语自动识别被引量:2
- 2012年
- 正确识别搜索引擎日志中的短语,对搜索引擎用短语词典构建和提高搜索引擎性能具有重要的作用。该文提出一种应用条件随机场实现对搜狗日志语料中"N+V"和"N1+N2+V"型短语自动识别的方法。模型的特征集包含词、词性和词语长度。由人工设计候选特征集,从中选择有效的特征构成特征模板,训练生成用于短语自动识别的条件随机场模型。封闭测试和开放测试的实验结果表明,模型能够实现对这两种短语的有效识别。
- 赵红改吕学强施水才郑丽
- 关键词:条件随机场模型搜索引擎日志
- 搜索引擎日志中“N+V+N”和“V+N+N”型短语功能类别识别
- 2012年
- 采用支持向量机(SVM)方法实现搜索引擎日志中"N+V+N"、"V+N+N"型短语功能类别识别。通过选取不同特征,构建多特征模板,实现对"N+V+N"、"V+N+N"型短语中名词短语、动词短语、主谓短语三种功能短语的自动识别,并且针对不同词性标注集对实验结果是否有影响进行了实验。实验结果显示,SVM在搜索引擎日志短语识别中有很高的识别率。
- 郑丽吕学强施水才
- 关键词:支持向量机搜索引擎日志