山西省青年科技研究基金(20031027)
- 作品数:8 被引量:43H指数:5
- 相关作者:王素格杨军玲张武崔彩霞由丽萍更多>>
- 相关机构:山西大学上海大学太原师范学院更多>>
- 发文基金:山西省青年科技研究基金山西省自然科学基金山西省科技攻关计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一个基于字特征的文本分类模型被引量:5
- 2004年
- 提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。
- 王梦云王素格
- 关键词:文本分类特征向量
- 动词与动词搭配自动获取方法
- 搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。本文对统计搭配算法中的搭配强度、离散度及尖峰三个搭配定量评估体系所选取的阈值进行了讨论,并从400万字的平衡语料库,自动抽取实例,归纳了上下文有关规则与上...
- 王素格由丽萍刘开瑛
- 关键词:语料库
- 文献传递
- 基于最大熵模型与投票法的汉语动词与动词搭配识别被引量:5
- 2007年
- 提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占优的投票法构造组合识别器.实验结果表明,同时包含上下文词性信息和统计信息的识别器优于单纯包含上下文词性信息或统计信息的识别器,但最好搭配识别器占优的组合识别器效果更佳.
- 王素格杨军玲张武
- 关键词:搭配最大熵模型特征函数投票法
- 汉语动词-动词搭配规则与分布特征被引量:8
- 2005年
- 搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。论文面向中文信息处理,通过对真实文本的统计分析归纳了用于自动获取搭配的规则,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上提出了抽取动宾、动补、连谓和并列四种关系的动词-动词搭配的适宜观察窗口。
- 由丽萍王素格
- 关键词:词语搭配语料库中文信息处理
- 自动获取汉语词语搭配被引量:16
- 2006年
- 作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度。本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果。
- 王素格杨军玲张武
- 关键词:计算机应用中文信息处理词语搭配互信息
- 基于粗集的支持向量机文本分类方法研究被引量:3
- 2006年
- 本文提出了一种基于粗糙集的支持向量机文本分类方法。该方法利用粗糙集的约简理论降低了支持向量的维数,同时保证了分类性能。实验表明该方法能获得较好的分类效果。
- 崔彩霞王素格
- 关键词:粗糙集支持向量机文本分类
- 基于最大熵模型的汉语动词与动词搭配识别
- 句法分析一直是自然语言处理领域的一个重点和难点问题,准确的动词与动词搭配关系识别可为建立完全的句法分析奠定一定的基础。本文提出了一种基于最大熵模型的汉语动词与动词搭配识别方法,选取目标动词与搭配词的上下文词性信息及其关联...
- 王素格张武李德玉杨军玲彭其伟
- 关键词:搭配最大熵模型粗糙集理论
- 文献传递
- 面向框架语义分析的汉语句法分析模型
- 汉语的句法结构可以从多角度、多层次进行分析,但如果服务于框架语义分析,则有其特定的要求。本文试图构建一个汉语句法分析模型,它是一个词汇化的句法分析模型,能够解决框架语义分析的特定需要。我们使用了BaseNP的界定和依存关...
- 张惠春由丽萍谷波刘开瑛
- 关键词:框架语义中心词句法分析
- 文献传递
- 动词与动词搭配评价体系阈值定量分析
- 2006年
- 针对以往凭经验给出的搭配强度、离散度、均值、Z值的阈值等不足,利用统计方法计算动词和出现在其后的动词之间的关联程度,以自动获取动词与动词搭配。利用定量分析的方法对于不同的语料规模,以及搭配评价指标间的关系,给出了确定的阈值范围,为后续自动建立动词词语搭配知识库,提供了进一步研究的基础。
- 彭其伟王素格
- 关键词:阈值选取语料库动词搭配
- 基于类内频率的文本分类特征选择方法被引量:7
- 2007年
- 随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机作为分类器,利用以上5种文本特征选择方法在平衡语料和非平衡语料上进行了测试。实验结果表明,该方法能够有效选出真正对分类有意义的特征,分类效果较好,尤其适合支持向量机分类器。
- 崔彩霞王素格
- 关键词:文本分类文档频率信息增益互信息