天津市科技发展战略研究计划项目(07JCZDJC067007)
- 作品数:2 被引量:6H指数:2
- 相关作者:史庆伟鲍虎赵政更多>>
- 相关机构:天津大学更多>>
- 发文基金:天津市科技发展战略研究计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于条件随机域的Web信息抽取被引量:4
- 2007年
- 为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。
- 史庆伟赵政鲍虎
- 关键词:条件随机域信息抽取拟牛顿法
- 基于全置信度关联分析的web层次聚类方法被引量:2
- 2007年
- 为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度阈值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。
- 史庆伟赵政鲍虎
- 关键词:关联规则层次聚类文本挖掘