孙晓
- 作品数:4 被引量:14H指数:2
- 供职机构:大连理工大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文词法分析的研究及其应用
- 在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任...
- 孙晓
- 关键词:中文信息处理中文词法分析条件随机域机器翻译
- 文献传递
- 基于FSVM层叠模型的中文命名实体识别
- 针对中文命名实体构成的复杂性,提出了一种基于模糊支持向量机的层叠模型。基于最长次长匹配一体化分词标注结果,在底层利用支持向量机基于单字特征进行人名、简单地名和机构名的识别;在高层回到词的层面,利用支持向量机基于词特征对复...
- 孙晓黄德根
- 关键词:命名实体识别模糊支持向量机
- 基于最长次长匹配分词的一体化中文词法分析被引量:3
- 2010年
- 针对当前大多数词法分析系统"流水线"式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%.
- 孙晓黄德根
- 关键词:中文词法分析未登录词
- 基于动态规划的最小代价路径汉语自动分词被引量:10
- 2006年
- 基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果.在切分歧义的处理上采用分步过滤逐步解消的方法,并引入了基于未知词特征词驱动的机制,对未知词进行了前处理,减少了因未知词的出现而导致的切分错误.实验结果表明,该方法有效地提高了汉语分词的精确率和召回率.
- 孙晓黄德根
- 关键词:汉语自动分词