国家自然科学基金(61163033)
- 作品数:3 被引量:14H指数:2
- 相关作者:艾斯卡尔艾木都拉艾克白尔·帕塔尔吐尔地·托合提艾斯卡尔·艾木都拉更多>>
- 相关机构:新疆大学更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 拉丁化维吾尔文字特征及其基于规则的正规化被引量:2
- 2016年
- 结合网络上流通的拉丁化维吾尔文字特征,以拉丁化维吾尔文单词作为研究单位,首先,通过大规模文本语料库建立了固定词库、词首字母序列库、词尾字母序列库以及特殊词库等正规化规则库。然后,利用维吾尔单词中的字母序列结构特征和相邻字母上下文信息进行了拉丁化维吾尔文的正规化,同时引用最小编辑距离的方法进一步提高了正规化正确率,并用Visual C#编程工具实现了基于规则的拉丁化维吾尔文的正规化算法。最后,给出了实验结果,并分析了结果不佳的原因及相应的对策。
- 赛牙热.依马木于斯音.于苏普阿不都萨拉木.达吾提
- 关键词:维吾尔语正规化规则库
- 基于规则的维吾尔地名识别被引量:9
- 2013年
- 总结了维吾尔地名结构及其特点,并结合维吾尔地名内部结构特征,手动建立了基于新疆维吾尔自治区的地名词典库、首词库、中间词库和特征词库,研究了基于规则的维吾尔语地名识别方法和技术。以包含地名的较大规模维吾尔文本作为测试样本,利用地名内部结构和相邻词信息,通过匹配算法进行了地名识别,并用Visual C++编程工具实现了维吾尔语地名识别算法。最后,给出了实验结果,并分析了出错原因及相应的对策。
- 木合塔尔.艾尔肯艾斯卡尔艾木都拉地里木拉提.吐尔逊
- 关键词:维吾尔语地名识别命名实体识别
- 维吾尔文无监督自动切分及无监督特征选择被引量:3
- 2013年
- 维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
- 吐尔地·托合提艾克白尔·帕塔尔艾斯卡尔·艾木都拉
- 关键词:互信息