搜索到71篇“ 汉字切分“的相关文章
基于流水模式的古籍文献汉字切分算法被引量:6
2021年
古籍文献汉字切分作为古籍数字化基础工作之一,其中交错、粘连文字切分一直是研究的重点与难点,开展切分技术方式研究可以提高文字切分的准确性与适用性,在促进古籍数字化工作方面具有重要的意义。文章根据古籍文献汉字呈现的特征,借鉴流水模式的思路,提出古籍文献汉字切分新方式。首先,对古籍文献图像进行预处理;然后利用投影法与图像形态学处理实现列切分;最后在列基础上进行逐字切分。在字切分时如遇到交错与粘连情况,则先通过阈值划出待切分区域,在此区域内借鉴水流下落时呈现的运动轨迹作为切分依据,实现古籍文献汉字切分,并将此方式命名为流水算法。以6本古籍文献为例,对算法效果进行实践,样本共计14,503字,最终切分精准率为99.00%,召回率为95.62%,F值为97.27%。实验表明,流水算法在不同类型古籍文献中对间隔、交错、粘连汉字均能实现有效切分
倪劼
关键词:古籍数字化汉字切分
古籍图像汉字切分方式融合研究
我国古籍数字化建设主要有四个层次,由低到高分别是:影像化、图像数据库、全文检索数据库、知识关联型数据库。目前,国内绝大多数的古籍收藏机构仍以图像扫描和加工为主,古籍数字化工作依然任重道远。众多学者对此进行了深入的剖析,包...
倪劼
关键词:汉字切分二值化图像
文献传递
古籍图像汉字切分方式融合研究
倪劫
古文献手写汉字切分方法研究被引量:4
2015年
根据古文献和古汉字的多重叠、多粘连等特点,提出了适合古文献的列切分和字切分方法.列切分采用统计投影循环过滤方法,首先对古文献进行纵向上的统计投影,然后采用循环过滤的方法对统计结果进行处理直到分离出比较均匀的列.该算法在噪点较多、有一定倾斜、列高度不均匀等多种复杂情况下,取得了很好的效果.字切分采用投影、分段投影和顶底部笔画特征相结合的多步切分方法,并在此基础上采用上下文相结合的方法进行切分检验,对不正确的切分进行调整.分段投影采用二分的思想把存在粘连、重叠的字段分为左右两部分,分别进行投影,并分析投影数组获取字段的切分路径;顶底部笔画特征切分法是根据汉字顶底部笔画的特点找到过度切分和不足切分,依次对切分进行调整.实验结果表明,提出的方法能较好地用于手写古文献的切分.
张忠林吴相锦周生龙
关键词:古文献手写汉字汉字切分
汉藏机器翻译的特点与手写汉字切分分析研究被引量:5
2014年
汉藏机器翻译的研究是一项有益而复杂的课题。本文的工作主要有两项,一是分析了汉藏机器翻译中藏语句子特点,给出了一些汉藏翻译句型的举例;二是阐述了在汉藏机器翻译研究中一项前期的辅助工作,即设计了手写汉字切分方法和算法。
杨宪泽陈毅红
基于候选特征笔画和多类阈值的手写汉字切分被引量:5
2013年
通过分析汉字的常见结构,鉴于汉字汉字之间的距离和构成汉字的部件之间的距离的显著差异性,提出一种基于候选特征笔画和多类阈值的手写汉字切分方法.首先从构成手写汉字的笔画集合中提取候选特征笔画,根据候选特征笔画将手写汉字切分,然后利用基于间距阈值的部件组合规则对过切分汉字部件进行组合,最后采用基于单字宽度阈值的粘连汉字判断规则搜索粘连汉字,对粘连汉字进行递归切分.实验表明,该方法对连续手写汉字切分准确率较高,具有一定的实用性.
马建平汪庆锋陈渤陈强
关键词:汉字结构手写阈值切分
脱机手写体汉字切分算法研究
脱机手写体汉字切分是脱机手写体汉字识别的基础,其准确率直接影响识别的正确率,该问题的研究对提高识别的系统性能具有重要的意义。本文以脱机手写汉字为研究对象,对汉字投影切分算法的相关问题进行了研究,提出了改进的切分方案并对方...
曹卫
关键词:脱机手写体汉字汉字识别
文献传递
基于极小阈值和曲线拟合的垂直投影汉字切分被引量:8
2011年
针对传统汉字切分方法中对粘连汉字和重叠汉字切分不准确的问题,提出了基于极小阈值和曲线拟合的垂直投影汉字切分算法.该算法在传统垂直投影法汉字切分的基础上结合极小阈值和曲线拟合进行切分,实验结果表明:相对于传统汉字切分方法,该算法对含有粘连和重叠现象的手写体汉字文本的切分是有效的,从而可使手写体汉字切分准确率有较大的提高.
王江晴曹卫
关键词:阈值
谈谈与汉字部首归部相关的汉字切分问题被引量:2
2011年
这位朋友提出的问题很具体,这样的问题,可能其他老师和学生在查字检词的过程中也遇到过。表面上看,这个问题很简单,只是几个字的部首归部问题,但其实,它涉及汉字切分、部首定位问题。弄清楚这个问题,对老师们的教学大有帮助,因此,我们特别邀请《归部规范》首席研制人—天津师范大学文学院陈燕教授来解答这个问题。
陈燕
关键词:汉字部首归部切分编者按老师
基于统计的动态规划算法在联机汉字切分中的应用被引量:3
2011年
针对中文联机手写文本识别中需要对不同长度的切分路径进行快速合理评价的问题,提出了一种基于后验概率的动态规划代价函数计算方法,结合切分块与切分点的几何信息,利用原始切分块的个数对代价值进行加权。实验证明,该方法有效克服了不同路径长度的负面影响,提高了最优切分路径搜索的准确率。
姚正斌丁晓青刘长松
关键词:字符切分动态规划代价函数后验概率

相关作者

刘长松
作品数:156被引量:310H指数:11
供职机构:清华大学
研究主题:线性鉴别分析 人脸 字符识别 文本 文字识别
赵宇明
作品数:70被引量:365H指数:12
供职机构:上海交通大学电子信息与电气工程学院自动化系
研究主题:图像增强 手写体汉字切分 图像分解 数字图像技术 手写体汉字
丁晓青
作品数:268被引量:1,636H指数:22
供职机构:清华大学
研究主题:模式识别 汉字识别 线性鉴别分析 字符 字符识别
施鹏飞
作品数:309被引量:2,866H指数:27
供职机构:上海交通大学电子信息与电气工程学院图像处理与模式识别研究所
研究主题:数据挖掘 图像处理 图像分割 数据库 关联规则
江兴智
作品数:7被引量:20H指数:2
供职机构:上海交通大学电子信息与电气工程学院
研究主题:手写体汉字 图像处理 笔划提取 汉字笔划 字符切分算法