多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统
来源: 教育部科技发展中心 发布时间: 2007-03-15 访问次数:
字体:

成果名称:多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统
申请单位:清华大学
鉴定编号: 鉴字[教QP2007] 第001号
鉴定日期:2007年1月29日
学 科:13电子通讯、14计算机

成果简介:(1000字以内,可公开部分)
随着全球信息化浪潮来临和我国西部大开发事业推进,必须有计划地解决蒙古文等多种民族文字及文档经扫描图像识别自动输入计算机的智能接口技术难题。在教育部、国家语委、国家自然科学基金委的支持下,清华大学与内蒙古大学、内蒙古师范大学协作研究开发成功了多体蒙古文(混排汉英)印刷文档识别系统,并结合清华大学已研制成功的的藏维文等文档识别研究成果,在世界上首次推出了统一平台上蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文及朝鲜文(混排汉英)印刷文档识别系统。
在多体蒙古文(混排汉英)印刷文档识别系统研究方面,根据蒙古文的实际特点和难点,采用基于字素的文本切分识别方案。主要技术特点如下:
1. 提出了一种基于统计鉴别分析的多字体多字号蒙古文字符识别的方法,对蒙古文的常见多种字体(白体、黑体、报体、哈旺体/楷体等二十余种字体)具有良好适应性,单字测试平均识别率达99%以上;
2. 提出并实现多字体蒙古文文本切分方法,在提取单词基线位置后,通过定义代价函数,综合分析字符几何位置、形状等多种信息,取代价函数极小值处作为切分点;提出了蒙汉英语种判别方法,结合汉、英文识别技术,实现蒙汉英混排文本识别。文本识别率可达96.8 %以上。
3. 具有蒙古文印刷文档版面分析方法,可分析处理文本、图片、表格区域。
4. 研制字符形码到Unicode标准蒙古文编码转换方法。
多体蒙古文(混排汉英)印刷文档识别系统系统主要技术指标达国际领先水平。
多体蒙古文(混排汉英)印刷文档识别系统与已有的藏、维、哈、柯、朝文识别系统综合集成在一起,形成了具有统一框架结构、人机界面、版面分析、图文对照编改等的统一平台少数民族文字识别系统,世界上首次全面解决了蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文以及它们和汉字、英文混排文本的识别难题,其主要技术指标达到了国际领先水平。
多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统为蒙藏维哈柯朝文纸介质文档经扫描识别转化为电子文档提供了有效的工具,将对少数民族印刷文档信息数字化发挥重要的作用。

相关信息
 ·多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统