1月29日,由教育部组织的"多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统"技术鉴定会在清华大学举行。该系统由清华大学丁晓青教授主持研制,由清华大学、内蒙古大学、内蒙古师范大学、西北民族大学、新疆大学等单位共同合作完成,是全球首款在统一平台上支持我国主要少数民族文字文档的识别系统。
在丁晓青教授的带领下,清华大学、内蒙古大学、内蒙古师范大学、新疆大学和西北民族大学的40多位科研人员参与系统研制,前后历时8年之久。项目组成员在多体蒙古文(混排汉英)印刷文档识别系统的基础上,综合集成了2002年完成的朝鲜文/韩文(混排汉英)文档识别系统、2003年完成的多字体印刷藏文(混排汉英)文档识别系统和2004年完成的维哈柯(汉英)阿(英)双向印刷文档识别系统,最终完成了具有谐和统一、方便各文种交换和应用的"统一平台少数民族文字识别系统"。
该系统在汉字和英文文档识别的基础上将我国最主要的四种类型六种少数民族文字,即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档识别综合集成在一个统一的平台系统中,使我国最主要的少数民族文字(混排汉英)文档能够自动识别输入计算机。系统的模块化结构,与国际接轨的内码表示,统一的人机交互界面、适应性强的版面分析图像处理,使系统具有良好的扩展能力,很容易扩展到所有各种少数民族文字和文档的识别自动输入计算机问题,可基本解决我国少数民族文字文档识别问题。同时该系统还支持阿拉伯文的识别。
最新完成的多体蒙古文(混排汉英)印刷文档识别系统能识别印刷多字体的蒙古文字符和文档,并能识别处理多字体蒙古文字符混排汉英的文档,是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的完整的蒙古文文档识别的实用系统。解决了多字体蒙古文汉英混排文本切分和识别问题。首先提出并实现多字体蒙古文字符识别方法;对于困难的蒙古文连写文本提出了利用多种信息得到最优字符切分点等方法,并结合汉字及英文识别技术,实现了蒙古文混排汉英印刷文本识别,文本切分识别率可达96.2%。
由倪光南院士领衔,何新贵院士、戴浩院士等多位信息处理及蒙藏维哈柯阿语言领域的专家组成的鉴定委员会认为,"多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统"首次在统一平台上解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题,实现了在统一平台上蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文、柯尔克孜文(混排汉英)文档识别的综合集成,其主要技术指标达到了国际领先水平。系统工作稳定,使用方便,文档齐全,为蒙、藏、维、哈、柯、朝(混排汉英)纸介质文档转化为电子文档提供了有效的工具,将促进我国少数民族语言文字的信息化。
教育部及国家自然科学基金委相关负责人出席了鉴定会。来宾还参观了清华大学电子系智能图文信息处理研究室。
|