简繁智能转换

汉字简繁文本智能转换系统 官方博客
汉字简繁文本智能转换系统提供了字、词、术语、标点等不同层次的转换功能,以及网页转换服务,转换准确率高于国内外同类产品。
厦门大学自然语言处理实验室出品

汉字简繁文本智能转换系统研发历程

中华文明是世界上最古老、持续时间最长的文明。汉字作为中华文化传承的重要载体,是两岸经贸文化交流的媒介,也是两岸同根同源的重要标志。由于历史原因,两岸使用不同的汉字系统,即:中国大陆地区以简化字为规范,而台湾地区沿袭繁体字。两套系统虽同源但存在一定差异,造成两岸民众交流的不便。随着两岸交流的日益频繁,这一问题逐渐突显出来。

客观认识汉字在两岸使用的历史和现状,求同存异,研发一个可靠的汉字简繁文本智能转换系统已成为当务之急。该系统的成功研发将有效减少两岸文字交流障碍,更有助于促进两岸经贸文化合作。2009年第五届两岸经贸文化论坛上,两岸代表就“加强两岸文化交流合作,共同传承和弘扬中华文化”形成了一份“共同建议”,明确提出了两岸共同研发汉字简繁文本智能转换系统这一任务。

为此,教育部、国家语委高度重视,于2012年启动了汉字简繁文本智能转换系统项目,并委托中文信息学会采用公开评估测试的形式面向全社会招投标。厦门大学史晓东教授带领的科研团队在此次评测中以优异的成绩胜出。国家语委经过反复考察和研究,最终于2013年5月确定由厦门大学牵头,联合教育部语言文字应用研究所、北京师范大学共同承担“汉字简繁文本智能转换系统”的研发任务。

作为大陆距离台湾最近的重点大学,厦门大学在对台交流合作方面具有得天独厚的地理条件和难以替代的人文优势。长期以来,厦门大学在台湾研究领域积累了丰硕的研究成果。近年来,厦门大学相继成立了台湾研究中心、两岸关系和平发展协同创新中心、海峡两岸发展研究院和两岸书法研究中心等科研机构。

史晓东教授所领导的厦门大学自然语言处理实验室,长期以来一直从事中文信息处理、机器翻译等领域的研究,积累了深厚的研究基础,在国内具有较高的知名度,多次承担国家自然基金项目、支撑计划、863项目等国家级课题,取得了一系列优秀的理论和应用成果。

教育部语言文字应用研究所、北京师范大学文学院均是国内长期从事语言文字应用研究的学术机构,为此次“汉字简繁文本智能转换系统”研发提供了坚实的语言资源方面的支持。

国内外已有一些简繁转换系统。但遗憾的是,现有的这些系统(包括一些商用系统)准确率都不高,存在不少用字错误的情况,无法实现可靠的自动转换。造成这些问题的主要原因是简繁两套汉字系统之间的复杂对应关系,不少常用简体字都同时对应不只一个繁体字。要正确处理这些汉字的转换,转换程序必须如人一样能正确“运用”上下文信息。

为有效解决这一问题,承担系统开发工作的厦门大学自然语言处理实验室充分发挥自身技术优势,将先进的机器翻译模型应用于汉字简繁文本转换,极大提高了转换准确率。

同时,来自三个单位的研究人员还共同协作,构建了简繁对应字表、两岸对应词表、繁体语料库等数据资源并针对台湾汉字使用情况做了深入、细致的研究,确保了系统最终的转换质量。

在一年的研发过程中,国家语委派员多次来到厦门大学指导工作,有效推动了项目的顺利开展。

经过为期一年的不懈努力,来自厦门大学、教育部语言文字应用研究所和北京师范大学的研究人员不负众望,成功完成了一套功能完整、准确率达到世界领先水平的高质量汉字简繁文本智能转换系统。系统提供了字、词、专业术语、标点等层次的多种转换选项供用户选择。同时,系统还提供了网页转换服务,能实现大陆简体网站的全站简繁转换功能。经中文信息学会评测,该系统在字级别的转换中,准确率高达99.991%, 远高于目前国内外的同类系统。

2014年7月31日,“汉字简繁文本智能转换系统”项目鉴定会在厦门大学隆重召开。与会专家学者一致认为,“汉字简繁文本智能转换系统”的研究方法科学,技术路线先进,简繁汉字转换准确率较国内外同类系统有较大提高,且系统功能丰富、并发实时处理能力强,可满足实际应用中的不同转换需求,研究成果处于国际领先水平

“汉字简繁文本智能转换系统”的推广应用将方便两岸民众沟通、促进两岸文化交流,对传承和弘扬中华文化、促进两岸经济文化教育等各领域发展具有重要意义。系统发布后供社会免费使用。

“自强不息,止于至善。”“汉字简繁文本智能转换系统”项目组将在国家有关部门的指导和支持下,按照两岸语言文字交流与合作协调小组‘加强交流、增进共识、求同化异、便利应用’的原则,加强与台湾业界同行的交流合作,继续完善系统功能,进一步提高系统性能,为促进海峡两岸文化交流和实现中华民族伟大复兴贡献自己的绵薄之力。

评论