首页 律师代理 仲裁立案 仲裁规则 典型案例 仲裁费用 仲裁法规 专题活动 下载专区
主页 > 通知公告 >
1.引言
目前使用的汉字有简体和繁体两大形式:中国大陆和新加坡等地使用简化字,我国港澳台地区和部分海外华人社区使用繁体字。简繁转换技术对汉字文化圈交流起到重要作用,广泛应用于新闻出版、文化教育、古籍数字化处理等领域。
本次简繁汉字智能转换系统评测的目的是:评估现有简繁汉字智能转换系统性能,在评测结果基础上对现有简繁汉字智能转换系统进行择优扶持,为落实海峡两岸经贸论坛确立的“简繁汉字智能转换系统”项目研发提供基础。同时,通过评测探索简繁转换新技术、新方法,并逐步建立完善简繁汉字智能转换技术的基础数据集和评测标准。
 
2.评测任务设置
本次简繁转换评测对简繁转换的两类核心任务进行评测: (1)一对多简繁字转换评测。简化字总表中共收2236个字。其中大多数简化字的意义和用法与对应的繁体字是一样的,具有一一对应关系,这种情况通过编码转换就可以正确处理。然而,还有相当一部分简化字对应多个繁体字,例如简化字“干”对应四个不同的繁体字“幹”“干”“乾”“榦”。一对多汉字的转换是汉字简繁转换的重点和难点。一对多简化字只有通过对文本进行语法和语义分析,利用语句甚至篇章的上下文语境才能将其正确转换为对应的繁体字。因此,一对多简繁汉字转换是一个值得研究的课题,对汉字简繁转换性能起到至关重要的作用。(2)简繁同实异名术语转换评测。由于海峡两岸各自按照自己的理解和习惯来定名,所以在术语方面存在着诸多不一致。例如,大陆将计算机领域的术语“software”翻译为“软件”,而台湾地区翻译为“軟體”。因此,如何识别术语并将其转换为正确的对应形式,也是简繁转换的核心问题之一。
基于上述讨论,本次评测的具体任务设置如下表所示:
任务号 转换类型 任务名称 任务描述
任务1 字转换 一对多简繁字转换评测 在给定的句子中,将具有多个目标繁体字的简化字转换为正确的繁体字
任务2 术语转换 简繁术语转换评测 给定一个句子,将指定术语转换为指定的目标地区(包括中国大陆和中国台湾)的形式
 2.1 一对多简繁汉字转换评测
针对一对多简繁汉字的转换,本评测针对给定数据集(以utf-8方式编码,全部为包含有一对多简体字的句子),要求参加评测的系统给出句子中指定简体字的目标繁体字。
给定数据格式:
<Doc>
  <Sent ID=0>
      <text>他对这件事毫无<待转换字>干</待转换字>劲</text>
</Sent>
<Sent ID=1>
      <text>是用<待转换字>干</待转换字>冰和金属录制的</text>
</Sent>

<Doc>
提交结果格式:
Id    SenID    Run-tag    TargetCharacter
  其中各部分解释如下:
Id: 任务编号(此任务编号为1)
SenID:句子编号
Run-tag:评测系统编号
TargetCharacter:目标繁体字
注意:不同字段以tab分割,下同
评价流程和评价指标:
主办方将会从所提供的待转换句子中抽取出一部分句子(不低于50%)作为最终的评价语料。评价指标为一对多简体字转换准确率:
一对多简化字转换准确率 = 评价语料中转换正确的字数目 / 评价语料中待转换的字数目
2.2 简繁同实异名术语转换评测
针对简繁同实异名术语的转换,本评测给定数据集(以utf-8方式编码,全部为包含有特定术语的句子),要求参加评测的系统给出句子中指定术语的指定目标地区(包括中国大陆和中国台湾)的对应术语。
给定数据格式:
<Doc>
  <Sent ID=0>
      <text><待转换术语>黑山</待转换术语>现任总统、社会主义者民主党候选人武亚诺维奇宣布自己赢得…</text>
      <目标地区>台湾</目标地区>
</Sent>
<Sent ID=1>
      <text>2010年10月4日,瑞典<待转换术语>卡羅琳學院</待转换术语>宣布將2010年度諾貝爾生理學</text>
      <目标地区>大陆</目标地区>
</Sent>

<Doc>
提交结果格式:
Id    SenID    Run-tag    TargetWord
  其中各部分解释如下:
Id: 任务编号(此任务编号为1)
SenID:句子编号
Run-tag:评测系统编号
TargetWord:目标术语
注意:不同字段以tab分割,下同
评价流程和评价指标:
主办方将会从所有提供的待转换句子中抽取出一部分句子(不低于50%)作为最终的评价语料。评价指标为术语转换准确率:
术语转换准确率 = 评价语料中转换正确的术语数目 / 评价语料中待转换的术语数目
 
3.评测日程
2013.2.25:发布评测大纲
2013.2.26-2013.3.20:征集参评单位(提交报名表)
2013.3.20:报名截止
2013.3.20:公布评测数据
2013.3.20-3.22:参评单位运行系统,并提交评测结果
2013.3.22:评测结果提交截止
2013.3.22 - 3.26:组织方对提交结果进行评测
2013.3.27:向参评单位返回各自系统的评测结果
2013.3.29: 发布总体评测报告
 
4.评测组织
评测主办单位
教育部语言文字信息管理司
中国中文信息学会
评测支持单位
中国科学院软件研究所
中国科学院自动化研究所
中国科学院计算技术研究所
   北京大学
北京师范大学
教育部语言文字应用研究所
评测资源提供单位
中国科学院软件研究所
中国科学院自动化研究所
中国科学院计算技术研究所
北京大学
北京师范大学
教育部语言文字应用研究所
 
5.报名方式
报名单位到http://www.cipsc.org.cn/chcontent.php?&xuhao=81处下载报名表,填写盖章之后发送电子版本及扫描件到下面的邮件地址zste2013@126.com
 
发布日期:2013-02-25 信息来源: 未知 字号:[ ]
【打印本页】 【关闭窗口】
 
网站帮助 | 版权声明 | 设为首页 | 加入收藏
主办单位:济南仲裁网-济南专业仲裁律师
地址:济南市历下区经十东路9777号鲁商国奥城4号楼42层 电话:0531-88118181 邮箱:klawyer@163.com 邹维高律师 手机:18605317173