2004 年度命名实体识别评测大纲

上一篇 / 下一篇  2010-04-12 15:17:23 / 个人分类:我的测试

 

一、评测对象
本次评测的对象是现代汉语(包含大陆的简体文本和港澳台地区的繁体文
本)的命名实体(包含命名实体、时间表达式及数量表达式)识别系统中的核心
技术。
二、评测内容
本次评测主要是对识别的正确率进行评测。
1.命名实体识别评测
本次测试命名实体、时间词、数字词的识别。具体词类的判断规则参考
附录中的说明。
(1) 命名实体(ENAMEX)
命名实体是文本中的固有名称、缩写及其他唯一标识。子类包括组织名
(ORGANIZATION),人名(PERSON),地名(LOCATION)。例如:“世
卫组织”、“张三丰”、“淮海路甲一号”。
(2) 时间表达式(TIMEX)
时间表达式为文本中的相对或绝对时间短语。子类包括日期(DATE)和时
间(TIME)。例如:“1993 年3 月”、“早晨5 点30 分”。
(3) 数值表达式(NUMEX)
本次评测中的数值表达式特指文本中出现的用于表示数值的数字短语。
例如:“300”、“30%”、“五倍”。
2.评测语料的选材原则
本次评测将选择近期流通广泛的图书、报纸、期刊和网络等载体作为语
料的来源,以期反映当代汉语的最新面貌,涉及到的主题有政治、经济、体
育、交通、旅游、教育等。语料的选择考虑到其平衡性、科学性和代表性。
三、评测方法
1.评测方式
本次评测为现场评测。采用自动评测与人工辅助相结合的方式进行。
2.评测步骤:
(1) 预先提供测试样例
(2) 在评测单位统一提供的评测环境上安装被测系统
(3) 评测单位给出测试数据
(4) 运行被测系统,得出测试结果
(5) 评测单位运行自动测试程序,统计出评测结果
(6) 评测单位事后对自动评测结果进行分析和核对,对其中难以进行自动
评测的内容进行人工分析确定,并公布评测结果
3. 评测指标
分别对简体和繁体文本的识别进行打分。每种文本又分别对命名实体、
组织名、地名、人名、时间表达式、数值表达式进行打分。
评测采用三个指标:正确率、召回率、F 值。各指标定义如下:
(1) 正确率
表示识别出的词语中出现在标准结果中的词语比例,计算公式如下:
×100%
识别出的词语总数
识别出的词语中出现在标准结果中的词语数
正确率=
(2) 召回率
表示标准结果中被正确识别出的词语比例,计算公式如下:
×100%
标准结果中的词语总数
识别出的词语中出现在标准结果中的词语数
召回率=
(3) F1 值
是正确率和召回率的调和平均数,计算公式如下:
正确率+召回率
正确率召回率
值=
2× × F1
4.输入输出文件格式
被测系统读入一个脚本文件,脚本文件含若干行,每行由三个部分组成,
分别为繁体简体(S/T)、输入文件名、输出文件名。举例如下:
S source\a1.txt result\r_a1.txt
T source\b1.txt result\r_b1.txt
输入文件为一组简体及繁体的标准的纯文本文件,编码方式为Unicode。
输出文件为标准的文本格式,编码方式为Unicode。内容是在原文的基础
上对识别出的词语进行标注。识别出的词语标记方法如下。
利用以下标记括起识别出的命名实体、时间表达式、数值表达式:
<大类 TYPE=”子类”>字符串</大类>
其中,大类名为ENAMEX、TIMEX、NUMEX 之一。
ENAMEX 的子类包括ORGANIZATION、PERSON 和LOCATION。TIMEX
的子类包括DATE 和TIME。NUMEX 没有子类。
以下是输出文件的样例:
<ENAMEX TYPE=”PERSON”> 格林</ENAMEX> 最近的状态非常不错,<TIMEX
TYPE=”DATE”> 两周前</TIMEX> 便曾在<ENAMEX TYPE=”LOCATION”> 洛杉矶
</ENAMEX> 跑出过<NUMEX>9</NUMEX> 秒<NUMEX>86</NUMEX> 的好成绩, 这
<NUMEX>一</NUMEX>次, 借助每秒<NUMEX>3.7</NUMEX>米的风速, 他追平了
<ENAMEX TYPE=”PERSON”>蒙哥马利</ENAMEX><TIMEX TYPE=”DATE”>2002 年9 月
</TIMEX>在<ENAMEX TYPE=”LOCATION”>巴黎</ENAMEX>创造的男子<NUMEX>百
</NUMEX>米世界纪录。
四、评测环境
本次评测环境包括:操作系统为Windows2000,硬件配置不低于:P4 1GHz,
256M 内存,40G IDE 硬盘。
附录 命名实体识别规范
1 命名实体识别任务
命名实体任务由三个子任务组成(命名实体、时间表达式、数字表达式)。被标注的表
达式为命名实体(组织、人、地点)、时间(日期、时间)及数量。
1.1 所有类型通用的规则
(1)带有省略成分的多个实体
多 个 实 体 连写, 有共用成分的时候标记为一个实体, 例如“ <ENAMEX
TYPE=”LOCATION”>南北美</ENAMEX>”、“<NUMEX>20 到30 倍</NUMEX>”、“<TIMEX
TYPE=”TIME”> 凌晨三四点钟</TIMEX> ”、“ <NUMEX> 二十七八</NUMEX> 岁”、
“<NUMEX>1~2 成</NUMEX>”、“<TIMEX TYPE=”DATE”>6 月3、4 号</TIMEX>”。没
有共用成分的时候分别标记, 例如“ <ENAMEX TYPE=”LOCATION”> 北京
</ENAMEX><ENAMEX TYPE=”LOCATION”>上海</ENAMEX> ”、“<NUMEX>二十倍
</NUMEX>或<NUMEX>三十倍</NUMEX>”。
(2)时间或者数值范围
利用两个时间或数值表示一个范围的短语分开标记,例如“<TIMEX TYPE=”TIME”>
八点</TIMEX>到<TIMEX TYPE=”TIME”>九点</TIMEX>”、“<NUMEX>30</NUMEX>元到
<NUMEX>50</NUMEX>元”。
2 命名实体
命名实体是对某一特定人、组织、地点、事件等的固有名、缩写或其他特有标识。这次
评测中,我们只测试人、组织、地点三类命名实体。
2.1 适用于所有类型的规则
(1)一个实体嵌套在另一个实体中
当一个实体是在另一个实体的一部分时,只标记大的实体,而不标记嵌套的实体。
例如:“<ENAMEX TYPE=”ORGANIZATION”>华沙条约组织</ENAMEX>”。
(2)支配结构
当两个实体通过明确的支配词呈支配关系的时候,两个实体分别标记。例如,
“ <ENAMEX TYPE=”LOCATION”> 联合国</ENAMEX> 的<ENAMEX
TYPE=”LOCATION”>安理会</ENAMEX>”。但是,如果是接续结构则标记为一个。例如,
“<ENAMEX TYPE=”LOCATION”>联合国安理会</ENAMEX>”。
(3)实体的别名
用于表示特定实体的别名、昵称、简称、缩写都是实体名。例如,“<ENAMEX
TYPE=”ORGANIZATION”> 火箭</ENAMEX> ” ( 指休斯顿火箭队) 、“ <ENAMEX
TYPE=”ORGANIZATION”>中共</ENAMEX>”、“<ENAMEX TYPE=”ORGANIZATION”>
IBM</ENAMEX>”、“<ENAMEX TYPE=”PERSON”> 老张</ENAMEX>”、“<ENAMEX
TYPE=”PERSON”>王老</ENAMEX>”。
(4)非特定的称呼、短语不是实体名。例如,“我公司郑重宣布…”中的“我公司”、
“我国申报了…”中的“我国”、“公司决定…”中的“公司”、“党委批准了…”中的“党委”
都是特定环境下特指的实体代称,不能认定为实体名。“卖炭翁”不是人名。
2.2 适用于组织名的规则
组织包含机构、企事业、运动队、团体、多国组织、党派、联盟等。
(1)用于指定组织类型的词
组织名中用于指定组织类型的“公司”、“队”等词是组织名的一部分。例如,“<ENAMEX
TYPE=”ORGANIZATION”> 世界卫生组织</ENAMEX> ” 、“ <ENAMEX
TYPE=”ORGANIZATION”>IBM 公司</ENAMEX> ” 、“ <ENAMEX TYPE=”
ORGANIZATION”>北京队</ENAMEX>”。
(2)建筑物和组织
仅有当建筑物名用于表示驻在的组织的时候,才会被标记为组织名,否则不标记。例如
“五角大楼”,当用于表示“美国国防部”时才被标记为组织名,如“<ENAMEX
TYPE=”ORGANIZATION”>五角大楼</ENAMEX>声称…”,而在“飞机撞毁了五角大楼”
中的不标记为组织名。
(3)事件和组织
事件不作为组织标记,例如“第 27 届奥林匹克运动会”不标记,但是和事件相关的组
织应该标记,例如“<ENAMEX TYPE=”ORGANIZATION”>北京奥组委</ENAMEX>”。
2.3 适用于人名的规则
人名包括现实或者虚构的特定人或拟人的固有名。人名包括汉名、少数民族人名、日本
人名、译名、笔名等。例如,“<ENAMEX TYPE=”PERSON”>张三丰</ENAMEX>”、
“ <ENAMEX TYPE=”PERSON”> 帕巴拉· 格列朗杰</ENAMEX> ”、“ <ENAMEX
TYPE=”PERSON”> 巴根</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 佐藤
</ENAMEX>”、“<ENAMEX TYPE=”PERSON”>中曾根康弘</ENAMEX>”、“<ENAMEX
TYPE=”PERSON”>卡尔·刘易斯</ENAMEX>”、“<ENAMEX TYPE=”PERSON”>茅盾
</ENAMEX>”、“<ENAMEX TYPE=”PERSON”>陈方安生</ENAMEX>”。
(1)昵称和谥号
用于表示特定人物的昵称或者称号、谥号、绰号作为人名,例如“<ENAMEX
TYPE=”PERSON”> 范文正公</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 清圣祖
</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 刘罗锅</ENAMEX> ”、“ <ENAMEX
TYPE=”PERSON”> 孔子</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 至圣先师
</ENAMEX>”。
(2)用于表示家族
当人名用于表示家族的时候,作为人名标记。这里用于表示姓氏的“氏”包含在人名中。
例如“<ENAMEX TYPE=”PERSON”>蒋氏</ENAMEX>父子”。
(3)用于表示世代的词
名字中用于表示世代、年龄的特定用词作为名字的一部分。例如,“<ENAMEX
TYPE=”PERSON”>伊丽莎白二世</ENAMEX>”、“<ENAMEX TYPE=”PERSON”>老张
</ENAMEX>”。
(4)头衔和称呼
名 字 前 或 后的职位、角色称呼不作为名字的一部分。例如:“ <ENAMEX
TYPE=”PERSON”>王</ENAMEX>局长”、“<ENAMEX TYPE=”PERSON”>李</ENAMEX>
同志”。但是,由姓(可能是单姓、双姓、复姓)及一个字构成的称呼被认为是一个完整的
名字。儿化情况按没有“儿”的情况进行处理。例如,“<ENAMEX TYPE=”PERSON”>李老
</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 王局</ENAMEX> ”、“ <ENAMEX
TYPE=”PERSON”> 张哥</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 王婆
</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 刘头儿</ENAMEX> ”、“ <ENAMEX
TYPE=”PERSON”> 老李头儿</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”> 高氏
</ENAMEX>”。
(5)含名字的其他实体
当政治名词、定律、疾病、奖励、品牌等其他专有名词中包含人名时,这些人名不作为
人名标记。例如,“马克思主义”、“赫尔姆斯·伯顿法”、“费马大定理”、“哥德巴赫猜想”、
“诺贝尔奖”、“王老吉凉茶”、“吴冠中画集”。
(6)用年号指代的帝王名
用年号指代的帝王名,例如“康熙”。当可以明确确定表示的是帝王的时候标记为人名。
例如“<ENAMEX TYPE=”PERSON”>康熙</ENAMEX>大怒…”,但是“康熙年间”中的“康
熙”不标记为人名。
(7)名字中的讳字
特殊的,名字中隐讳的形式,作为名字,例如“张某”、“李某某”、“刘×”、“张某人”,
但是用数字、干支等代指的不是名字,例如“某甲”、“老三”。
2.4 适用于地名的规则
地名包含天体、大陆、国家、省、县、城市、地区、区、镇、村、邻居、高速公路、街
道、街道地址、洋、海、海峡、海湾、运河、岛、湖、国家公园、山等地理位置、区域,虚
构或者神话的地点,或者特指的建筑物。
(1)嵌入在其他实体中的地名
嵌 入 或 者 限 定 某 一 个 其 他 实 体 的 地 名 不 单 独 标 记 , 例 如 “ <ENAMEX
TYPE=”ORGANIZATION”> 美国福特公司</ENAMEX> ”、“ <ENAMEX TYPE=”
ORGANIZATION”>微软中国公司</ENAMEX>”。
(2)连续的地名
当出现连续的地名的时候,这些地名分别标记,而和它们之间是否存在从属关系无关。
例如“<ENAMEX TYPE=”LOCATION”>中国</ENAMEX><ENAMEX TYPE=”LOCATION”>
广东</ENAMEX> ”、“ <ENAMEX TYPE=”LOCATION”> 科</ENAMEX><ENAMEX
TYPE=”LOCATION”>伊</ENAMEX>边境”。
(3)用于表明地名类型的固有后缀
用 于 表 明 地 名 类 型 的 固 有 后 缀 作 为 地 名 的 一 部 分 。 例 如 “ <ENAMEX
TYPE=”LOCATION”>长江</ENAMEX>”、“<ENAMEX TYPE=”LOCATION”>乌拉尔山
</ENAMEX>”、“<ENAMEX TYPE=”LOCATION”>巴拿马城</ENAMEX>”、“<ENAMEX
TYPE=”LOCATION”>北京市</ENAMEX>”。但是非固有的部分不能作为地名的一部分。例
如“<ENAMEX TYPE=”LOCATION”>长江</ENAMEX>北岸”中的“北岸”、“<ENAMEX
TYPE=”LOCATION”>北京</ENAMEX>市郊”中的“市郊”。
(4)特定别名
用 于 表 示 某 一 地 名 实 体 的 特 定 别 名 作 为 地 名 标 记 。 例 如 “ <ENAMEX
TYPE=”LOCATION”> 大陆</ENAMEX> ”( 特指中国大陆)、“ <ENAMEX
TYPE=”LOCATION”> 亚太</ENAMEX> ”( 亚洲、太平洋)、“ <ENAMEX
TYPE=”LOCATION”>西半球</ENAMEX>”、“<ENAMEX TYPE=”LOCATION”>亚马逊
</NAMEX>”。但是,非特定的地点或者非地点性质的不能作为地名标记,例如“西部大开
发”中的“西部”、“发展中国家”。
(5)含时间标记的地名
含 时 间 标 记的地名中的时间词不包含在地名中, 例如“ 前<ENAMEX TYPE
=”LOCATION”>苏联</ENAMEX>”中的“前”。
(6)特定的建筑物
具有特指含义的建筑物名作为地名使用时标记为地名,例如“<ENAMEX TYPE
=”LOCATION”>天安门</ENAMEX>”、“<ENAMEX TYPE =”LOCATION”>革命军事博物馆
</ENAMEX>”、“<ENAMEX TYPE =”LOCATION”>卢沟桥</NAMEX>”。
非特定的建筑物不标记,例如“博物馆”、“城墙”。
3 时间表达式
时间表达式是用于表达特定时间点或者时间范围的短语。它分为两类:时间和日期,其
中时间用于表示精确到一天以内的时间,而日期则是精确到某天以上范围的时间。
3.1 通用的规则
(1)相对时间
相对时间需要标记,例如“<TIMEX TYPE=”DATE”>两天前</TIMEX>”、“<TIMEX
TYPE=”TIME”> 昨晚</TIMEX> ”、“ <TIMEX TYPE=DATE> 昨天</TIMEEX><TIMEX
TYPE=”TIME”>晚上</TIMEX”。
(2)用于修饰时间的词
用于修饰时间的词或者短语不作为时间的一部分,例如“大约<TIMEX TYPE=”TIME”>
三点半</TIMEX>”中的“大约”。
(3)不能准确表示时间的词以及基于事件的时间
某些不能准确表示时间的词以及基于事件的时间不作为时间标记,例如“刚才”、“一会
儿”、“几天来”、“战前”、“解放前”、“成天”。
(4)用于表示时区的短语
时间中用于表示时区的短语作为时间的一部分,例如“<TIMEX TYPE=”TIME”>芝加哥
时间8 点</TIMEX>”、“<TIMEX TYPE=”TIME”>美国东部时间5 月31 日</TIMEX>”。
(5)用于表示日历或者时间表的时间短语
用于表示特定时间范围的时间短语标记为时间。例如“<TIMEX TYPE=”TIME”>1990
财政年度</TIMEX>”、“<TIMEX TYPE=”TIME”>八五</TIMEX>计划”。
(6)不是时间的类时间短语
不 是表示时间长度的短语形式上类似于时间, 但是不标记时间, 例如
“<NUMEX>1</NUMEX>小时<NUMEX>10</NUMEX>分”、“<NUMEX>3</NUMEX>天”、
“<NUMEX>三</NUMEX>个月”。
3.2 用于时间的规则
(1)用小时、分钟、秒等时间单位表示的时间
准确表示小时或者分钟的时间短语,例如“<TIMEX TYPE=”TIME”>10 点</TIMEX>”、
“ <TIMEX TYPE=”TIME”> 五点半</TIMEX> ”、“ <TIMEX TYPE=”TIME”> 下午两点
</TIMEX>”、“<TIMEX TYPE=”TIME”>21:30</TIMEX>”。
(2)用于表达特定时间的词
某些用于表达特定时间的词,例如“<TIMEX TYPE=”TIME”>午夜</TIMEX>”、
“<TIMEX TYPE=”TIME”>中午</TIMEX>”、“<TIMEX TYPE=”TIME”>凌晨</TIMEX>”、
“<TIMEX TYPE=”TIME”>早上</TIMEX>”。
3.3 用于日期的规则
(1)表达到日、星期、旬、月、季度、年、年代、世纪的时间短语
表达到日、星期、旬、月、年、年代、世纪的时间短语标记为日期,例如:“<TIMEX
TYPE=”DATE”>4 月5 日</TIMEX>”、“<TIMEX TYPE=”DATE”>星期三</TIMEX>”、
“ <TIMEX TYPE=”DATE”> 五月上旬</TIMEX> ”、“ <TIMEX TYPE=”DATE”>8 月
</TIMEX>”、“<TIMEX TYPE=”DATE”>春</TIMEX>”、“<TIMEX TYPE=”DATE”>1990 年
</TIMEX> ”、“ <TIMEX TYPE=”DATE”> 上个世纪80 年代</TIMEX> ”、“ <TIMEX
TYPE=”DATE”>19 世纪</TIMEX>”。
(2)节假日
节假日被标记为时间,例如“<TIMEX TYPE=”DATE”>去年春节</TIMEX>”、“<TIMEX
TYPE=”DATE”>端午节</TIMEX>”。
(3)年号
年号作为日期标记。例如“<TIMEX TYPE=”DATE”>康熙年间</TIMEX>”、“<TIMEX
TYPE=”DATE”>康熙三年</TIMEX>”、“<TIMEX TYPE=”DATE”>贞观</TIMEX>之治”。
4 数值表达式
数值表达式是用于表示数字或者数字范围的短语。标记的数值表达式为所有数值含义的
数字短语。
4.1 数值的规则
(1)数字的表示
数字的表示包括阿拉伯数字、汉字小写、汉字大写形式、用于表示“二”的“两”、小
数点、用于表示小数点的“点”。例如“<NUMEX>30<、NUMEX>”、“<NUMEX>一百二十
</NUMEX> ”、“ <NUMEX> 拾贰</NUMEX> 元”、“ <NUMEX> 三点四</NUMEX> ”、
“<NUMEX>70 点3</NUMEX>”。
(2)数字出现在成语等之中
数字作为成语、习语、其它实体的一部分的时候不作为数字标记,例如:“七上八下”、
“九重天”、“九曲<ENAMEX TYPE=”LOCATION”>黄河</ENAMEX>”、“<ENAMEX
TYPE=”LOCATION”>九寨沟</ENAMEX>”。
(3)表示不确定数字及数字范围
表 示 不 确 定 数 字 的 修 饰 词 不 是 数 字 表 达 式 的 一 部 分 , 例 如 “ 大 约
<NUMEX>30</NUMEX> 元”、“ 几<NUMEX> 十</NUMEX> 块钱”、“ <NUMEX>30
</NUMEX>元以上”、“超过<NUMEX>20%</NUMEX>”、“成<NUMEX>百</NUMEX>人”。
(4)表示倍数或者分数的数字短语
当数字用于表示倍数、分数时,相应的“倍”、“百分之”、“成”、“分之”等需要标记。
例如“<NUMEX>3 点5 倍</NUMEX>”、“<NUMEX>百分之三十三</NUMEX>”、“占
<NUMEX> 5 成</NUMEX>”、“<NUMEX>三分之一</NUMEX>”。
(5)表示序数的“第”也是数词的一部分。
(6)电话号码、邮政编码等数字形式都标记为数词。


TAG:

 

评分:0

我来说两句

Open Toolbar