中文分词

上一篇 / 下一篇  2010-05-18 10:39:54 / 个人分类:我的测试

用于中文分词评测的语料有:

CKIP台湾中央研究院(721551 词次,训练集)
CityU香港城市大学(1092687 词次,训练集)
CTB美国科罗拉多大学(642246 词次,训练集)
NCC中国教育部国家语委(917255 词次,训练集)
SXU山西大学(528238词次,训练集)

用于中文命名实体识别评测的语料有:

CityU香港城市大学(1772202 字,训练集)
MSRA微软亚洲研究院(1089050字,训练集)
PKU北京大学(1833177 字,训练集)

用于中文词性标注评测的语料有:

CKIP台湾中央研究院(721551 词次,训练集)
CityU香港城市大学(1092687 词次,训练集)
CTB美国科罗拉多大学(642246 词次,训练集)
NCC中国教育部国家语委(535023 词次,训练集)
PKU北京大学(1116754 词次,训练集)

总则:

  1. 语料可以使用简体或繁体汉字。
  2. 语料可以采用GBK(Microsoft’s CP936) 或 BIG5(Microsoft’s CP950) 或 BIG5plus 或 BIG5/HKSCS 等不同编码格式,但是需要有相应的Unicode(UTF-16 little endian)版本,如过两个版本语料有所不同,则以Unicode版本为准。语料中的所有字符都必须包括在Unicode BMP中。
  3. 所有的阿拉伯数字拉丁字母标点符号都必须是全角字符。

A.用于中文分词的语料

  • 在训练语料和测试语料的标准切分文件中使用两个半角空格(ASCII: 0x20, Unicode: 0x0020)来分隔每个切分单元。半角空格不能在词语中出现,词语中如果需要出现空格一律使用全角空格(GBK: 0xA1A1, BIG5: 0x40A1, Unicode: 0x3000)。.
  • 测试语料是未经切分的生语料其中不应该出现半角空格(ASCII: 0x20, Unicode: 0x0020),如果测试语料中需要出现空格则应该是全角空格(GBK: 0xA1A1, BIG5: 0x40A1, Unicode: 0x3000).。
  • 语料中每一行为一个句子,行尾的标记是一个回车符(ASCII:0x0D, Unicode:0x000D)和一个换行符(ASCII: 0x0A, Unicode:0x000A)。

例(GBK):

B.用于命名实体识别的语料

1.训练语料以两列的形式提供,第一列为汉字,第二列为标记,标记的意义如下:

标记

意义

N

非命名实体字

B-PER

人名起始字

I-PER

人名非起始字

B-ORG

机构名起始字

I-ORG

机构名非起始字

B-LOC

地名起始字

I-LOC

地名非起始字

2.句子之间用空行隔开。

3.两列之间用半角空格(ASCII: 0x20, Unicode: 0x0020)隔开。

3.行尾的标记是一个回车符(ASCII:0x0D, Unicode:0x000D)和一个换行符(ASCII: 0x0A, Unicode: 0x000A)。

 

C.用于中文词性标注的语料

1.用于中文分词的训练语料和测试语料的标准切分文本的格式同用于切分的语料格式基本相同,用两个半角空格来分隔切分单元 (ASCII: 0x20, Unicode: 0x0020)。

2.词性紧跟在词后用半角“/”(ASCII: 0x2f, Unicode: 0x002f)来分隔。

2.所有的词性标记都应该使用半角的拉丁字符

例(GBK):
我们/r 把/p 它/r 栽/v 在/p 院子/n 偏/a 西南/nd 的/u 一个/mq 角落/n 上/nd 。/w

每份语料都将提供相应的XML版本。


TAG:

 

评分:0

我来说两句

Open Toolbar