文本分类模型的介绍与评测

发表于:2013-7-31 13:36  作者:周中晟   来源:51Testing软件测试网原创

字体: | 上一篇 | 下一篇 |我要投稿 | 推荐标签: 软件测试杂志 文本

  信息技术、Internet的发展,使人类从信息匮乏步入了信息过载的时代,在这个时代中,无论是信息的拥有者还是信息的消费者都遇到了很大的挑战,面对各种海量信息的复杂性和非结构性,如何高效、便捷地认知自己拥有的海量数据对象,是信息的拥有者一直在尝试和思考解决的问题。随着技术的发展人们对数据的认知已经从过去数据报表展示,回归到挖掘数据背后所反应的本质。

  本文通过介绍数据挖掘应用中的文本分类模型的处理方法和过程,介绍了目前在我们的项目中使用的对文本分类的评测的方式方法,评测指标,以及评测方法的推广等相关问题。由于该领域评测方式的相关资料比较有限,所以在此抛砖引玉,希望有更多的人一起来将该领域的评测方法进行完善,也希望该领域的专家们能提出宝贵的意见,对理解错误之处加以斧正。

  在本文分类领域常见的方法有:分类和聚类两种。分类和聚类不仅是文本分类处理中的常用手段,更是人工智能中比较常见的两种方法。

  在文本分类当中,分类和聚类都是将对象归类的一个过程,但它们分别有自己擅长的领域。分类(classification ):是事先定义好类别,类别数不变,是一种已知类别情况,对不同文本进行分类的处理过程,通过找出描述并区分数据类或概念的特征规则或模型(或函数),以便能够使用模型预测类标记未知的对象类。

……………………

查看全文请点击下载:http://www.51testing.com/html/73/n-849173.html

  相对分类而言聚类则没有事先预定的类别,类别数不定的场景。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。主要处理过程是把对象向量化,通过数学建模计算各向量与质心的距离,不断的聚集迭代替换质心,直到收敛的过程。

  分类适合类别或分类体系已经确定的场合,比如根据文章特征分类文章在门户中的类别;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端或无人工参与分类的场合,比如搜索引擎结果后聚类(元搜索)等。

  而具体到文本分类中,真正分类的过程仅仅是一小个步骤而已,它还需要做分词的处理,停词的提取,特征词的提取,无效句子的识别,关键句的抽取,近义词的替换,文本内容向量化,语料库的建立和维护等步骤。那说了那么多,那如何评测分类出来的结果好坏呢?下面举一个场景来说明我们在项目中使用的和计划实施的评测方法:

  客户每天产生成千上万的反馈信息,通过编写模型算法将客户的反馈自动分类为A、B、C、D中业务类型。那么目标就是构造一个分类模型,将出现的文本分类成A、B、C、D四个类和其他(不可识别或不属于四类之外的其他)类别。


21/212>

评 论

论坛新帖

顶部 底部


建议使用IE 6.0以上浏览器,800×600以上分辨率,法律顾问:上海信义律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2021, 沪ICP备05003035号
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪公网安备 31010102002173号

51Testing官方微信

51Testing官方微博

扫一扫 测试知识全知道