文本分类模型的介绍与评测

发表于：2013-7-31 13:36

作者：周中晟来源：51Testing软件测试网原创

软件测试杂志

文本

　　信息技术、Internet的发展，使人类从信息匮乏步入了信息过载的时代，在这个时代中，无论是信息的拥有者还是信息的消费者都遇到了很大的挑战，面对各种海量信息的复杂性和非结构性，如何高效、便捷地认知自己拥有的海量数据对象，是信息的拥有者一直在尝试和思考解决的问题。随着技术的发展人们对数据的认知已经从过去数据报表展示，回归到挖掘数据背后所反应的本质。

　　本文通过介绍数据挖掘应用中的文本分类模型的处理方法和过程，介绍了目前在我们的项目中使用的对文本分类的评测的方式方法，评测指标，以及评测方法的推广等相关问题。由于该领域评测方式的相关资料比较有限，所以在此抛砖引玉，希望有更多的人一起来将该领域的评测方法进行完善，也希望该领域的专家们能提出宝贵的意见，对理解错误之处加以斧正。

　　在本文分类领域常见的方法有：分类和聚类两种。分类和聚类不仅是文本分类处理中的常用手段，更是人工智能中比较常见的两种方法。

　　在文本分类当中，分类和聚类都是将对象归类的一个过程，但它们分别有自己擅长的领域。分类(classification ):是事先定义好类别，类别数不变，是一种已知类别情况，对不同文本进行分类的处理过程，通过找出描述并区分数据类或概念的特征规则或模型(或函数)，以便能够使用模型预测类标记未知的对象类。

……………………

查看全文请点击下载：http://www.51testing.com/html/73/n-849173.html

　　相对分类而言聚类则没有事先预定的类别，类别数不定的场景。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。主要处理过程是把对象向量化，通过数学建模计算各向量与质心的距离，不断的聚集迭代替换质心，直到收敛的过程。

　　分类适合类别或分类体系已经确定的场合，比如根据文章特征分类文章在门户中的类别；聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端或无人工参与分类的场合，比如搜索引擎结果后聚类(元搜索)等。

　　而具体到文本分类中，真正分类的过程仅仅是一小个步骤而已，它还需要做分词的处理，停词的提取，特征词的提取，无效句子的识别，关键句的抽取，近义词的替换，文本内容向量化，语料库的建立和维护等步骤。那说了那么多，那如何评测分类出来的结果好坏呢？下面举一个场景来说明我们在项目中使用的和计划实施的评测方法：

　　客户每天产生成千上万的反馈信息，通过编写模型算法将客户的反馈自动分类为A、B、C、D中业务类型。那么目标就是构造一个分类模型，将出现的文本分类成A、B、C、D四个类和其他（不可识别或不属于四类之外的其他）类别。

21/212 >

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选