文本分类模型的介绍与评测

发表于：2013-7-31 13:36

作者：周中晟来源：51Testing软件测试网原创

　　很显然在这个场景中不适合使用聚类算法，聚类算法只是将模型认为相似的类放到一起，对任意一条文本进行归类都需要将所有的文本放到一起聚一遍，这相当影响文本分类的效率，而且分类模型并不能告诉模型使用者放在一起的类到底是什么类，并且聚类模型会将所有出现的文本都分别放在各自相似的类中，对于一些噪音数据或者本来不属于任何类的数据来说这种分类是不合理的，因此这个场景中仅适合使用分类算法。假设开发工程师们针对这个场景开发了一个分类模型，但模型的好坏不得而知，好坏的程度更加无法量化（模型的处理一定是从粗到细，不断调优，不断迭代更新的过程），那如何评测这个模型的优劣，怎么驱动开发区做模型的优化工作，还是直接发布使用这个模型呢？

　　我们认为不论是使用何种分类算法，都是把属于某个类别的文本分到相应的类型，因此我们抽象了下边十一个指标来衡量和评价分类器的好坏：

　　分词器的正确性。分词器的正确分词对识别反馈反应的意图学习有很大的帮助。

……………………

查看全文请点击下载：http://www.51testing.com/html/73/n-849173.html

　　模型的可维护性和可扩展性

　　可维护性对于描述模型的维护成本有很大的帮助，通常配置文件组织越合理，配置项越简洁可维护性越强，可描述性越强，维护人员对维护越容易理解，模型越容易优化和迭代；可扩展性是描述一个模型的复用度的衡量指标，对于其他业务的处理是可以直接通过修改简单的配置复用还是需要重复的开发一套完全不同的算法框架，这是衡量一个模型是解决一个问题还是解决一类问题的重要指标。

　　模型的兼容性

　　兼容性主要是指模型是仅仅适合离单机处理还是可以同时支持分布式处理，这种能力对于海量数据处理有很大的帮助。

　　模型是否有自我学习能力

　　这个能力有助于不断的改变模型分类的准确率和召回率，具备这个能力意味着模型有自我提高的能力随着时间的积累可以由不准到准，由准到更加精准。

　　假设我们有10万属于A、B、C、D四种业务类型的反馈，我们先拿出8万已知分类的反馈来提供给分类器进行学习训练，另外2万的进行分类器的各项指标的检查和测评，除此之外，我们还会加入一些与四种分类毫无关系的其他业务类型的反馈和一些无效的语句，一同来检查模型分类的效果。之所以要有一定数据量的数据来评测，是因为我们希望这个评测结果有一定的统计学意义。

　　按照上述的评测方法，我们会作如下处理：

　　对分类结果中反馈的分词作相应的抽查，以检查对于一些特定含义的词，是否做了正确的分类，比如：旺铺、天天快递、天天特价，淘宝，直通车等分词有无被模型按照通用的分词逻辑分词成：旺铺、天天快递、天天特价、淘宝、直通车。以确保分类器的处理是与我们希望的处理逻辑相符。着重抽查的是分类错误和无法分类的部分的反馈的分词情况。

　　对停词和特征词做相应的抽查，以检查停词和特征词在特定的业务场景中划分是否合理，比如：在分类属于旺铺还是直通车问题的分类场景中类似：旺铺如何申请，直通车怎样报名等，客户反馈里的“如何”和“怎样”这类疑问词就应该被定义为停词。但在分类是属于旺铺类和直通车类的具体什么问题的场景中，“如何”和“怎样”就是一个特征词，他们表示的是客户不懂怎样参与这个具体问题。所以停词和特征词的处理的不好也会直接影响到分类的结果。同样也会着重的查看分类错误和无法分类部分的反馈的分词情况。

......

　　查看全文请点击下载：http://www.51testing.com/html/73/n-849173.html

22/2<12