算法测试之商品标签质量测试

发表于:2013-1-22 10:40

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:南蝶    来源:TaoBao QA Team

分享:

  基于tag推荐是独立于基于宝贝推荐和基于用户推荐的一个推荐算法。它分为两部分:商品标签和用户标签,可以通过tag做商品之间的关联,也可以做用户和商品之间的关联。目前关联推荐在商品标签算法上已经做了两版优化,优化效果还不错。算法采用的是机器学习方法,提取宝贝的训练特征并选择样本集,通过机器学习模型训练,得到一个好的训练模型,再对全网的商品进行训练产出商品标签数据。

  随着算法的两版优化,测试这边也积累了一些测试指标。

  1、标签去重

  一个宝贝的标题中可能会包含重复的词,如果算法没有对重复的分词去重,就会出现一个宝贝出现两个相同的标签。

  2、过滤停用词

  宝贝标题中会包含一些特殊符号,还会包含一些没有意义的标签,如:包邮、促销、打折、人气、清仓等等,这些词都需要过滤。目前停用词库中的词已经比较全了,当然词库是动态的,可以不断地往里添加停用词。

  3、过滤只有英文、数字、符号组成的词

  这样的词基本是一些货号之类的词,粒度太细,不太具有商品之间的关联关系,因此应该过滤。

  4、语义为产品类型-简单的词的分数排名

  每个宝贝都有一个词是确定描述这个宝贝的类型的,即通过这个词能知道这是个什么宝贝。这样的词的语义是:产品类型-简单。这样的词,它的分数应该是最高的(一些特殊类目下,可能品牌标签的分数更高一些)。

  5、品牌标签召回率

  品牌对于一个宝贝的重要程度和类目有很大的关系,比如数码类目品牌标签的重要性就很高,而像女装类目就会相对低一点。但是不管怎么说,将品牌标签能分出来是最先要做的事。测试品牌标签召回率首先要做的就是建立品牌标签词库,然后再看算法产出的品牌标签覆盖标签库的比率。

  6、标签召回率

  同品牌标签召回率,标签召回率同样是建立一个标签词库,然后看算法产出的品牌标签覆盖标签库的比率。

  7、训练模型精确性

  这个应该是算法开发同学自测点。一个模型是否合理精确,在结果上可以从4、5、6来评测。在算法层面上,可以通过标签输入输出分数结果差的平方根值的大小来判定。

  这些测试点最难的是标签库的建立。目前这边的标签库是人工建立的,由于全网的量太大,现在只是在叶子类目下选取1、2个建立。获取标签的途径可以是从运营那边得到的标签,甚至从外部购物网站得到的,可以从搜索那边得到,还可以人工抽取一些标签。标签词库是个动态建立的过程,算法产出的标签也可以加入标签库,不断优化,不断加入,最后形成一个比较完善的标签库。

《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号