表情盲测实践

发表于:2020-4-03 11:23

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:铲子哥    来源:搜狗测试

  小编前段时间做了表情类的评测,在这里和大家分享一下。
  背景介绍
  搜狗输入法在聊天过程中,可以发送表情来活跃气氛。这种表情可以通过搜索框进行搜索,也可以自动触发。针对表情,如何评测相关性以及和竞品的差距呢?
  
  评测目的
  1、了解和竞品的差距。
  2、发现问题。
  3、验证实验策略优劣。?
  评测方式选择
  由于表情是和搜索词息息相关的,且这种相关性通过机器很难判断出来,所以针对表情图的评测,业界一般采用的方法是人工评测。
  由于评测涉及到搜狗输入法产品和3家竞品,且不能让评测人员知道具体评测的是哪家产品,所以最终采用的是盲测。?
  盲测开展的步骤如下:
  评测资源支持:
  主要涉及到两个方面:
  1、评测词来源
  a) 采用7个维度(高频词、中频词、低频词、长尾词、超长尾词、新词、热词)随机选词。
  b) 每天每个维度选取一个词,累积选取20天。
  2、评测图来源
  a) 通过工具模拟人工操作,将竞品图和词关联并下载到本地。?
  评测方式:
  采用web页,将四款产品随机展示。?
  评测标准:
  将评测结果分类三大标准:
  1、强相关——三颗星。
  2、不相关——两颗星。
  3、无效图——一颗星。
  不同的标准通过选星来操作。且为了定位具体原因,每颗星对应有详细可选菜单。
  制定完标准后,需要给评测人员讲解标准,确保理解上没有问题,4个产品统一评测标准。?
  结果指标
  对于评测完的结果指标,主要有以下几个维度:
  1、关键词和图相关性。
  2、词类型和图相关性。
  3、前N张图相关性。
  4、不相关原因占比。
  5、问题图及具体原因比例。
  6、整体平均分(NDCG位置权重分,词平均分,图平均分)。?
  结果分析:
  针对结果指标的图表重点从以下角度进行分析:
  1、图重复率。
  2、无结果、少结果率。
  3、不相关内部原因占比(原词召回,分词召回,近义词召回等)。
  4、低相关性词分析。?

       本文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号