keep thinking,keep sharing

读书笔记——百度大数据质量保障方案探索

上一篇 / 下一篇  2015-03-03 15:10:16 / 个人分类:读书笔记

1.质量保障体系建设
2.数据测试-系统正确仅是第一步,还需诸多额外工作
tips:传统的功能测试,通常重点在于功能,用有限的数据只要覆盖到功能即可。但是数据测试功能正确是基本前提,还要覆盖数据的多样性来检查数据的正确性

3.BAIDU测试团队的基础技术积累:测试设计,领域积累,工具,自动化,持续集成。需要探寻新的**。
tips:看看百度的测试团队的积累,对比自己的团队。
4.提供“数据测试体系建设”的解决方案:
1)定义数据质量标准
2)提供实施案例参照
3)形成体系快速复用
5.大数据带来的测试挑战
1)复杂算法
2)无验收标准
3)复杂数据
4)超大数据量
5)平台与应用
6)基础架构
6.算法测试的常用手段
1)常规功能测试:功能测试,数据驱动、蜕变;异常测试,容错、抗压、死锁、健壮性;算法特性:例如线性递增性
2)非功能性测试:基本指标,例如吞吐,并发,时延;伸缩性,例如算法复杂度,性能拐点;资源耗损,计算密集型还是存储密集型
3)其他常用方法:同类算法的交错验证;引入类似真实场景,对算法系统端对端测试;建设获取大数据样本的能力
7.大数据应用的质量保障
应用:推荐,预测,数据挖掘,机器学习
质量标准:相关性,重复度,品类覆盖,排序
持续评估:低成本例行评估,采样,众包
tips:低成本例行评估需要思考,是在日常中比较有用的。
小流量实验支持
研发过程支持,全流程工具链建设
运营支持,数据分析,竞品分析
8.基础数据的质量保障
9.数据类项目研发考虑
1)平台与应用共存
2)渐进放大数据量
3)基于模型生成与模糊数据
tips:模糊数据可能是只生成一些随机的数据?
4)上线后的持续校验
(渐进式验证,关注流程的衔接、问题定位与回退)
9.复杂系统的特殊考虑
1)不稳定场景:多线程并发,竞争冒险,异步乱序
2)异常场景:硬件故障,文件破损,磁头老化,磁盘坏道;网络故障,延迟阻塞,丢包,重包,分割;分布式异常,节点增删,状态不一致。
3)系统环境:注意测试环境与真实场景的差异;注意系统的极限与拐点,负载均衡,雪崩;特殊情况,例如核心交换机压力过载
10.快速拼装测试体系(更完善专业的解决方案,更快速的体系建设)
1)工程升级后对比数据一致
2)上线后判断数据连续
3)数据弱关联关系挖掘(数据分析)
4)数据强关联规则(数据规则引擎)
5)数据弱关联离群分析
11.用户为何质疑报表正确性
1)信息不连续
2)信息与其他渠道冲突
3)信息与领域认知违背

TAG:

 

评分:0

我来说两句

日历

« 2024-05-04  
   1234
567891011
12131415161718
19202122232425
262728293031 

数据统计

  • 访问量: 20694
  • 日志数: 22
  • 建立时间: 2014-02-13
  • 更新时间: 2015-03-18

RSS订阅

Open Toolbar