近些年来,大数据作为一个新兴名词走进了大众视野,在招聘网站随便一搜,大数据测试工程师的月薪基本都是20K起底,直观地证明了企业对于大数据测试人员的需求。那么,到底什么是大数据测试?大数据测试好不好上手?传统测试和大数据测试之间有什么区别?本次我们有幸邀请到一位大数据测试资深大佬,剖析自身测试经历,帮助大家了解大数据测试,让你在测试道路上更进一步!
5年以上测试工作经验、1年以上测试团队管理经验,擅长移动测试、性能测试、自动化测试、测试管理等领域,对Python、接口自动化都有所研究。
5年以上测试工作经验、1年以上测试团队 管理经验,擅长移动测试、性能测试、自 动化测试、测试管理等领域。
根据我的经验,大数据测试通常都是测试数据的准确性、唯一性、完整性、一致性、关联性、及时性。
难点在于需要验证更多的数据,并需要更快地完成,需要自动化测试工作,需要能够跨不同的平台进行测试,在ETL过程中每一个节点过程都要保证数据的质量,中间只要一个环节错了就会影响最终的数据产出,最复杂的还是实时数据流的测试,因为这个时候我们还需要测试数据流的性能,检测数据传输的效率和稳定性,确保数据不会发生丢失的情况。
数据库,数据库就是把有一定规律结构,相同类型的数据放在一起,不同类型的数据之间相互隔离的空间。
数据仓库,数据仓库是为查询和分析而不是事务处理而设计的数据库,通过整合不同的异构数据源而构建起来的。使得企业或组织能够将整合、分析数据工作与事务处理工作分离。数据能够被转换、整合为更高质量的信息来满足企业级用户不同层次的需求。
ETL,ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。商业智能(BI),BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据(原始数据或商业数据或业务数据等)进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。原始数据记录了企业日常事务,例如与客户交互的信息、财务信息,员工相关记录等等。这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等从上面这些名词解释就可以看出相互之间是具有关联性的,与大数据都是有关联的,一般我们的业务数据都是存储到数据库中,例如mysql,然后我们通过kafka或者其他方式同步到数据仓库里,例如hive,在hive中根据产品数据需求规则层层清洗出来,这就是ETL的装载过程,然后我们会把这些清洗好的数据再同步到数据库中,最后展示在BI系统页面,所以这些名词相互之间都是关联的。
流程:数据库-数据仓库-ETL装载数据-数据库-BI页面
不知道大家是否听过神测数据分析,这是一个专门做数据埋点行为的公司,如果我们将埋点行为的数据整合起来去分析用户的各种行为,例如电商公司的提交订单,支付订单,对于这种数据分析的准确性我们是需要进行测试的,大数据测试的测试用例与传统软件测试的测试用例唯一区别就是我们需要把数据的清洗规则转化成sql的形式,去测试数据在ETL装载过程中的准确性,开发所清洗的表结构,字段类型,表的关联关系,数据是否发散等等。我刚刚在公司昨晚大数据测试分享,有时间的话我将分享内容整理成讲堂分享给大家,让大家对大数据测试有更加深入的了解。
下面是大数据的测试过程以及测试用例参考: