漫谈阿里大数据

发表于:2017-8-23 10:16

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:佚名    来源:云栖社区

分享:
  目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。
  一、DT时代
  大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策。比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率。 这是在特定的环境,特定的时间下,对数据做一些商业化的尝试,还算不上真正的大数据。
  我们再看国内大数据的领导者——阿里巴巴,早在2010年就在开始谈大数据战略,同年,Maxcompute(原ODPS)开始布局,蚂蚁小贷开始创业 。
  2012年,阿里设立了CDO这个岗位以及成立CDO事业部,全面负责阿里集团的“数据分享平台”的大数据战略。同年,一本《大数据时代》也开始在国内外畅销,国内大数据时代拉开序幕。
  2014年,马云再次提出,“人类正从IT时代走向DT时代”,人类已经从IT时代走向DT时代,IT时代是以自我控制、自我管理为主,而DT(Datatechnology)时代,它是以服务大众、激发生产力为主的技术。这两者之间看起来似乎是一种技术的差异,但实际上是思想观念层面的差异。
  讲了这么多,那大数据是什么呢?我们先看看大数据不是什么。
  大数据不是什么?
  1.大数据≠拥有数据
  很多人觉得拥有数据,特别是拥有大量的数据,这就是大数据了,这个是肯定不对的,数据量大不是大数据,比如气象数据很大,如果仅仅用于气象预测,只要计算能力跟上就行,还远远没有发挥它的价值。但是保险公司根据气象大数据,来预测自然灾害以及调整与自然灾害相关的保险费率,它就演化出其它的商业价值,形成了大数据的商业环境。所以,大数据要使用,甚至关联,交换才能产生真正价值,形成DT时代特有的大数据商业。
  2.大数据≠报表平台,
  有很多企业,建立了自己业务的报表中心,或者是大屏展示中心,就马上宣布他们已经实现了大数据,这是远远不够的。报表虽然也是大数据的一种体现,但是真正的大数据业务,不是生成报表靠人来指挥,那是披着大数据外表的报表系统而已。在大数据闭环系统中,万物都是数据产生者,也是数据使用者,他们通过自动化,智能化的闭环系统,自动学习,智能调整,从而提升整体的生产效率。
  3.大数据≠计算平台
  之前看过一个报道,说某某金融机构建立了自己的大数据系统,后来仔细一看,就是搭建了一个几百台机器的Hadoop集群而已。大数据计算平台,是大数据应用的技术基础,是大数据闭环中非常重要的一环,也是不可缺少的一环,但是,不能说有了计算平台就有了大数据。比如我买了锅,不能说我已经有了菜,从锅到菜还缺原料(数据),刀具(加工工具),厨师(数据加工)才能最终做出菜来。
  4.大数据≠精准营销
  见过很多创业公司在做大数据创业,仔细一看,人家做的是基于大数据的推荐引擎、广告定投等等。这是大数据吗?他们做的是大数据的一种应用,可以说已经是大数据的一种了。只是大数据整个生态,不能通过这一种就来表达而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。
  那大数据到底是什么?
  简单讲,大数据需要有大量能互相连接的的数据(不管是自己的,还是购买,交换别人的),他们在一个大数据计算平台(或者是能互通的各个数据节点上),有相同的数据标准能正确的关联(如ETL,数据标准),通过大数据相关处理技术(如算法,引擎,机器学习),形成自动化、智能化的大数据产品或者业务,进而形成大数据采集,反馈的闭环,自动智能的指导人类的活动,工业制造,社会发展等。
  数据正在金融,广告,零售,物流,影视等行业,悄悄地改变我们的生活。随着手机的更大规模的普及,还是日新月异的可穿戴设备、智能家居、甚至无人驾驶汽车,都在提醒我们,以互联网(或者物联网)、云计算、大数据为代表的这场技术革命正引领人类社会加速进入农业时代、工业时代之后的一个新的发展阶段 -- 数据时代(DT时代)。
  前两个时代分别以土地、资本为生产要素,而正在我们面前开启的数据时代,正如其名,数据将成为最核心的生产要素。
  在未来,数据将成为商业竞争最重要的资源,谁能更好的使用了大数据,谁将领导下一代商业潮流。所谓无数据,不智能;无智能,不商业。下一代的商业模式就是基于数据智能的全新模式,虽然才开始萌芽,虽然才几个有限的案例,但是,其巨大的潜力与力量,已经被人们认识到。
  在下一代的革命中,不管是工业4.0(中国叫中国制造2025),还是物联网(甚至是一个全新的协议与标准),随着数据科学与云计算能力(甚至是基于区块链的分布式计算技术),唯独数据是所有系统的核心。万物互联,万物数据化之后,基于数据的个性化、智能化将是一次全新的革命,将超越100多年前开始的自动化生产线的工业3.0,给人类社会整体的生产力提升带来一次根本性地突破,实现从0到1的巨大变化。
  正是在这个意义上,这是一场商业模式的范式革命。商业的未来、知识的未来、文明的未来,它们本质上就是人的未来。而基于数据智能的智能商业,就是这未来的起点。
  二、数据来源
  大数据的第一要务就是需要有数据,否则,何来“数据是DT时代的第一生产要素”。
  数据来源于哪里,哪里会产生数据?
  数据无处不在,人类自从发明文字开始,就开始记录各种数据,只是保存的介质一般是书本,而且难以分析、加工。随着计算机与存储技术的快速发展,以及万物数字化的过程(音频数字化,图形数字化等),出现了数据的爆发,而且数据爆发的趋势,随着万物互联的物联网技术的发展,会越来越迅速。同时,对数据的存储技术,处理技术的要求也会越来越高。
  据IDC出版的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最宝贵的财富,怎样合理有效的运用这些数据,发挥这些数据应有的作用,这是大数据将要做到的。
  早期的企业也比较简单,关系型数据库中存储的数据,往往是他们全部的数据来源,这个时候他们对应的大数据技术,也就是传统的OLAP数据仓库解决方案。因为关系型数据库中基本上是他们的所有数据,往往大数据技术也比较简单,直接从关系型数据库中获得统计数据,或者最多建一个统一的OLAP数据仓库中心。
  通过淘宝的历史来看,早期的数仓数据基本来源于主业务的OLTP数据库,数据不外乎用户信息(通过注册、认证获取),商品信息(通过卖家上传获得),交易数据(通过买卖行为获得),收藏数据(通过用户的收藏行为获得)。从公司的业务层面来看,关注的也就是这些数据的统计,比如总用户数,活跃用户数,交易笔数、金额(可钻取到类目,省份等),支付宝笔数、金额等等。因为这个时候没有营销系统,没有广告系统,公司也只关注用户,商品,交易的相关数据,这些数据的统计加工,就是当时淘宝大数据的全部。
  但是,随着业务的发展,比如个性化推荐,广告投放系统的出现,会需要更多的数据来做支撑,而数据库的用户数据,除了收藏,购物车是用户行为的体现,但是,用户的其它行为,如浏览数据,搜索行为等,这个时候是完全不知道的。
  这里就需要引进另外一个数据来源,日志数据,记录了用户的行为数据,可以通过cookie的技术,只要用户登录过一次,就能跟真实的用户取得关联。比如通过获取用户的浏览行为,购买行为,进而可以给用户推荐他可能感兴趣的商品,看了又看,买了又买就是基于这些最基础的用户行为数据做的推荐算法。这些行为数据还可以用来分析用户的浏览路径,浏览时长,这些数据是用来改进相关淘宝产品的重要依据。
  2009年,无线互联网飞速发展,随着基于native技术的App大规模的出现,用传统日志方式获取无线用户行为数据已经不再可能,这个时候也涌现了一批新的无线数据采集分析工具,比如友盟,Talkingdata,淘宝内部的无线数读等等,通过内置的SDK,他们可以统计到native上的用户行为数据。
  数据是统计到了,但是,新的问题也诞生了,比如我在PC上的用户行为,怎么对应到无线上的用户行为,这个是脱节的,因为PC是PC上的标准,无线又采用了无线的标准,如果有一个统一的用户库,比如不管是登录名,邮箱,身份证号码,手机号,imei地址,mac地址等等,来唯一标识一个用户,不管是哪里产生的数据,只要是第一次关联上来,后来就能对应上。
  这就涉及到了一个重要的话题 -- 数据标准,数据标准不仅仅是解决企业内部数据关联的问题,比如一个好的用户库,可以解决未来大数据关联上的很多问题,假定公安的数据想跟医院的数据进行关联打通,发挥更大的价值。但是,公安标识用户的是身份证,而医院标识用户的数据则是手机号码,有了统一的用户库,就可以通过idmapping技术简单的把双方的数据进行关联。
  数据的标准不仅仅是企业内部进行数据关联非常重要,跨组织,跨企业进行数据关联也非常重要,而业界有能力建立类似用户库等数据标准的公司并不多,阿里巴巴就是其中之一。
  大数据发展到后期,当然是数据越多越好,企业内部的数据已经不能满足公司的需要,比如还是淘宝,想要对用户进行一个完整的画像分析,比如想获得用户的实时地位位置,爱好,星座,消费水平,开什么样的车等等,用于精准营销。淘宝自身的数据是不够的,这个时候,很多企业就会去购买一些数据(有些企业也会自己去爬取一些信息,这个相对简单一点),比如阿里购买高德,友盟,又另外采购微博的相关数据,用于用户的标签加工,获得更精准的用户画像。
  但是,数据交易并没有这么简单。因为数据交易涉及到几个非常大的问题:
  1)是怎么保护用户隐私信息
  欧盟已经出台了苛刻的数据保护条例,美国也对出售客户数据的运营商施以重罚,还处在萌芽状态的中国大数据行业,怎么确保用户隐私信息不被泄漏呢?对于一些非隐私信息,比如地理数据,气象数据,地图数据进行开放、交易、分析是非常有价值的,但是一旦涉及到用户的隐私数据,特别是单个人的隐私数据,就会涉及到道德与法律的风险。
  数据交易之前的脱敏或许是一种解决办法,但是,并不能完全解决这个问题,因此,阿里也提出了另外一种解决思路,基于平台担保的“可用不可见”技术。比如阿里云作为交易平台,跟支付宝一样是一个中间担保机构,双方的数据上传到阿里云大数据交易平台,双方可以使用对方的数据,以获得特定的结果,比如通过上传一些算法,模型而获得结果,双方都不能看到对方的任何详细数据。
  2)是数据的所有者问题
  数据作为一种生产资料,跟农业时期的土地,工业时期的资本不一样,使用之后并不会消失,如果作为数据的购买者,这个数据的所有者到底是谁?怎么确保数据的购买者不会再次售卖这些数据?或者购买者加工了这些数据之后,加工之后的数据所有者是谁?
  3)是数据使用的合法性问题
  大数据营销中,目前用得最多的就是精准营销。数据交易中,最值钱的也是个人数据。我们日常分析中做的客户画像,目的就是给海量客户分群、打标签,然后针对性地开展定向营销和服务。然而如果利用用户的个人信息(比如年龄、性别、职业等)进行营销,必须事先征得用户的同意,才能向用户发送广告信息呢,还是可以直接使用?
  所以,数据的交易与关联使用,就必须解决数据标准,立法以及监管的问题,在未来的时间里,不排除有专门的法律,甚至专业的监管机构,如成立数监会来监管数据的交易与使用问题。如果真的到了这一天,那也是好事,数据要流通起来才会发挥更大的价值,如果每个企业都只有自己的数据,就算消除了企业内部的信息孤岛,还有企业外部的信息孤岛。
  如果能合理,合适的使用多方数据,就会发生所谓“羊毛出在猪身上”的事情,比如阿里小贷,使用的是B2B以及淘宝的数据。这样情况下,对猪(B2B,淘宝来)说,这是一种商业场景中的海量数据的溢出效应,而对羊(蚂蚁小贷)来说,是在较低的成本下、不同维度的数据集合后,发生化学反应的价值跃升的过程,这是大数据时代智能商业的典型特征。
  这才是大数据的价值,正是我们正在迎来的这个新时代以“数据”命名的理由。
  阿里大数据发展历程

21/212>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号