漫谈阿里大数据

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

发表于：2017-8-23 10:16

作者：佚名来源：云栖社区

　　三、数据技术

　　大数据技术，个人认为可以分成两个大的层面，大数据平台技术与大数据应用技术。

　　要使用大数据，你先必须有计算能力，大数据平台技术包括了数据的采集，存储，流转，加工所需要的底层技术，如hadoop生态圈，数加生态圈。

　　数据的应用技术是指对数据进行加工，把数据转化成商业价值的技术，如算法，以及由算法衍生出来的模型，引擎，接口，产品等等。这些数据加工的底层平台，包括平台层的工具，以及平台上运行的算法，也可以沉淀到一个大数据的生态市场中，避免重复的研发，大大的提高大数据的处理效率。

　　大数据首先需要有数据，数据首先要解决采集与存储的问题，数据采集与存储技术，随着数据量的爆发与大数据业务的飞速发展，也是在不停的进化过程中。

　　在大数据的早期，或者很多企业的发展初期，是只有关系型数据库用来存储核心业务数据，就算数据仓库，也是集中型OLAP关系型数据库。比如很多企业，包括淘宝早期，就用Oracle作为数据仓库来存储数据，当时建立了亚洲最大的Oracle RAC作为数据仓库，按当时的规模来说，可以处理10T以下的数据规模。

　　一旦出现独立的数据仓库，就会涉及到ETL，如数据的抽取，数据清洗，数据校验，数据导入甚至数据安全脱敏。如果数据来源仅仅是业务数据库，ETL还不会很复杂，如果数据的来源是多方的，比如日志数据，APP数据，爬虫数据，购买的数据，整合的数据等等，ETL就会变得很复杂，数据清洗与校验的任务就会变得很重要。

　　这时的ETL必须配合数据标准来实施，如果没有数据标准的ETL，可能会导致数据仓库中的数据都是不准确的，错误的大数据就会导致上层数据应用，数据产品的结果都是错误的。错误的大数据结论，还不如没有大数据。由此可见，数据标准与ETL中的数据清洗，数据校验是非常的重要。

　　最后，随着数据的来源变多，数据的使用者变多，整个大数据流转就变成了一个非常复杂的网状拓扑结构，每个人都在导入数据，清洗数据，同时每个人也都在使用数据，但是，谁都不相信对方导入，清洗的数据，就会导致重复数据越来越多，数据任务也越来越多，任务的关系越来越复杂。要解决这样的问题，必须引入数据管理，也就是针对大数据的管理。比如元数据标准，公共数据服务层(可信数据层)，数据使用信息披露等等。

　　随着数据量的继续增长，集中式的关系型OLAP数仓已经不能解决企业的问题，这个时候出现了基于MPP的专业级的数据仓库处理软件，如GreenPlum。greenplum采用了MPP方式处理数据，可以处理的数据更多，更快，但是本质上还是数据库的技术。Greenplum支持100台机器规模左右，可以处理PB级别数据量。Greenplum产品是基于流行的PostgreSQL之上开发，几乎所有的PostgreSQL客户端工具及PostgreSQL应用都能运行在Greenplum平台上，在Internet上有着丰富的PostgreSQL资源供用户参考。

　　随着数据量的继续增加，比如阿里每天需要处理100PB以上数据，每天有100万以上的大数据任务。以上的解决方案发现都没有办法来解决了，这个时候，就出现了一些更大的基于M/R分布式的解决方案，如大数据技术生态体系中的Hadoop，Spark和Storm。他们是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。以及阿里云推出的数加，它也包括了大数据计算服务MaxCompute(前ODPS)，关系型数据库ADS(类似Impala)，以及基于Java的Storm系统JStorm(前Galaxy)。

　　我们看看大数据技术生态中的不同解决方案，也对比看看阿里云数加的解决方案，最后我也会单独介绍数加。

　　1、大数据生态技术体系

　　Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Hadoop作为一个基础框架，上面也可以承载很多其它东西，比如Hive，不想用程序语言开发MapReduce的人，熟悉SQL的人可以使用Hive开离线的进行数据处理与分析工作。比如HBase，作为面向列的数据库运行在HDFS之上，HDFS缺乏随即读写操作，HBase正是为此而出现，HBase是一个分布式的、面向列的开源数据库。

　　Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。Spark可以通过YARN(另一种资源协调者)在Hadoop集群中运行，但是现在的Spark也在往生态走，希望能够上下游通吃，一套技术栈解决大家多种需求。比如Spark Shark，是为了VS hadoop Hive，Spark Streaming是为了VS Storm。

　　Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。Storm擅长处理实时流式。比如日志，比如网站购物的点击流，是源源不断、按顺序的、没有终结的，所以通过Kafka等消息队列来了数据后，Storm就一边开始工作。Storm自己不收集数据也不存储数据，随来随处理随输出结果。

　　其上的模块只是大规模分布式计算底层的通用框架，通常也用计算引擎来描述他们。

　　除了计算引擎，想要做数据的加工应用，我们还需要一些平台工具，如开发IDE，作业调度系统，数据同步工具，BI模块，数据管理，监控报警等等，他们与计算引擎一起，构成大数据的基础平台。

　　在这个平台上，我们就可以基于数据做大数据的加工应用，开发数据应用产品了。

　　比如一个餐厅，为了做中餐，西餐，日料，西班牙菜，它必须食材(数据)，配合不同的厨具(大数据底层计算引擎)，加上不同的佐料(加工工具)才能做出做出不同类型的菜系;但是为了接待大批量的客人，他必须配备更大的厨房空间，更强的厨具，更多的厨师(分布式);做的菜到底好吃不好吃，这又得看厨师的水平(大数据加工，应用能力)。

　　2、阿里大数据体系

　　我们先看一下阿里的计算引擎三件套。

　　阿里云最早先使用Hadoop解决方案，并且成功的把Hadoop单集群规模扩展到5000台规模。2010年起，阿里云开始独立研发了类似Hadoop的分布式计算平台Maxcompute平台(前ODPS)，目前单集群规模过万台，并支持多集群联合计算，可以在6个小时内处理完100PB的数据量，相当于一亿部高清电影。

　　分析型数据库服务ADS(AnalyticDB) ，是一套RT-OLAP(Realtime OLAP，实时 OLAP)系统。在数据存储模型上，采用自由灵活的关系模型存储，可以使用 SQL进行自由灵活的计算分析，无需预先建模;而利用分布式计算技术，ADS可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能，真正实现百亿数据毫秒级计算。ADS是采用搜索+数据库技术的数据高度预分布类MPP架构，初始成本相对比较高，但是查询速度极快，高并发。而类似的产品Impala，采用Dremel数据结构的低预分布MPP架构，初始化成本相对比较低，并发与响应速度也相当慢一些。

　　流计算产品(前Galaxy)，可以针对大规模流动数据在不断变化运动过程中实时的进行分析，是阿里巴巴开源的基于Storm采用Java重写的一套分布式实时流计算框架，也叫JStorm，对比产品是Storm或者是Spark Streaming。最近阿里云会开始公测stream sql，通过sql 的方式来实现实时的流式计算，降低了使用流式计算技术的使用门槛。

　　除了计算引擎部分，整个阿里大数据技术生态，我在数加的文章中再详细介绍。

　　未来的大数据底层技术又将会怎么发展呢，个人觉得，会有如下两个要点发展：

　　1、数据处理云端化与生态化

　　数据未来一定是互联互通才有价值，目前的私有云大数据解决方案是一个过渡阶段，未来大数据需要的是更大型，更专业的平台。这里才可以实现整个大数据的生态体系(后面的文章会介绍到)。包括了数据本身的交易市场(大数据交易平台)，以及加工数据的工具，算法(或基于算法的引擎，接口，产品)的交易市场，类似目前的App Store。

　　数据生态是一个非常大的市场。

　　2、云端数仓一体化

　　未来很多企业将受益于云端数据库/数据仓库一体化的解决方案中，从现在的技术看来，大数据平台越来越具备实时的能力;在线的业务数据

　　库越来越具备分布式计算的能力。当这些能力整合，统一的时候，在线/离线的界限又将变得不再清晰，整个数据技术体系又会回到当初的数据库/数据仓库一体化。

　　四、数据应用

　　讲了这么多的大数据相关定义与相关技术了，那大数据怎么转变为商业价值呢，这又是一个大的话题。阿里在大数据的应用上，最早的提出了存、通、用三个概念，而现在大数据应用更多是在谈数据反馈闭环。根据数据反馈闭环，我们又把数据使用分成如下几个层面来描述：

　　一、数据化

　　所谓存，其实就是大数据的采集与存储，必须先有数据，其实前几篇已经介绍过了。很多时候，如果我们连数据都没有，大数据只能是空中楼阁。所以，一个想要做大数据的企业，必须先想办法拥有数据，或者采集、爬取、购买数据。

　　关于通，前面也讲过了，主要是两个层面的问题：

　　其一是指数据的互通，比如一个企业内部存在很多信息孤岛，信息孤岛之间必须打通，形成统一的大数据平台。关于通，最好的办法其实就是企业建立一个统一的大数据平台，不管这个大数据平台是基于私有云(如Hadoop生态的解决方案)，还是基于公共云(如阿里云数加的解决方案)，当所有的数据上传到这个大数据平台，数据天然就打通了。

　　其二是数据的标准，如果想让不同的数据源可以相互关联，形成更大的效应，就跟我在上文讲到的一样，就得有数据标准。如上文所言，数据标准不仅仅可以指导ETL过程中的数据清洗，数据校验，好的数据标准还可以使得无线的数据跟PC的数据相互关联互通，甚至企业之间的数据关联互通。

　　这些过程，我们可以把它叫做数据化的过程，也就是大数据的基本要素 -- 数据的形成。

　　二、算法

　　用，就是大数据的加工使用，指采用数据科技的相关技术，对大数据进行加工，分析，并最终创造商业价值的过程。这个过程中，最核心就是算法。我们提到算法时，往往也会谈到引擎，仅仅提引擎一词，更多想到的可能是汽车的发动机。汽车引擎不管多复杂，其实输入输出是很简单的，需要的是汽油+空气，输出动力(汽油的能量)。大数据的引擎可能是一组算法的封装，数据就是输入的汽油，通过引擎的转换，输出数据中的能量，提供给更上层的数据产品或者服务，从而产生商业价值。

　　算法也是“机器学习”的核心，机器学习又是”人工智能“的核心，是使计算机具有智能的根本途径。在过去十年，机器学习促成了无人驾驶车、高效语音识别、精确网络搜索及人类基因组认知的大力发展。

　　如果你不去利用数据，世界上的数据就不会有用。算法其实指的是如何在业务过程中有效拓展人为管理，利用数据。

　　从根本上来说，数据是不会说话的，只有数据没有任何价值。如果拥有大量的数据，而不知道怎么使用，阿里曾经做过一个比喻，“坐在金山上啃馒头”。大数据真正的价值在算法，算法决定行动。在不远的未来，“所有业务都将成为算法业务”，算法才是真正价值所在，世界上所有大规模的东西都将被数据和算法所管理。

　　DT时代的智能商业对算法提出了全新的要求：算法的迭代方向、参数工程等等，都必须与商业逻辑、机制设计、甚至是价值观取向融合为一。当算法迭代优化时，决定其方向的不仅是数据和机器本身的特性，更包含了我们对商业本质的理解、对人性的洞察和创造未来商业新样貌的理想。这就是我们称算法为智能商业的“引擎”而非“工具”的关键理由，它是智能的核心。基于数据和算法，完成“机器学习”，实现“人工智能”。

　　三、数据产品(或数据应用)

　　把用户，数据和算法巧妙地连接起来的，是数据产品(或数据应用)，这也是互联网时代特别强调产品重要性的根本原因。因此，智能商业的成功，最关键的一步往往是一个极富想象力的创新产品，针对某个用户问题，定义了全新的用户体验方式，同时启动了数据智能的引擎，持续提升用户体验。

　　智能化数据产品的要求是非常高的，不仅仅是与最终用户形成个性化，智能化的交互，有完好的用户体验与突破的技术创新之外，最重要的，同时需要再次记录数据，使得用户反馈的闭环得以发生。

　　整个过程是自动的、智能的、可学习提升的，它是大数据时代的灵魂，是智能商业的根基。智能商业的核心特征就是能主动地了解用户，通过学习不断提升用户体验。智能商业的成功，最关键的一步往往是一个极富想象力的创新产品，针对某个用户问题，定义了全新的用户体验方式，同时启动了数据智能的引擎，持续提升用户体验。智能模块和学习功能将成为应用的大脑

　　比如蚂蚁小贷，通过数据和产品的紧密融合，基于算法的数据智能实时发挥作用，最终能实现秒级放贷，这个是传统的金融服务没法想象的。同时，获贷后的用户产生的数据，又被源源不断的采集起来，作为未来更多判断的基础。

　　再比如搜索系统，用户的任何一次点击行为，都被实时记录并反馈到智能化的算法引擎，不仅优化了你的搜索结果，而且优化了任何搜索这个关键词的人得到的搜索结果。

　　这样的智能商业，才是对传统商业的颠覆，才是真正的“降维”攻击，胜者一骑绝尘。

　　四、反馈闭环

　　上面已经谈到自动化、智能化、可学习提升的反馈闭环，闭环的形成决定了智能化商业的形成，但是，闭环的效率决定了大数据的使用效率。所以说，一个好的大数据产品，不仅仅是有用户反馈闭环，而且需要一个高效的用户反馈闭环。

　　用户行为通过产品实时反馈到数据平台，通过数据智能算法，优化结果又通过数据产品实时提升用户体验，在这样的反馈闭环中，数据既是高速流动的介质，又持续增值;算法既是推动反馈闭环运转的引擎，又持续优化;产品既是反馈闭环的载体，又持续改进功能，在为用户提供更赞的产品体验的同时，也促使数据反馈更低成本、更高效率地发生。

　　五、数据生态

　　DT时代将催化出大数据生态。DT时代的数据生态，我从如下两个方面来定义：

　　一、数据交换/交易市场

　　智能商业的基石就是数据，作为智能商业的第一要务，数据是最重要的。

　　数据作为生产资料，大数据时代的血液，好比汽车的汽油，没有汽油，再精美高端的汽车也无法运转。而数据的来源往往是多方面的，未来一个企业所用到的数据往往不仅仅是自身的数据，甚至是多个渠道交换、整合、购买过来的数据。对于“羊毛出在猪身上”的大数据商业形态，数据一定是流动的，数据只有整合关联，才能发挥更大的价值。

　　但是数据要实现交换，交易，正如我上文所言，我们最终所必须解决的是法律法规，数据标准等一系列问题。

　　二、算法经济/生态

　　Gartner分析认为，算法将形成一个全球性的交易市场，就像当年的App，催生出全新一代的专业技术初创企业，并且革新机器与机器之间的交互方式。

　　同时，更多的数据将生成更好的模型和用户体验，进而吸引更多的用户以及更多的数据，而这将导致储存和计算数据的成本持续降低。

　　Gartner曾发表报告，对算法经济可能带来的市场影响做出评估。

　　Gartner认为，无可避免地，算法经济将创造一个全新的市场。人们可以对各种算法进行买卖，为当下的公司汇聚大量的额外收入，并催生出全新一代的专业技术初创企业。

　　想象这样一个市场：数十亿的算法都是可以买卖的，每一个算法代表的是一种软件代码，能解决一个或多个技术难题，或者从物联网的指数级增长中创造一个新的机会。

　　算法是创造智能应用的基石，是大数据的核心价值。

　　也就是说，多个机器学习算法可以结合起来成为更强大的算法，从而更好地分析数据，充分挖掘数据里的价值。

　　在算法经济中，前沿的技术项目，无论是先进的智能助理，还是能够自动计算库存的无人机，最终都将落实成为实实在在的代码，供人们交易和使用。

　　广义的算法存在于大数据的整个闭环之中，从大数据平台、ETL(数据采集，数据清洗，数据脱敏等)、数据加工、数据产品等的每一个层面都会有算法支持。算法可以直接交易，也可以包装成产品、工具、服务，甚至平台来交易，最终形成大数据生态中的一个重要组成部分。

　　甚至有人认为好的算法能够摆脱很多公司对大数据的过度依赖。尽管数据在DT时代可能是最昂贵的生产资料，但若算法足够强大，大数据并非必须。如迁移学习能让计算机摆脱对大数据的严重依赖，从而让人工智能不再只是“富人的游戏”。

　　正如App经济变革了人类与机器的交互方式一样，我们将会看到，算法经济将会促进下一代机器对机器互动演进的巨大飞跃。

　　人们将会通过产品使用的算法来评价它的性能好坏。企业的竞争力也不仅仅在于大数据，还要有能够把数据转换为实际应用的算法。因此，CEO应该关注公司有产权的算法，而不仅仅是大数据。

　　正在涌现的机器智能平台可凭借“模型作为服务”的方式，托管预训练过的机器学习模型，从而令企业能够更容易地开启机器学习，快速将其应用从原型转化成产品。当企业们采用了微服务(microservice)发展范式后，接入并使用不同的机器学习模型和服务以提供特定功能的能力将变得越来越有价值。

　　所有的这一切，最终也离不开云计算，数据平台天然就是基于云计算来实现。而数据交换，算法交易则需要一个商店，云端就是目前最好的商店。不管是数据的互通，还是基于云端预训练、托管的机器学习模型，将促使每个公司的数据产品都能大规模地利用算法智能。

　　六、数加平台

　　2016年1月20日，阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力，发布全球首个一站式大数据平台“数加”。

　　这一平台承载了阿里云“普惠大数据”的理想，即让全球任何一个企业、个人都能用上大数据。数加平台首批集中发布了20款产品，覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。

　　“这是一个人人都在谈大数据的时代，但只有极少数人在用大数据。” 阿里云大数据事业部资深总监徐常亮特别强调“这些技术至少领先业界三年”，在输出自身大数据能力的同时，“数加”还向有数据开发能力的团队开放。这些团队可入驻“数加”，借助数加上的工具为各行业提供数据服务。“就像在淘宝开店一样，只是他们售卖的是专业能力。”

　　那数加到底是什么呢?我们从如下几个方面来分析一下：

　　一、数加的来世今生

　　我觉得阿里对数据的重视非常早，而且也是非常愿意投入的。

　　早在阿里云成立之前，应该是06、07年左右，七公就组建了一只数据平台部的团队，它就是数据事业部(CDO)的前身。在云端、数据魔方、淘宝时光机、淘宝指数、TCIF、阿里妈妈DMP、全景洞察等都是出自这个团队之手，这个团队专业解决淘宝早期数据仓库、数据集市、以及数据分析相关的专业问题。

　　09年的时候，王坚来到阿里，讲了云计算、大数据未来的愿景，可是当时没有几个人能听懂，但是，我觉得马总还是很厉害的，他信了。然后，阿里提出了云计算、大数据相关战略，阿里云也就在那时成立了。

　　数据平台事业部最早使用的并不是现在在用的MaxCompute(原ODPS)，而是Hadoop，原hadoop集群令名为云梯1，当时阿里也在研发自己的计算平台，就是原ODPS，并令名为云梯2。

　　云梯2在开始的时候，并不是很好用，不过，拿到了内部一个很大的客户，就是阿里金融的蚂蚁小贷。基本上也可以这么说，没有蚂蚁小贷的磨合，基本很难有现在的MaxCompute。

　　云梯1、云梯2在内部争吵了很长一段时间，后来，出于各方的考虑，公司决定，启动登月项目，从云梯1全部迁移到云梯2。

　　不管是云梯1，还是云梯2，其实，都只是整个大数据技术生态系统中很小的一块，也就是计算引擎那一块，正如我上面所讲的，一个属于hadoop生态系统，一个属于阿里云自建的数加生态系统。

　　云梯1当时在内部使用也很广泛，所有内部的数据加工，数据应用基本上都是基于云梯1的，而且，云梯1通过5K项目，成功使单集群的规模扩展到了5000台。而云梯2的生态是后来慢慢建立起来的，包括底层计算平台，开发工具/组件，基于各自算法的计算引擎/服务，以及最上层的各种数据应用/产品，是在云梯1迁移到云梯2的过程中，这些工具，引擎，应用才慢慢完善，统一。

　　当然，现在阿里云的整个系统，包括内部系统，都是应用在数加的技术之上，这个也是阿里历来的习惯，把内部使用、验证过的东西，提供给社会使用。这样的好处在于与单纯做产品的大数据公司相比，胜在有场景，有需求，成熟度更高。

　　二、数加平台生态的组成

　　数加平台生态

　　个人觉得，可以用如下几个层面来描述整个数加生态体系：

　　1、数加底层技术平台

　　主要包括：

　　Maxcompute(原名ODPS)是“数加”底层的计算引擎。有两个维度可以看这个计算引擎的性能，1)6小时处理100PB数据，相当于1亿部高清电影。2)单集群规模过万台，并支持多集群联合计算。

　　Analytic DB是实时多维分析引擎，可以实现百亿量级多维查询只需100毫秒。阿里巴巴内部很多面向海量互联网用户的产品的在线大数据查询，很大程度上依赖于Analytic DB。

　　流计算(StreamCompute)具有低延时、高性能的特点。每秒查询率可以达到千万级，日均处理万亿条消息、PB量级的数据。

　　计算引擎之上，“数加”提供了最丰富的云端数据开发套件，开发者可一站式完成数据加工。这些产品包含：数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。

　　整体来看，大数据开发套件的优势包括：支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API，可二次开发;多个数据实例之间的数据授权机制，确保数据只能使用却不可见;提供白屏化的运维能力，以及字段级数据质量监控、机器预警、资源使用率监控等功能，让用户更好的掌控自己的数据及数据任务。

　　计算引擎与大数据开发套件相互依赖，组成了数加的底层技术平台，对应到我上文提到的Hadoop技术平台。

　　阿里云的主要目标应该是做好这个技术平台，并将平台的能力更多更快更好地开放出来，这一层才是阿里云大数据的核心竞争力。

　　2、数加应用平台生态体系

　　基于上面的技术平台，阿里在数加上还开放了规则引擎、推荐引擎、文字识别、智能语音交互、DataV可视化等数据引擎、服务、产品。这些产品很多都是从阿里自身的业务中提炼出来的，可以直接提供给企业使用，并组合成各种不同的解决方案。

　　比如：

　　“数加”发布的机器学习，可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发。产品还集成了阿里巴巴核心算法库，包括特征工程、大规模机器学习、深度学习等。

　　规则引擎是一款用于解决业务规则频繁变化的在线服务，可通过简单组合预定义的条件因子编写业务规则，并做出业务决策。比如，银行会设置如果10分钟内用户在两个省份交易，则需要电话确认。

　　推荐引擎是一款用于实时预测用户对物品偏好的数据工具，它能够帮助客户发现众多物品中用户最感兴趣什么。

　　文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。

　　智能语音交互基于语音和自然语言技术构建的在线服务，为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。

　　数加最终的目的，不是阿里云自己来研发所有这些数据服务，重点是“数加”大数据平台也将向有数据开发能力的团队开放。这些团队可入驻“数加”，借助数加上的工具为各行各业提供数据服务。阿里云计划用3年时间吸引1000家合作伙伴入驻，共同分享1万亿的大数据蛋糕。

　　基于底层的技术平台，上层开放则可以形成丰富的生态。通过开放式的平台，凝聚行业的力量，为更多的企业和个人提供大数据服务，这就是普惠的时代。大到行业的数据分析，预测行业发展方向;小到我们每一个个体，都可以享受大数据的服务，方便个人生活。

　　3、数加交易生态体系

　　基于技术平台与应用平台，个人觉得，未来可以在数加上构建一个大数据的交易市场，可以包括：

　　应用交易：上文中，我重点描述了数据生态以及算法经济，算法作为大数据时代的另外一个重要要素，未来也是可交易的。基于算法的各种引擎，服务，应用等，既然可以基于数加来开发，就可以不仅仅是自己用，甚至作为一个公共的服务或者产品来出售。

　　数据交易：数据是大数据时代的重要基本要素之一，也是大数据时代的基础生产资料，大数据时代的血液。作为如此重要的生产资料，必须流通才能发挥大数据最大的价值。数加通过多租户，可用不可见，担保交易等设计，未来可以解决数据交易上的各种问题。

　　当然，如果要实现大数据的交易，必须先解决数据的隐私、安全、法律法规、监管等问题。在这些问题没解决之前，仍有很长的路需要尝试。

　　三、为什么选择数加

　　小企业不仅自身缺乏数据，自建大数据平台更是折腾不起，往往周期很长，成本非常之高。很多自建的大数据平台又因为没有经过各种实战的检验，没有相应开发工具或者工具偏少而出现各种问题。

　　不过数加的出现将有望改善这一现状。

　　根据阿里云披露的测算数据：自建Hadoop集群的成本是数加的3倍多，国外计算厂商AWS的EMR成本更是数加的5倍。

　　从运算效率来看，去年10月28日，Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。其中阿里云用377秒完成了100TB的数据排序，打破了此前Apache Spark创造的23.4分钟纪录。

　　在含金量最高的GraySort和MinuteSort两个评测系统中，阿里云分别在通用和专用目的排序类别中创造了4 项世界纪录。

　　数加承载了阿里巴巴EB级别的数据加工计算，经历了上万名工程师的实战检验。

　　借助大数据技术，阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析，诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品，为快递行业的升级提供技术方法。

　　可以看到，通过数加，企业能获得的不仅仅是可以更方便、更便宜地使用各种开发工具。其实，比开发工具更重要的是未来大数据的生态，在数加上面，他们可以很方便地获取各种自己想要的数据与服务。

　　“数加”的发布显然降低了大数据的应用门槛。通过 “数加”，任何一个企业、个人都能极为方便地进行大数据的开发和应用，最起码，从速度、成本、开发效率上，有很大提升。

　　四、数加需要面对的问题

　　1、基于公共云数加的安全问题

　　有人担心阿里是否会偷看或利用这些数据，其实就是不相信阿里云。当然阿里云官方的回答是斩钉截铁的：不会!

　　阿里云大数据事业部资深总监徐常亮强调，数据是客户的宝贵资产，任何云计算平台都不能移作他用。阿里云将严格遵守去年7月份发起的《数据保护倡议书》，也希望全行业能够自律，共同迎接大数据产业的爆发。

　　2、基于专有云数加的规模问题

　　如果企业实在担心数据的安全问题，想要建立自己的专有云解决方案，那么目前，基于数加的解决方案尚且过于复杂，没有大量预算，基本上没有办法实现专有云的解决方案，所以，对中小企业来说，采用基于专用云数加的解决方案是不现实的。

　　就我个人的看法来说，未来的趋势，一定是公共云解决方案。

　　因为：

　　1，数据需要流动，互相关联才有最大的价值，所以，数据一定要交换、交易，这个要靠公共云来实现。,

　　2，数据加工的工具、算法、产品等等，也是一个共享的生态，不能指望所有的东西都由自己来研发。跟工业社会一样，未来的大数据时代，是一个全球化分工的时代，不能指望自己的工厂解决所有的问题。

22/2<12

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选