探索Hadoop与数据仓库之间的关系

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

探索Hadoop与数据仓库之间的关系

发表于：2020-4-14 11:27

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：佚名来源：发家致富全靠它

hadoop

大数据

Hadoop

　　在大数据世界中用于BI和分析的新平台的需求，并描述了三种常用的基本数据架构：数据仓库，大规模并行处理系统(MPP)和Hadoop。

　　在出现大数据之前，只有经过复杂数据库和出色工具处理的数据才可以追溯到1970年代。最流行的是(现在仍然是)基于事务的关系数据库管理系统(RDBMS)。结构化查询语言(SQL)是用于管理数据并简化RDBMS内处理的解码环。

　　DBMS的其他迭代包括柱状，键/值和图形。在大多数情况下，他们使用结构化(如果不是高度结构化或标准化)的数据，通常驻留在仓库或专用数据集市中。

　　对象数据库是另一种形式，它是IT首次尝试使用结构化程度较低(如果不是非结构化的数据)，例如视频和图像。它们被放置在专门的数据存储库中，并且通常需要专门的技能和专门的基础架构才能使其正常工作。换句话说，它们运行起来很昂贵。

　　RDBMS福利包

　　全球已经在基础设施上投资了数十亿美元，以运行这些数据库，并由人们进行操作和完善以适应各种垂直市场应用。对于交易处理，他们仍然是无可争议的王者。

　　RDBMS的其他好处包括：

　　从故障中恢复的能力非常好，在大多数情况下可以恢复到最新状态

　　RDBMS可以轻松地分布在多个物理位置

　　RDBMS实际上保证了高度的数据一致性

　　SQL很容易学习

　　有大量熟悉RDBMS的IT人才已安装

　　用户可以执行相当复杂的数据查询

　　缺点是什么?事实是，只要所管理的数据具有结构性和关系性，就没有什么弊端。可伸缩性是一个问题，因为大多数这些系统都是专有的，而且核心存储非常昂贵，尤其是随着数据库的增长。但是，这些古老的数据库及其随行的工具和应用程序在每家《财富》 1000强公司中都是显而易见的，这有充分的理由：它们可以带来价值。

　　但是随后出现了大数据，其中很多来自非结构化的腹地。它包含来自点击流，网站日志，照片，视频，音频剪辑，XML文档，电子邮件，推文等的数据。

　　最初对IT部门而言，大多数数据类似于从宇宙深处发出的背景噪声-只是很多噪声。但是请记住这一点：一个名叫阿诺·彭齐亚斯(Arno Penzias)的人在1964年破译了深空背景噪声，最终将其解释为已得到验证的宇宙大爆炸理论的证明。他获得了诺贝尔奖。

　　大数据也是如此。事实证明，锁定在所有这些不同的大数据源中的是对客户行为，市场趋势，服务需求以及许多其他方面的宝贵见解。这是信息技术的大爆炸。

　　大数据已经成为数据量整体增长中最大的组成部分，并且传统分析平台和解决方案相对无法有效地处理非结构化数据，因此分析领域正在发生深刻的变化。

　　IT演进，而非革命

　　但是这里要牢记重要的事情。大数据分析不会取代传统的结构化数据分析，当然在可预见的将来也不会。

　　恰恰相反。正如《The Executive’s Guide to Big Data & Apache Hadoop》所述，“当您将大数据与传统信息源相结合以提出可产生巨大业务价值的创新解决方案时，一切都会令人着迷。”

　　因此，您可能会看到制造商将其库存系统(在RDBMS中)与基于文档商店的产品目录中的图像和视频说明联系在一起。这将帮助客户帮助自己立即选择并订购合适的零件。

　　或者，一家连锁酒店可以将基于Web的房地产搜索结果及其自身的历史入住指标加入RDBMS中，以优化夜间定价并通过更好的收益管理来增加收入。

　　共存，而不是替代。这是查看基于Hadoop的大数据分析与RDBMS和MPP世界之间关系的正确方法。因此，组织明智地专注于Hadoop发行版，以优化基于Hadoop的数据湖与传统系统之间的数据流。换句话说，保留旧的，并用新的创新。

　　使用哪个平台?

　　共有三种常用的基本数据架构：数据仓库，大规模并行处理系统(MPP)和Hadoop。每个都以不同的方式容纳SQL。

　　数据仓库本质上是大型数据库管理系统，已针对跨结构化数据的只读查询进行了优化。它们是关系数据库，因此对SQL非常友好。它们提供了快速的性能和相对容易的管理，这在很大程度上是因为它们的对称多处理(SMP)体系结构共享内存和操作系统等资源，并通过单个处理节点路由所有操作。

　　最大的缺点是成本和灵活性。大多数数据仓库都建立在专有硬件上，并且比其他方法贵了多个数量级。在Wikibon进行的一次财务比较中，发现传统数据仓库的收支平衡时间是数据湖实施时间的六倍以上。

　　传统的数据仓库也只能对他们知道的数据进行操作。它们具有固定的模式，并且在处理非结构化数据时不太灵活。它们对于事务分析很有用，在事务分析中，必须根据一组定义的数据元素快速做出决策，但在关系不明确的应用程序(例如推荐引擎)中效率较低。

　　MPP数据仓库是传统仓库的发展，它利用了通过公共互连捆绑在一起的多个处理器。SMP架构在处理器之间共享所有内容，而MPP架构则不共享任何内容。每个服务器都有自己的操作系统，处理器，内存和存储。多个处理器的活动由主处理器协调，该主处理器跨节点分布数据并协调动作和结果。

　　MPP数据仓库具有高度可伸缩性，因为添加处理器会导致性能几乎呈线性增长，并且其成本通常低于单节点数据仓库所需的成本。MPP体系结构也非常适合同时在多个数据库上工作。这使它们比传统的数据仓库更具灵活性。但是，就像数据仓库一样，它们通常只能处理以模式组织的结构化数据。

　　但是，MPP体系结构具有与SMP数据仓库相同的局限性。因为它们需要复杂的工程，所以大多数都是个体供应商专有的，这使它们成本高昂且相对缺乏灵活性。它们还受到与传统数据仓库相同的ETL要求。

　　从SQL的角度看，MPP数据仓库具有一个主要的体系结构差异：为了实现最大的性能提升，行在处理器之间顺序分布。这意味着查询必须考虑多个表的存在。幸运的是，大多数MPP供应商在其SQL实例中隐藏了此详细信息。

　　Hadoop在架构上与MPP数据仓库相似，但有一些显着差异。处理器不是由并行架构严格定义的，而是跨Hadoop集群松散耦合的，并且每个处理器都可以在不同的数据源上工作。数据操作引擎，数据目录和存储引擎可以彼此独立工作，而Hadoop作为收集点。至关重要的是，Hadoop可以轻松容纳结构化和非结构化数据。这使其成为进行迭代查询的理想环境。企业用户不必尝试根据架构定义的狭窄结构来定义分析输出，而是可以尝试查找对他们最重要的查询。然后可以提取相关数据并将其加载到数据仓库中以进行快速查询。

　　让我们看一下数据湖和数据仓库(从KDNuggets总结)之间的主要区别：

　　数据：虽然数据是在数据仓库中进行结构化的，但数据湖支持所有数据类型：结构化，半结构化或非结构化。

　　处理：数据在数据仓库中是写模式，而在数据湖中是读模式。

　　存储：将大量数据存储在数据仓库中可能会很昂贵，而数据湖则是为低成本存储而设计的。

　　敏捷性：在数据仓库中，数据采用固定配置，敏捷性低得多，而数据湖中的数据易于根据需要进行配置。

　　用户：数据湖方法支持所有用户(数据科学家，业务专业人员)，而数据仓库主要由业务专业人员使用。

　　Hadoop的最主要用例仍然是“数据湖”，因为它存储了许多非结构化数据以进行提炼和提取到关系“数据集市”或数据仓库中。实际上，Gartner表示，他们看到客户对数据湖的查询大大增加，如下所示：

　　只是看着数字。@Gartner_inc从2014年到2015年对数据湖的查询增加了72%。

　　— Nick Heudecker(@nheudecker)

　　为了将SQL的功能带入Hadoop，需要进行许多并行的工作，但是这些项目都面临着相同的结构性障碍，即Hadoop是无模式的，数据是非结构化的。将“结构化”查询语言应用于非结构化数据有点不自然，但是这些项目正在迅速成熟。下面的体系结构图显示了这些不同方法中的一些如何在现代数据体系结构中融合在一起。