数据集成究竟要过几道坎?

上一篇 / 下一篇  2008-05-21 14:50:25 / 个人分类:数据集成集中

数据集成究竟要过几道坎?(转载)

平台级软件乘风起舞

  在数据集成平台统一数据集成方法、实现技术重用性、提升整体数据管理能力的作用被肯定之后,引发了众多软件厂商的技术追捧。目前,市场上有多种可供用户选择的统一数据集成解决方案。与基于点需求和系统内部集成的工具软件相比,这些平台级软件共同的特点表现在,它们能够支持多种类型、结构和来源的企业数据集成,并且具备面向企业异构IT环境变化的应变能力。在确保系统整体安全性和高可用性的同时,采用基于元数据和开放标准的共享服务方法。

  在企业从数据中挖掘更多业务价值的过程中,数据集成受关注的程度不断升温。而应用的推进也催生出了许多的技术交易与创新。作为信息管理领域的领先者之一,IBM面向数据集成进行了多次收购。例如,其在2005年收购Ascential,强化自身在数据交换、数据迁移、数据清洗等领域的能力。此外,IBM还收购了提供实时数据集成的软件公司DataMirror。最近,针对IBM最新的IOD(信息随需应变)架构,IBM Information Server数据集成平台级解决方案对收购技术和原有技术还进行了新一轮的整合。

  一些BI领域的厂商也持有和IBM相同的想法,即向客户交付统一的企业数据集成平台,而非单纯的ETL工具。Informatica和SAS是其中的代表。Informatica致力于帮助客户解决数据碎片问题,是集成能力中心(ICC)最佳实践的倡导者。林杨表示,Informatica所提供的统一数据集成平台具备广泛的连接性,可以集成包括大型机、关系型数据、文件数据、应用程序数据、消息队列、XML和非结构化数据在内的多种类数据。通过可重用设计和统一的方法实现数据的访问、集成和提交,并最终成为SOA框架的一部分。

  张天峰介绍,SAS所提供的高效数据集成平台能够以及时、经济的方法将异构系统内的信息孤岛整合起来。而这种操作可以在不依赖SQL语言的条件下,访问、抽取、过滤、清洗、汇总源自不同平台、不同格式的数据,同时提供支持快速开发、有效处理和更强大数据管控性能的平台和工具。例如交互式数据整合流程开发环境、专业的数据质量管理平台、统一的元数据管理工具、第三方数据库双向访问接口等。

  数据集成要过几道坎?

  对很多企业而言,数据集成是围绕特定的应用需求而实施的一系列独立项目。但正如我们前面所说的,这种一次性集成方法的累积、不合理的使用反而会增加IT应用架构的复杂性,制造新的数据碎片,带来新的管理难题。

  数据集成现阶段面临着哪些挑战?作为一项“因复杂而生却要削弱复杂”的IT技术,数据集成需要化解由数据和IT应用持续性变化所导致的巨大前进阻力。

  在数据方面,现实的情况是,数据来源的类型愈发广泛,数据格式更加多样。从传统视角看企业数据,主要集中在文件系统、数据库和消息队列中。而随着新应用类型的出现,注册表、监控设备、博客、Wiki、邮件、手机短信也成为了企业数据的不同载体。对于数据的使用者而言,他们希望从一个集中式数据库和通过基于SQL等通用标准的数据服务获取不同类型的数据,而不用关心数据到底存储在哪里,这大大增加了数据集成的难度。

  数据格式方面,单纯的二维信息描述方式显得越来越“僵化”,难以适应变化业务的需求。空间数据、XML数据在数据描述上获得了突破,但是在拥有灵活性的同时,数据集成的难度也增加了,对于具有同一业务语义,但格式却不同的数据该如何进行集成?当我们需要将多种类的信息合并成一个实体时,集成技术需要完成高难度的操作。

  在数据层之上,IT系统内的天然边界和业务区隔也会增加数据集成的难度。例如,企业的信息安全策略往往根据应用的保护等级和信任关系将其划分为不同的安全区域,而数据集成却通常需要跨越不同的网络或LDAP域,为此,在集成之前需要根据“数据访问协议”、“数据流向规定”等规划数据的采集措施。但目前尚没有类似的“统一跨域、跨网络数据访问规范”,数据集成需要根据每一个采集点单独定义集成任务,同时还要随着不同信任域的信任等级变化,反复地调整和配置。

  虽然对于关系型数据库和XML数据而言,数据的提取相对容易,但是随着应用的推陈出新,企业数据变得无处不在,博客、电子邮件、Wiki、Word文档都成为他们的容身之所。它们在数据库之外,如何从这些混合了数据和用户界面的介质中提取出关键数据,往往需要数据集成人员和相关技术领域开发人员的分工协作。

  另外,数据集成实施需要关注的问题还包括:如何选择合适的执行时机;如何在规避OLTP和OLAP高峰的同时,组织“快照”、“批量导入/导出”等任务。随着多芯、多核服务器的普及,集成技术也需要从串行时代过渡到并行时代。怎样为数据集成建立配套的监控与错误处理流程?如何设计完善且具备自动化能力的数据集成流程,并且为其配备补救机制?而在技术、制度和管理之外,数据集成还需要具有多平台、跨系统知识体系的工作团队,那么,这些问题或许是企业面临的最大挑战。

并非普适技术

  虽然困难重重,但是数据集成技术正在不断成熟,用户已经能够从市场上的相关解决方案中获得具备整合能力的技术支持。而在正视数据集成挑战的同时,企业还需要明确的是,数据集成在现阶段并非一种普适性的技术,它不仅要求使用者具备一定的数据应用规模和复杂性,还需要投入较大的资金和人力。

  林杨表示,现阶段Informatica数据集成平台的用户集中在大中型企业。他指出,不同规模的企业部署数据集成应用的思路会有所不同,但是应用的门槛相对明确。“大型企业往往选择‘自上而下’的方法,首先搭建数据集成平台,中型企业则更多地基于项目驱动,先在一定范围内实施,然后逐步积累,利用2~3年的时间使数据集成平台逐渐成型。但对于小型企业来说,全面数据集成的压力不大,手工编程、基于SQL的集成方式更为适用。”林杨还强调,这并不意味着小型企业不需要进行数据集成,只是从性价比等角度考虑,暂时不需要应用综合性的数据集成技术。

  张天峰也认为,目前的数据集成应用主要集中在金融、电信、政府等重点行业。以银行业为例,SAS在中国最大的银行业客户拥有数十个TB的业务数据,而且数据逻辑非常复杂,需要借助数据集成技术进行数据的转换、清洗和提交。他认为,对于中小型企业而言,把数据集成项目交由系统集成商执行与自行购买相关软件相比更为经济和高效,而一些中小客户也喜欢采取“五五分账”的方法,即对关键数据集成采用ETL工具,其他的则使用手工编程完成。

  也有用户认为,无论选择怎样的数据集成方案,实用和简洁都是最关键的。虽然每个服务和应用采用点对点的连接方式很容易造成IT环境的混乱,但是在信息化建设的初期,这未尝不是一个最快达成技术目标的选择。对IT环境相对成熟的企业而言,最好在实施集成前先充分了解业务部门对信息互联的需求,然后实施必要的统一数据治理。而无论集成项目的规模如何,都必须考虑建立相关的监控措施,以及当关键流程出现错误和异常时该如何处置。

  与SOA及其他

  今天CIO们需要与各式各样的技术创新打交道,SOA便是其中不可回避的一个。而SOA和数据集成有着紧密依存的关系,通过研究SOA解决方案不难发现,它们往往包含一些小型的集成方案,旨在帮助用户解决数据交互、数据清洗等问题。林杨认为,SOA所关注的应用和数据集成的数据是紧耦合关系。把SOA理念具体落实到数据层面,它要使信息能够随需应变,而这正是数据集成的任务。“统一的企业数据集成平台应该成为SOA的一部分,为IT应用提供信息服务支持。这要求企业在实施数据集成项目时也要引入SOA方法论,对数据的查找、整合、质量评估进行持续性的改进,同时关注项目之间的相关性和延展性。”林杨说。

  “数据架构和应用架构紧密相关,良好的数据集成能够简化SOA对应用集成的实现。”张天峰说。但他也表示,SOA所倡导的分布式应用会增加数据集成的难度,存在一些冲突,对分布式异种数据的集成需要引入网格计算等概念。

  从用户角度看,数据治理是数据集成发展到一定阶段的必要补充,否则,长期以来的数据和软件一体化的黏性让数据无法从服务和应用中剥离。总体而言,狭义的数据集成是更多地考虑如何进行数据互联,如何向应用屏蔽不同数据源的物理位置、通信协议和数据格式,更多关注技术问题;而数据治理则侧重在数据与业务语义、业务处理分析的层面之上。

  编看编想

  与变化博弈的数据集成

  历史造就了数据孤岛,也将收复数据孤岛的使命赋予了数据集成技术。不断滋生的数据碎片会不断给数据集成技术制造难题,同时也催生出使其前进的无限动力。对数据集成项目的执行者而言,这样的任务可能并没有明确的终点,需要不断地与变化进行抗争。这些变化包括新应用的建立、数据库平台迁移/合并、IT应用规模的扩充,当然还有业务组织的拆分与购并。

  无论你采取什么的技术路径,都需要与变化为伍,虽然任何的变化都会让你好不容易搭建的数据集成系统备受冲击,但你还是不得不学着适应变化,与其成为朋友。张天峰认为,数据集成的要务是,在数据流动的过程中解决复杂的数据转换和数据清洗问题,同时实现对海量数据处理的质量保证。林杨也表示,数据集成是典型的持续型项目,由于与各种业务应用都存在接口,数据集成的实践者需要在变化的环境中建立清晰的技术实现图景。

  流动中的数据变幻莫测,它们的内容、质量、结构和定义都在不断变化着,而业务的复杂程度、项目周期的缩短以及更多数量和类型数据的涌入,不断制造出新的数据孤岛。因此,数据集成将成为一门企业需要持续修习的功课。明确这一点,可以让我们慎重考虑那些关注短视效应的选择,用更加长远的目光审视技术的发展并迈出坚实的脚步。


TAG: 数据 数据集成集中

 

评分:0

我来说两句

Open Toolbar