数据运维浅谈

上一篇 / 下一篇  2017-06-29 08:59:09 / 个人分类:tm

数据运维浅谈

1云计算时代的到来,数据中心的运行管理工作必然会产生新的问题,提出新的要求,您认为,数据中心运维工作发生了哪些改变? 云计算是当下的技术热点,云数据中心是提供云计算服务的核心,是传统数据中心的升级。 无论是传统的数据中心,还是云数据中心,从他们的生命周期来看,运维管理都是整个生命周期中历时最长的一个阶段。 云数据中心的运维工作需要我们仔细分析,认真对待。从开源云计算社区openstack发布的模块来看,截止201411月,社区共有项目模块450个左右,模块数量前三的类型是“运维”、“易用性”、“上层服务”,其中运维模块数量第一,占到了153个。可见云计算的技术动向基本上围绕“如何运维”和“如何使用”。 我们今天的话题就先来说一说云数据中心运维的变化。说到云数据中心运维工作的变化,就要分析云的特点。云时代数据中心最明显的特点就是虚拟化技术的大量应用,这使得运维管理的对象发生了变化: 一、云数据中心运维对象数量激增。虚拟化技术将1台物理服务器虚拟为多台虚拟服务器,如果数据中心支撑业务需求规模不变的话,所需要的物理服务器数量将会减少,这与很多人认为的运维服务器数量激增是不符的,那么这个“激增”认识是如何产生的呢。可以这样分析,由于虚拟化技术进一步提高了数据中心各种资源的使用效率,同时大幅提高了业务需求响应能力,所以多个传统数据中心合并为一个云数据中心在技术上成为了可能。很多跨国企业采用云计算技术,实现数据中心101201的合并效果,也就是说如果原来在全球建设1000个数据中心,那么现在可以由50100个云数据中心实现对业务的支撑,在一个合并后的云数据中心内,所要运维的服务器数量绝对可以称得上“激增”,这里所说的服务器既包括物理服务器也包括虚拟服务器。与此同时,运维岗位也就是运维人员虽然也进行了调整,但是人员增加的幅度远低于设备的增涨幅度,也就是人均运维设备数量增加了很多,在这种情况下,如果不借助工具、系统,很难完成运维工作。 二、在传统数据中心中,设备都是物理的、真实的,位置也是相对固定,对业务系统来讲,交换网络、服务器、存储设备对象之间关联也是比较固定的,管理起来相对直观。在云数据中心,虚拟化带来了资源的池化,使得一切管理对象变成虚拟的、可灵活迁移的逻辑存在。虚拟资源可以随时创建、删除,再加上高可用需求、性能优化需求带来的虚拟资源迁移,虚拟资源所在的位置变得不固定了,虚拟资源与物理资源的关系也被解耦了,原来很多能说得清、找得到的资源现在不借助工具就再也无法说得清、找得到了。 三、在传统数据中心中,设备监控主要是采集故障、性能数据,容量一般来讲还不是运维层面的问题,而是规划的问题,当然这也带来了业务系统竖井、数据中心竖井的问题,以及业务资源申请周期长的问题。在云数据中心中,容量不仅是规划问题,同时也是一个运维问题。也就是说,在日常工作中,需要随时采集资源池容量数据,不仅要看资源池的总容量,还要看容量在各个物理宿主机上分布情况,以便满足高可用和迁移的需要。 四、云数据中心在管理虚拟设备时,接口的标准化问题。在传统数据中心内,物理设备已经形成了接口标准,提供运维数据,如snmpnetflow等。而对虚拟化设备,还没有形成国标或行标,对虚拟设备的运维还需要采用厂家标准。如果在一个云数据中心中采用了多个厂家的虚拟化系统,运维人员就需要熟悉多个厂家的界面。这个问题的解决,短期来看,需要一个融合的系统,为运维人员屏蔽多厂家虚拟化系统的差异,长期来看,希望能够形成各厂家虚拟化系统的统一接口标准。   云计算带来了IT服务成本的降低,提高了应对业务需求的敏捷性,同时,我们也要看到,如果云数据中心运维管理调整不及时,不但运维工作量不减反增,而且运维水平还会降低。      2、当数据中心发展到一定的规模,人们在数据中心管控要求的基础上,强调了流程化、自动化运维的模式,以便数据中心的运维工作能够更加快捷高效的开展起来,数据中心步入云时代,对于运维工作的流程化、自动化要求,云管理系统能给用户带来哪些价值?

 

虚拟化技术是云数据中心的特点,但是云数据中心不仅仅是虚拟化。云数据中心响应业务需求的敏捷性,基于虚拟化,这是云数据中心的技术基础。 云数据中心以租用的方式向资源用户提供云服务,包括IaaSPaaSSaaS。从运维的角度讲,云服务的提供者要如何保障用户获得需要的服务呢。 云管理系统保障分配资源给用户的动作是自动化的,也就是说所有操作完全在线上完成,并且支持批量处理。 在云管理系统中,可创建并保存三个层面的资源模板,分别对应IaaSPaaSSaaS三个服务层面。用户申请某个或某些服务时,云管理系统就会按照相应的模版去创建资源。这是最基本的虚拟资源分配动作。 复杂一些的操作是可配置参数的资源模板,用户在申请服务时或运维人员在点击资源创建按钮前,可以传递一些参数给创建程序,如操作系统的用户名、密码,那么云管理系统在基于相应模板创建虚拟服务器时,会按照参数设置服务器操作系统管理员的账号信息。 再复杂一些的自动化动作,是基于模板组合进行的、有顺序的、有条件的动作序列,一般用作响应需要多个资源进行部署的业务系统的服务申请,通过一系列操作,为该业务系统分配网络地址、服务器、存储空间,并进行相关的配置,可定义动作执行的顺序以及后续动作执行的前提条件。对于特别复杂的动作组,允许进一步分割,也就是定义子动作组。 上述三种操作都是线上的、自动化完成的,这样的好处就是提高效率。云计算的好处之一就是敏捷分配,如果用户申请后,还要线下做很多配置,就会明显延长服务交付时间。同时基于模板的自动化操作也减少了人工线下操作的不确定性。   上面说完了运维的自动化,下面再说一下流程化。在云管理系统中,服务流程既包含了ITIL流程,如事件管理、问题管理、变更管理、发布管理等,同时也包含了云服务申请和审批的流程,如服务开通、服务变更、服务终止等。云管理系统还提供流程设计器和表单设计器,方便运维人员修改系统提供的服务流程,或者根据需要新建流程。

 

3、云时代数据中心最明显的特点就是虚拟化技术的大量应用,这使得管理的对象也在变化。以前的设备都是真实的,位置也是相对固定,管理起来相对直观。而应用虚拟化技术的结果是将这些资源进行“池化”,使得一切管理对象变成虚拟的、可迁移的存在,如何帮助用户面对这种挑战? 我们在谈云数据中心运维变化时,曾经提到过这个问题。在云数据中心,虚拟化带来了资源的池化,使得管理对象变成虚拟的、可灵活迁移的逻辑存在。运维人员很难再说清楚虚拟资源与物理资源的对应关系。 云管理系统会采集虚拟资源的运行数据,即时掌握资源之间的关系。首先是虚拟资源与物理资源的关联信息,比如虚拟机运行在哪台物理机上。其次,虚拟资源与虚拟资源的关系,如某台虚拟机与哪个虚拟网络设备的端口连接,某个虚拟磁盘挂载到了哪个虚拟服务器上。第三,物理资源与空间资源的关联,可以定位资源的实际部署位置。第四,物理资源与物理资源的关联关系。第三点与第四点与传统数据中处理方式并无不同。第五,云管理系统,还能够管理资源与业务系统的关系,以及资源与用户的关系。 通过云管理系统,运维人员可以即时掌握云数据中心中有哪些资源,资源的运行情况,以及资源之间的链接,资源分配给了哪个用户、哪个业务系统,资源在哪,这个在哪既包括了虚拟资源的分布也包括了物理资源的位置。 可以这么说,云管理系统以服务租用的方式向最终用户屏蔽了云数据中心内的资源情况,但是运维人员通过云管理系统能够清清楚楚、明明白白的掌握资源情况,包括虚拟的资源,也包括传统的资源。     4、目前,云数据中心管理的最大挑战除了上面提到的流程化、自动化和虚拟化,同时还要实现异构资源的融合管理,在这方面云管理系统是如何满足的?

 

我们在谈云数据中心变化时,曾经提到过,如果云数据中心同时存在多个虚拟化系统,由于提供商执行各自的厂家标准,要如何去运维。当时我们提到了“融合”,也就是通过一个统一的管理系统,去融合、去屏蔽多个虚拟化系统的差异。 需要融合的虚拟化系统有很多,有商业产品,也有开源系统,在这我们不一一说明。但这只是虚拟资源范畴的融合,在我们实际的云数据中心运维工程中,我们发现,现阶段国内的很多云数据中心并没有全盘的虚拟化,这种现象在企业云数据中心中尤其普遍。企业中一部分业务系统部署在虚拟环境中,另外一部分业务系统部署在物理环境中,还有一些业务系统,部署环境同时存在物理资源及虚拟资源。 基于这种情况,云管理系统进一步扩大了“融合”的范畴,管理的资源范围不仅包括虚拟资源,还包括数据中心的物理资源、空间资源、动环资源,这样就把云数据中心全面地管理起来,既有传统的,也有虚拟的,而且传统资源和虚拟资源结合起来管理,使得云数据中心的运维更加的智能。比如,我要分配一个虚拟服务器,如果有动环资源的信息,我不仅可以基于宿主机也就是物理服务器的使用情况做策略,还可以考虑服务器所在区域的电能、冷能信息。 云数据中心是传统数据中心的升级,那么云数据中心的运维也应该是传统数据中心的运维升级,不应该缺少原有的运维能力。    5、云数据中心解决了业务系统部署的烟囱问题,通过资源池化及资源自动调度实现了灵活统一的业务部署,但不同的业务系统有其固有的专业性,对网络、计算、存储的规格要求各不相同,各个业务系统的服务要求、监控要求、故障处理要求等也存在差异,要做到业务系统的统一部署,又要满足特定需要,对于云数据中心“求同存异”的挑战,云管理系统是如何克服的? 云管理系统以服务租用的方式对云服务用户屏蔽了云数据中心的资源细节。以计算资源举例,一般情况下,云服务用户所看到的、分配给自己的服务器CPU

配置都是虚拟的,也就是vCPU,他和物理CPU之间并没有一个统一的对应关系,甲用户和乙用户同样的虚拟服务器配置,可能由于宿主机品牌、型号、虚拟化方式、超配策略等,在计算能力上会有较大差异,当然,云服务提供的成本也会存在差异。这个差异再加上监控、维护等增值服务要求的差异,构成了不同等级的服务水平要求。 云管理系统在资源池划分方式上支持这种服务水平的差异性管理。云管理系统支持几种划分资源池的方式,其中一种就是按资源池等级进行划分并进行管理。可以定义不同等级的资源池,如金牌、银牌、铜牌,把物理资源及虚拟资源调度到不同等级的资源池中,用户、业务系统具有相应等级资源池的配额,在配额内可以申请、使用资源。其实,关于资源划分等级的做法在传统数据中心就有,在云数据中心中只是加入了虚拟资源而已。    6、对于数据中心而言,能效的问题为大家所关注,绿色数据中心的话题也一直再提,云管理系统是否能有效帮助云数据中心降低能耗? 虚拟化技术带来的一个好处就是降低能耗,这是基于虚拟机迁移技术实现的。前提是业务量在某一时间段内下降,物理机资源在这段时间内存在一定比例的空闲。最好是空闲的比例和时间是能够预见的,一般来讲,这个时间是夜晚。在这个相对空闲的周期内,通过迁移虚拟机到值班物理服务器的方式,实现部分物理服务器关机休息,达到省电的目的。 云管理系统同样采用这种方式,通过一段时间的监控,分析物理机资源空闲情况,包括每台物理机资源的空闲比例和空闲时间,每台物理机上运行虚拟机的配置情况,分析最优的虚拟机迁移目的地,最优的值班物理机“人选”,做到既省电,又不会因为部分服务器“休息”影响业务的性能。

 

 

 

统上运行,并且每台虚拟机都能及时的进行补丁更新。最后使用安全工具来提高虚拟化环境的安全性。虚拟化工具是有着最小化操作系统的虚拟机,这个操作系统的配置能满足应用程序的需求。  4、云数据中心的安全运维管理 由于提供服务的系统和数据被转移到用户可掌控的范围之外,云数据中心服务的数据安全、隐私保护已成为用户对云服务最为担忧的方面。云数据中心服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、Dos攻击等问题)外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题,例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS应用统一身份认证等问题。 要解决云数据中心服务引发的安全问题,云数据中心需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的帐号保密意识,可以提升用户对安全的认知;在服务管理方面,严格设定关键系统的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育;加强安全技术保障,要充分利用网络安全、数据加密、身份认证等技术,消除用户对云服务使用的安全担忧,增强用户使用云服务的信心。另外,云数据中心的安全运维管理要做到以下几点: 1)进入到云数据中心的业务平台,企业的敏感数据都存储在上面,必须对获准访问的IP地址加以限制或纳入某种形式的双因素认证,访问需要加密。 2)采用强概况限制,为数据中心服务器配置建立工作流程。这将防止不必要的DMZ或生产服务器建设,并保护企业的知识产权不会被暴露在不安全的环境下。这些资料必须结合企业的活动目录基础设施,所以当某位雇员被解雇,其获得的平台访问权限将被删除。 3)数据中心所有服务器都必须遵守配置管理政策如补丁管理、防病毒保护、禁用不必要的服务和中央管理。 4)具有涉及可用性和需要足够的故障恢复、灾难恢复计划,并满足企业级数据中心SaaS配置的应用程序将符合SAS70SSAE16规定。 5)数据中心运维服务必须提供强大的报告和日志记录,方便企业可以识别的任何滥用或安全问题。当然,这些日志必须能够兼容,能够被转发到事件监测设施。 因此,我们应采取各种安全手段或措施,控制企业级数据中心运维管理服务的各个环节,保护数据中心运维管理服务中的物理安全、网络安全、系统安全、应用安全和数据安全等。 五、企业级灾备中心的运维管理 大型的数据中心都建有相应的灾备中心,灾备中心建设后,应当建立健全的灾难恢复管理制度及灾备中心运营管理制度:主要包括有灾难报告制度,灾难恢复审批制度、灾难恢复处理流程、备份系统日常运行管理制度、备份系统替代运行状态下的运行制度、数据一致性认可程序、生产系统复原后的回切处理流程、备份系统测试、灾难演习制度等等,这些制度都是确保灾备业务正常运营的强有力的措施,为今后的灾备业务的价值发挥起到关键支撑作用。 灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程。

 六、企业级数据中心运维管理的自动化 目前数据中心面临几个主要的挑战,都需要自动化的手段予以解决,包括数据中心架构和运维的复杂性、运维成本日益提高、满足内部服务要求和外部合规要求等,数据中心面临的最大挑战就是如何实现自动化管理,从而提高IT服务速度、降低管理成本和风险。日益增加的运维压力以及**的平台和技术使得IT运维自动化已经成为数据中心的重要内容,IT运维自动化可以帮助IT团队实现资源转型,从而提供更高水平的服务。  1整体功能   企业级数据中心自动化运维管理平台主要实现业务系统运维自动化、批处理作业操作自动化和同城灾备切换自动化等功能,通过运维流程整合,满足数据中心日常网络、系统、应用及环境监控,监控事件和告警等运行维护,建立一个基于ITIL的管理标准化平台,运用科学化、标准化的IT服务管理模式,实现配置、问题和事故处理、变更、应用和报表等多种变更请求管理的标准化。  2统一的运维管理平台

 

 

 对企业级数据中心IT基础设施日常运维管理实现自动化操作,自动化运维平台完成数据中心管理规范强制自动化操作,实现数据中心运维管理全生命周期的自动化以及运维各种资源可视化展现等功能,通过众多运维团队和岗位的统一运维管理平台,最终实现数据中心IT运维管理的自动化。3数据中心运维管理自动化   企业级数据中心运维管理自动化主要包括例行检查自动化、事件和故障处理自动化、软件安装部署自动化、资源调度自动化、变更控制自动化、合规审计自动化、操作流程标准化和自动化、CMDB更新自动化等。八、总结    企业级数据中心运维管理主要是降低运维的复杂度,减少人为操作失误带来的故障,强化管理人员对操作者和整个系统的控制和监管能力;减少日常重复运维工作的人力资源,使技术人员能够将主要的精力放在系统、流程的优化上面,整个运维工作步入良性循环。逐步完善数据中心运维管理自动化,实现虚拟化技术、运营协调、网络负荷管理、服务器自动化、存储自动化、策略设置等完整自动化功能,帮助用户充分应对业务和管理挑战,实现手工流程自动化,在节约成本的同时,真正帮助企业实现安全、高效和7x24无人值守的新一代数据中心。

 

1、云计算时代的到来,数据中心的运行管理工作必然会产生新的问题,提出新的要求,您认为,数据中心运维工作发生了哪些改变? 云计算是当下的技术热点,云数据中心是提供云计算服务的核心,是传统数据中心的升级。 无论是传统的数据中心,还是云数据中心,从他们的生命周期来看,运维管理都是整个生命周期中历时最长的一个阶段。 云数据中心的运维工作需要我们仔细分析,认真对待。从开源云计算社区openstack发布的模块来看,截止201411月,社区共有项目模块450个左右,模块数量前三的类型是“运维”、“易用性”、“上层服务”,其中运维模块数量第一,占到了153个。可见云计算的技术动向基本上围绕“如何运维”和“如何使用”。 我们今天的话题就先来说一说云数据中心运维的变化。说到云数据中心运维工作的变化,就要分析云的特点。云时代数据中心最明显的特点就是虚拟化技术的大量应用,这使得运维管理的对象发生了变化: 一、云数据中心运维对象数量激增。虚拟化技术将1台物理服务器虚拟为多台虚拟服务器,如果数据中心支撑业务需求规模不变的话,所需要的物理服务器数量将会减少,这与很多人认为的运维服务器数量激增是不符的,那么这个“激增”认识是如何产生的呢。可以这样分析,由于虚拟化技术进一步提高了数据中心各种资源的使用效率,同时大幅提高了业务需求响应能力,所以多个传统数据中心合并为一个云数据中心在技术上成为了可能。很多跨国企业采用云计算技术,实现数据中心101201的合并效果,也就是说如果原来在全球建设1000个数据中心,那么现在可以由50100个云数据中心实现对业务的支撑,在一个合并后的云数据中心内,所要运维的服务器数量绝对可以称得上“激增”,这里所说的服务器既包括物理服务器也包括虚拟服务器。与此同时,运维岗位也就是运维人员虽然也进行了调整,但是人员增加的幅度远低于设备的增涨幅度,也就是人均运维设备数量增加了很多,在这种情况下,如果不借助工具、系统,很难完成运维工作。 二、在传统数据中心中,设备都是物理的、真实的,位置也是相对固定,对业务系统来讲,交换网络、服务器、存储设备对象之间关联也是比较固定的,管理起来相对直观。在云数据中心,虚拟化带来了资源的池化,使得一切管理对象变成虚拟的、可灵活迁移的逻辑存在。虚拟资源可以随时创建、删除,再加上高可用需求、性能优化需求带来的虚拟资源迁移,虚拟资源所在的位置变得不固定了,虚拟资源与物理资源的关系也被解耦了,原来很多能说得清、找得到的资源现在不借助工具就再也无法说得清、找得到了。 三、在传统数据中心中,设备监控主要是采集故障、性能数据,容量一般来讲还不是运维层面的问题,而是规划的问题,当然这也带来了业务系统竖井、数据中心竖井的问题,以及业务资源申请周期长的问题。在云数据中心中,容量不仅是规划问题,同时也是一个运维问题。也就是说,在日常工作中,需要随时采集资源池容量数据,不仅要看资源池的总容量,还要看容量在各个物理宿主机上分布情况,以便满足高可用和迁移的需要。 四、云数据中心在管理虚拟设备时,接口的标准化问题。在传统数据中心内,物理设备已经形成了接口标准,提供运维数据,如snmpnetflow等。而对虚拟化设备,还没有形成国标或行标,对虚拟设备的运维还需要采用厂家标准。如果在一个云数据中心中采用了多个厂家的虚拟化系统,运维人员就需要熟悉多个厂家的界面。这个问题的解决,短期来看,需要一个融合的系统,为运维人员屏蔽多厂家虚拟化系统的差异,长期来看,希望能够形成各厂家虚拟化系统的统一接口标准。   云计算带来了IT服务成本的降低,提高了应对业务需求的敏捷性,同时,我们也要看到,如果云数据中心运维管理调整不及时,不但运维工作量不减反增,而且运维水平还会降低。      2、当数据中心发展到一定的规模,人们在数据中心管控要求的基础上,强调了流程化、自动化运维的模式,以便数据中心的运维工作能够更加快捷高效的开展起来,数据中心步入云时代,对于运维工作的流程化、自动化要求,云管理系统能给用户带来哪些价值?

 

虚拟化技术是云数据中心的特点,但是云数据中心不仅仅是虚拟化。云数据中心响应业务需求的敏捷性,基于虚拟化,这是云数据中心的技术基础。 云数据中心以租用的方式向资源用户提供云服务,包括IaaSPaaSSaaS。从运维的角度讲,云服务的提供者要如何保障用户获得需要的服务呢。 云管理系统保障分配资源给用户的动作是自动化的,也就是说所有操作完全在线上完成,并且支持批量处理。 在云管理系统中,可创建并保存三个层面的资源模板,分别对应IaaSPaaSSaaS三个服务层面。用户申请某个或某些服务时,云管理系统就会按照相应的模版去创建资源。这是最基本的虚拟资源分配动作。 复杂一些的操作是可配置参数的资源模板,用户在申请服务时或运维人员在点击资源创建按钮前,可以传递一些参数给创建程序,如操作系统的用户名、密码,那么云管理系统在基于相应模板创建虚拟服务器时,会按照参数设置服务器操作系统管理员的账号信息。 再复杂一些的自动化动作,是基于模板组合进行的、有顺序的、有条件的动作序列,一般用作响应需要多个资源进行部署的业务系统的服务申请,通过一系列操作,为该业务系统分配网络地址、服务器、存储空间,并进行相关的配置,可定义动作执行的顺序以及后续动作执行的前提条件。对于特别复杂的动作组,允许进一步分割,也就是定义子动作组。 上述三种操作都是线上的、自动化完成的,这样的好处就是提高效率。云计算的好处之一就是敏捷分配,如果用户申请后,还要线下做很多配置,就会明显延长服务交付时间。同时基于模板的自动化操作也减少了人工线下操作的不确定性。   上面说完了运维的自动化,下面再说一下流程化。在云管理系统中,服务流程既包含了ITIL流程,如事件管理、问题管理、变更管理、发布管理等,同时也包含了云服务申请和审批的流程,如服务开通、服务变更、服务终止等。云管理系统还提供流程设计器和表单设计器,方便运维人员修改系统提供的服务流程,或者根据需要新建流程。

 

3、云时代数据中心最明显的特点就是虚拟化技术的大量应用,这使得管理的对象也在变化。以前的设备都是真实的,位置也是相对固定,管理起来相对直观。而应用虚拟化技术的结果是将这些资源进行“池化”,使得一切管理对象变成虚拟的、可迁移的存在,如何帮助用户面对这种挑战? 我们在谈云数据中心运维变化时,曾经提到过这个问题。在云数据中心,虚拟化带来了资源的池化,使得管理对象变成虚拟的、可灵活迁移的逻辑存在。运维人员很难再说清楚虚拟资源与物理资源的对应关系。 云管理系统会采集虚拟资源的运行数据,即时掌握资源之间的关系。首先是虚拟资源与物理资源的关联信息,比如虚拟机运行在哪台物理机上。其次,虚拟资源与虚拟资源的关系,如某台虚拟机与哪个虚拟网络设备的端口连接,某个虚拟磁盘挂载到了哪个虚拟服务器上。第三,物理资源与空间资源的关联,可以定位资源的实际部署位置。第四,物理资源与物理资源的关联关系。第三点与第四点与传统数据中处理方式并无不同。第五,云管理系统,还能够管理资源与业务系统的关系,以及资源与用户的关系。 通过云管理系统,运维人员可以即时掌握云数据中心中有哪些资源,资源的运行情况,以及资源之间的链接,资源分配给了哪个用户、哪个业务系统,资源在哪,这个在哪既包括了虚拟资源的分布也包括了物理资源的位置。 可以这么说,云管理系统以服务租用的方式向最终用户屏蔽了云数据中心内的资源情况,但是运维人员通过云管理系统能够清清楚楚、明明白白的掌握资源情况,包括虚拟的资源,也包括传统的资源。     4、目前,云数据中心管理的最大挑战除了上面提到的流程化、自动化和虚拟化,同时还要实现异构资源的融合管理,在这方面云管理系统是如何满足的?

 

我们在谈云数据中心变化时,曾经提到过,如果云数据中心同时存在多个虚拟化系统,由于提供商执行各自的厂家标准,要如何去运维。当时我们提到了“融合”,也就是通过一个统一的管理系统,去融合、去屏蔽多个虚拟化系统的差异。 需要融合的虚拟化系统有很多,有商业产品,也有开源系统,在这我们不一一说明。但这只是虚拟资源范畴的融合,在我们实际的云数据中心运维工程中,我们发现,现阶段国内的很多云数据中心并没有全盘的虚拟化,这种现象在企业云数据中心中尤其普遍。企业中一部分业务系统部署在虚拟环境中,另外一部分业务系统部署在物理环境中,还有一些业务系统,部署环境同时存在物理资源及虚拟资源。 基于这种情况,云管理系统进一步扩大了“融合”的范畴,管理的资源范围不仅包括虚拟资源,还包括数据中心的物理资源、空间资源、动环资源,这样就把云数据中心全面地管理起来,既有传统的,也有虚拟的,而且传统资源和虚拟资源结合起来管理,使得云数据中心的运维更加的智能。比如,我要分配一个虚拟服务器,如果有动环资源的信息,我不仅可以基于宿主机也就是物理服务器的使用情况做策略,还可以考虑服务器所在区域的电能、冷能信息。 云数据中心是传统数据中心的升级,那么云数据中心的运维也应该是传统数据中心的运维升级,不应该缺少原有的运维能力。    5、云数据中心解决了业务系统部署的烟囱问题,通过资源池化及资源自动调度实现了灵活统一的业务部署,但不同的业务系统有其固有的专业性,对网络、计算、存储的规格要求各不相同,各个业务系统的服务要求、监控要求、故障处理要求等也存在差异,要做到业务系统的统一部署,又要满足特定需要,对于云数据中心“求同存异”的挑战,云管理系统是如何克服的? 云管理系统以服务租用的方式对云服务用户屏蔽了云数据中心的资源细节。以计算资源举例,一般情况下,云服务用户所看到的、分配给自己的服务器CPU

配置都是虚拟的,也就是vCPU,他和物理CPU之间并没有一个统一的对应关系,甲用户和乙用户同样的虚拟服务器配置,可能由于宿主机品牌、型号、虚拟化方式、超配策略等,在计算能力上会有较大差异,当然,云服务提供的成本也会存在差异。这个差异再加上监控、维护等增值服务要求的差异,构成了不同等级的服务水平要求。 云管理系统在资源池划分方式上支持这种服务水平的差异性管理。云管理系统支持几种划分资源池的方式,其中一种就是按资源池等级进行划分并进行管理。可以定义不同等级的资源池,如金牌、银牌、铜牌,把物理资源及虚拟资源调度到不同等级的资源池中,用户、业务系统具有相应等级资源池的配额,在配额内可以申请、使用资源。其实,关于资源划分等级的做法在传统数据中心就有,在云数据中心中只是加入了虚拟资源而已。    6、对于数据中心而言,能效的问题为大家所关注,绿色数据中心的话题也一直再提,云管理系统是否能有效帮助云数据中心降低能耗? 虚拟化技术带来的一个好处就是降低能耗,这是基于虚拟机迁移技术实现的。前提是业务量在某一时间段内下降,物理机资源在这段时间内存在一定比例的空闲。最好是空闲的比例和时间是能够预见的,一般来讲,这个时间是夜晚。在这个相对空闲的周期内,通过迁移虚拟机到值班物理服务器的方式,实现部分物理服务器关机休息,达到省电的目的。 云管理系统同样采用这种方式,通过一段时间的监控,分析物理机资源空闲情况,包括每台物理机资源的空闲比例和空闲时间,每台物理机上运行虚拟机的配置情况,分析最优的虚拟机迁移目的地,最优的值班物理机“人选”,做到既省电,又不会因为部分服务器“休息”影响业务的性能。

 

 

 

 tob_id_4978

 

 

 

统上运行,并且每台虚拟机都能及时的进行补丁更新。最后使用安全工具来提高虚拟化环境的安全性。虚拟化工具是有着最小化操作系统的虚拟机,这个操作系统的配置能满足应用程序的需求。  4、云数据中心的安全运维管理 由于提供服务的系统和数据被转移到用户可掌控的范围之外,云数据中心服务的数据安全、隐私保护已成为用户对云服务最为担忧的方面。云数据中心服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、Dos攻击等问题)外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题,例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS应用统一身份认证等问题。 要解决云数据中心服务引发的安全问题,云数据中心需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的帐号保密意识,可以提升用户对安全的认知;在服务管理方面,严格设定关键系统的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育;加强安全技术保障,要充分利用网络安全、数据加密、身份认证等技术,消除用户对云服务使用的安全担忧,增强用户使用云服务的信心。另外,云数据中心的安全运维管理要做到以下几点: 1)进入到云数据中心的业务平台,企业的敏感数据都存储在上面,必须对获准访问的IP地址加以限制或纳入某种形式的双因素认证,访问需要加密。 2)采用强概况限制,为数据中心服务器配置建立工作流程。这将防止不必要的DMZ或生产服务器建设,并保护企业的知识产权不会被暴露在不安全的环境下。这些资料必须结合企业的活动目录基础设施,所以当某位雇员被解雇,其获得的平台访问权限将被删除。 3)数据中心所有服务器都必须遵守配置管理政策如补丁管理、防病毒保护、禁用不必要的服务和中央管理。 4)具有涉及可用性和需要足够的故障恢复、灾难恢复计划,并满足企业级数据中心SaaS配置的应用程序将符合SAS70SSAE16规定。 5)数据中心运维服务必须提供强大的报告和日志记录,方便企业可以识别的任何滥用或安全问题。当然,这些日志必须能够兼容,能够被转发到事件监测设施。 因此,我们应采取各种安全手段或措施,控制企业级数据中心运维管理服务的各个环节,保护数据中心运维管理服务中的物理安全、网络安全、系统安全、应用安全和数据安全等。 五、企业级灾备中心的运维管理 大型的数据中心都建有相应的灾备中心,灾备中心建设后,应当建立健全的灾难恢复管理制度及灾备中心运营管理制度:主要包括有灾难报告制度,灾难恢复审批制度、灾难恢复处理流程、备份系统日常运行管理制度、备份系统替代运行状态下的运行制度、数据一致性认可程序、生产系统复原后的回切处理流程、备份系统测试、灾难演习制度等等,这些制度都是确保灾备业务正常运营的强有力的措施,为今后的灾备业务的价值发挥起到关键支撑作用。 灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程。

 六、企业级数据中心运维管理的自动化 目前数据中心面临几个主要的挑战,都需要自动化的手段予以解决,包括数据中心架构和运维的复杂性、运维成本日益提高、满足内部服务要求和外部合规要求等,数据中心面临的最大挑战就是如何实现自动化管理,从而提高IT服务速度、降低管理成本和风险。日益增加的运维压力以及**的平台和技术使得IT运维自动化已经成为数据中心的重要内容,IT运维自动化可以帮助IT团队实现资源转型,从而提供更高水平的服务。  1整体功能   企业级数据中心自动化运维管理平台主要实现业务系统运维自动化、批处理作业操作自动化和同城灾备切换自动化等功能,通过运维流程整合,满足数据中心日常网络、系统、应用及环境监控,监控事件和告警等运行维护,建立一个基于ITIL的管理标准化平台,运用科学化、标准化的IT服务管理模式,实现配置、问题和事故处理、变更、应用和报表等多种变更请求管理的标准化。  2统一的运维管理平台

 

 

 对企业级数据中心IT基础设施日常运维管理实现自动化操作,自动化运维平台完成数据中心管理规范强制自动化操作,实现数据中心运维管理全生命周期的自动化以及运维各种资源可视化展现等功能,通过众多运维团队和岗位的统一运维管理平台,最终实现数据中心IT运维管理的自动化。3数据中心运维管理自动化   企业级数据中心运维管理自动化主要包括例行检查自动化、事件和故障处理自动化、软件安装部署自动化、资源调度自动化、变更控制自动化、合规审计自动化、操作流程标准化和自动化、CMDB更新自动化等。八、总结    企业级数据中心运维管理主要是降低运维的复杂度,减少人为操作失误带来的故障,强化管理人员对操作者和整个系统的控制和监管能力;减少日常重复运维工作的人力资源,使技术人员能够将主要的精力放在系统、流程的优化上面,整个运维工作步入良性循环。逐步完善数据中心运维管理自动化,实现虚拟化技术、运营协调、网络负荷管理、服务器自动化、存储自动化、策略设置等完整自动化功能,帮助用户充分应对业务和管理挑战,实现手工流程自动化,在节约成本的同时,真正帮助企业实现安全、高效和7x24

TAG:

 

评分:0

我来说两句

日历

« 2024-04-23  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 36776
  • 日志数: 55
  • 建立时间: 2014-06-19
  • 更新时间: 2017-08-29

RSS订阅

Open Toolbar