概述
从2000年1月起,美科利托管服务(Mercury Managed Services™)已经与世界上1000多家主要公司合作,为他们的核心业务流程设计并部署有效的应用管理实践。正是在这些经验基础上,美科利创建了一套久经考验的最佳实践,它能有效地完成应用管理的开发和实施。
美科利通过分析这些最佳实践方法,开发出了优化应用性能和可用性的“十大步骤”。此篇将阐述此十大步骤,并将选取某个美科利的主要客户作为应用管理的案例分析。此文结尾将简单回顾使用美科利托管服务的优点:它能使机构迅速、正确、低成本地实现以业务为核心的应用管理战略。
目录
概述
以业务流程为角度的应用管理
优化应用性能和可用性的十大步骤
第1步:了解机构的主要业务目标
第2步:分析应用,定义监控目标
第3步:组建合适的小组
第4步:决定使用哪种类型的监控器
第5步:准确捕获业务流程
第6步:选择监控地点
第7步:减少识别平均时间
第8步:实现服务水平目标
第9步:预防错误警报
第10步:建立监控数据信心
美科利客户(跨国制造业公司)的成功案例
第1步:了解机构的主要业务目标
第2步:分析应用,定义监控目标
第3步:组建合适的小组
第4步:决定使用那种类型的监控器
第5步:准确捕获业务流程
第6步:选择监控地点
第7步:减少性能或可用性问题的平均识别时间
第8步:满足服务水平协议,实现操作水平目标
第9步:预防错误警报
第10步:建立监控数据信心
美科利托管服务的优点
总结
以业务流程为出发点的应用管理
当今,许多企业仍然只以IT系统为出发点来管理其主要业务应用的可用性和性能。虽然IT系统的监控是必要的,但是,它仅仅只是一个完整的应用管理卓越中心的一部分。对于那些只懂得管理IT系统的机构来说,应用管理完全被IT重点所驱动,而这些IT重点往往与总体的业务目标和公司的最终用户需求毫无联系。
在使用多种系统、网络、应用和管理工具的情况下,IT部门往往需要从细处着手去完成系统性能分析的任务。虽然这些工具能测量并监控IT基础架构中单个组件的健康度,但是它们无法提供整个企业的主要业务应用是否确实达到公司目标和强制要求。使用那些未经整合的局部解决方案,IT部门无法了解到整个应用服务水平,无法主动检测和预防可用性或性能问题,也无法确定故障对客户、合作伙伴或员工所产生的影响。
当今企业急需一种新的应用管理方式,它会关注整个业务流程,并从最终用户的角度来进行衡量,而不再只是汇报单个IT系统的运行状况。一个整体的、集成的应用管理方式能把局部解决方案和业务流程联系起来,提高应用质量和服务水平。
有效的应用管理解决方案具有以下功能:
• 统一IT目标和业务优先权。
• 根据以业务为中心的服务水平来管理各种应用。
• 提供即时检测,汇报计划中或计划外应用可用性的变化。
• 确定无效性和低性能对业务影响程度。
• 预防——而不是简单回应——应用问题。
• 降低IT基础构架和运作的总成本(TCO)。
对于每个企业来说,采用综合的、以业务为核心的应用管理方案是成功的关键。但是为了保证这一转变的成功,每个机构必须首先仔细检测这一新应用管理方法在组织上、行政上和技术上引起的所有问题。
优化应用性能和可用性的十大步骤
美科利使用最佳实践,开发出了十大步骤方案,用于设计和实施有效的应用管理基础。通过这些步骤,各企业能从以基础架构为核心的监控方式转变为全面的以业务为核心的应用管理方式。
.
第1步:了解机构的主要业务目标
为了设计和实施一个稳固的应用管理,首先要彻底检查和了解该企业的主要业务目标。需要提出的问题包括:
l 对于企业来说,什么业务流程是最主要的?例如,公司的“报价到现金(quote to cash)”应用比“增加新员工”的公司人力资源(HR) 系统哪个更重要?企业的业务流程管理人员必须与IT人员合作,按照优先级为这些系统排序,以区分所有各个应用管理的重要性。IT将定义所需的监控水平,其中包括对每个应用的监控频率和监控地点数量。一旦出现问题,IT将根据这一信息来分类筛选并诊断问题。
l 应用的可用性到底指什么?它是否表示24x7x365,或者只表示在典型业务操作时间内该应用必须保持可用性?还有,此业务流程是否需要在某个性能水平上进行?速度多快才足够?在远程监控中是否能接受不同的性能水平?在应用管理小组工作之前,必须清楚定义和表达可用性和性能要求。
l 是不是高峰时段对应用可用性的要求更大?某个公共交易公司最近遇到了极大的困难:在该公司宣布季度收益的同一天,该公司网站中断了2小时。显而易见,时间是非常关键的因素,应该把它作为整个应用管理计划的一部分。把应用管理建立在业务方式基础上后,IT就能把服务水平目标和业务重点统一起来。
第2步:分析应用,定义监控目标
在完成所有重要业务目标定义和排序的任务后,理解每个应用和业务流程的关系是非常重要的。这将有助于IT根据业务重要性为每个应用建立监控目标。
企业选择应用监控的原因是多种多样的。监控信息可用于多种目的,其中包括:
l 进行竞争性分析——与其他竞争者相比,测量某个应用的服务水平。
l 定义或验证内部或外部(第三方)服务水平协议(SLAs)的可用性和性能。
l 收集信息,改进最终用户的使用体验。
应用监控能提供一个正式而连续的流程去测量应用可用性和管理最终用户体验。仔细定义完监控目标后,适用的应用管理流程就开始了。
第3步:组建合适的小组
一旦完成所有的业务目标的定义和所有监控目标的理解,就该创建一个跨功能应用管理小组。这个小组应包括:
1. 应用管理管理人员,他将负责整体监控战略的成功,也负责运作共享服务小组。
2. 性能工程师,他们提供在使用方案、阀值、警报和脚本开发方面的专业技术。
3. 网络运作专家,他们通过网络或电话提供支持,保证系统全天候有效地运作。网络操作中心是应用管理的第一层级支持力量。
4. 各种IT资源,包括数据库管理员、应用管理员和网络管理员,他们负责保证应用管理系统的正常运行和性能。
5. QA 资源,策划应用管理系统和运行大量的性能和功能测试。
6. 安全管理员,他将建立安全程序,其中包括密码政策、实际安全和路由器/网络安全。他将不断进行定时的强制侦察扫描和彻底的安全检查。
要建立一个成功的应用管理就必须拥有一个强大的、集中的、跨功能的小组。
第4步:决定使用哪种类型的监控器
共有三种类型的监控器,它们相互补充,共同实现广泛的应用管理实践:
1. 业务流程监控器,模拟用户进入应用的状况,主动测量出实际业务流程的可用性和结果。业务流程监控器能回答这样的问题:一段时间内,应用的端到端性能如何?这些监控器应该能够在系统低速运行或业务流程无效时主动警告应用所有者。业务流程监控器可以放置在公司基础架构内部或外部,这主要取决于业务的要求:
l 内部运营点(PoPs),它是安装在内部主机上的代理,为那些需要从防火墙后进行监控的客户或需要确切衡量数据的客户,发送性能和可用性数据到中央存储器。内部PoPs用于监控例如ERP或CRM系统等内部应用系统。它们也可被用于与外部PoPs的连接中,帮助筛选——了解问题到底存在于公司内部基础架构还是外部系统中。
l 外部运营点——从位于公司防火墙外部的多个地点测量业务流程性能。外部PoPs提供有用的Internet用户进入应用后的体验信息,并提供给客户这些信息,否则客户就无法在全球范围内监控应用系统。
2. 真实用户监控器,它能在用户穿越网络应用系统时,主动获取定量的测量数据。真实用户监控器使IT能够从任何一个点,在任何时间测量到每个在线用户的状态,帮助IT测量出问题和中断的影响并且隔离真实用户趋势。这些监控器能回答这样的问题:公司五大常用网页的响应时间和可用性如何?哪些属于运行最差的五大交易?
3. 客户监控器,当特定的已知用户进入所定义的某个业务流程时,它能捕获他们的实际测量值。它们帮助IT测量服务中断对于用户的影响程度,把平均值和变化值相隔离,并且根据对业务或用户的影响程度来确定IT响应先后秩序。当台式机、手提电脑和PDA等设备在公司应用系统中进行交易时,客户监控器直接从这些设备中收集性能数据。无论用户位于防火墙内外,这些监控器都能通过“last mile”联接或用设备本身系统,把最终用户性能问题和瓶颈问题相互关联起来。它们帮助回答这样的问题:对公司已知用户(例如:客户支持代表)来说,业务流程的性能和可用性如何?
应用管理监控器共有三种类型:业务流程监控器、真实用户监控器、客户监控器
最佳实践方式表明,为了彻底理解和管理应用行为,应该使用所有这三种监控器。
第5步:准确捕获业务流程
业务要求和监控器类型一旦确认,就该开始捕获实际业务流程了。应该考虑的因素包括:
l 在端至端的业务流程中包含那些内容?
l 客户是如何进入业务流程的?我是否应该同时衡量dial-up和WAN的使用体验?
l 当某个特定的服务器在被使用时,我是否需要观测端至端的性能?或者当负载平衡器在被使用时,我是否需要观测性能?
l 他们是否支持Java或Active X等复杂技术?
选择例如“连接时间”或“下单时间”等这样具有意义的的测量点是很重要的。应用数据准确性的核实也是非常重要的。当然,在可能的情况下,如果应用监控小组能重复利用现有的负载测试脚本,或者使用从先前完成的负载测试项目中获得的技能,这将有利于节省时间。
第6步:选择监控地点
为了更好地测量模拟业务流程监控和客户监控的实际用户状况,监控应用系统是非常必要的。
l 当用户位于特定的地理位置(例如:一个ERP系统在旧金山、巴黎、法来克福和新加坡等地的办公室)时,用户的实际确切位置在哪?
l 用户位于不同地理位置时,使用PoPs。在全球使用大量的PoPs,有助于IT了解所有全球各客户的特定状况。有些用户通过Internet进入应用系统,PoPs则能帮助IT了解到网络延迟对其性能的影响程度。
l 选取具有代表性的用户,采用客户监控器捕获数据。
l 在现行的数据中心内取得基线信息,判断性能问题到底出在公司内部还是外部。
第7步:减少识别平均时间
有效的应用管理流程将大大改进业务性能,其中包括由“先发制人”的方式所产生的较高的整体服务水平;也将降低可用性和性能问题的平均识别时间(MTTI);同时也将减少问题解决平均时间(MTTR)。取得这些成果的原因是:
l 执行了由上至下的应用管理,监控实际业务流程,而非仅仅只是基础架构组件 。
l 集成了各种基础架构监控器和/或现有的EMS系统。
l 创建了一张逻辑应用映射图:
l 从一个单一的、直观的控制面板观测到了所有信息。
l 便捷地关联起监控信息,帮助判断引起应用性能问题的原因。
第8步:实现服务水平目标
企业可以监控两种类型的目标:
• 操作水平目标(OLOs),主要与系统正常运行时间相关。
• 服务水平目标(SLOs) 与最终用户相关,衡量实际应用和业务流程端至端的状况。
因为衡量OLA的顺应性比较直接,所以许多企业都是由此开始的。通过现有的系统监控器,计算服务器和网络的正常工作时间,并且提交周报、月报或季报,从而测量到OLAs。
但是OLOs并不能代表应用性能或可用性,这是它的一个限制,所以测量端至端的SLOs是非常重要的,因为它们将反映应用是否如预期的一样运行---而不仅仅只是服务器是否正常运行。服务和操作协议应被即时监控,随时向机构警告性能下降问题,排列应用的优先秩序;并且应该从历史角度观测,提供达到服务和操作水平协议所需的数据。
正如在第2步所提到的,精确定义服务和操作水平目标,保证具有强大的业务管理来支持这些协议,这是非常重要的。定义性能水平时,应关注所有的维护窗口,使这些停机期间不影响协议性能。最后,支持所有协议的执行水平报告应该简单易懂,并能在需要时,进一步提供其他水平的细节信息。
第9步:预防错误警报
有效的应用管理解决方案应具有广泛的报警能力,包括主动探测性能问题,最小化中断的风险,加快问题解决速度。应用管理警报启动应配置多个复杂逻辑,预防出现警报泛滥和错误警报。当开始一个新的应用管理系统时,操作小组往往会怀疑最终用户监控警报,特别是当他们原来的系统监控没有相应的反映时。正是由于这个原因,预防错误警报就变得更重要了。
发生以下情况时,应该发出警报:
l 发送了错误内容
l 某个重要交易的响应大大超时
l 可用性问题