网络安全 频道

业界自动化程度最低的是 IT 行业

    你知道业界自动化程度最低的是什么行业嘛?你可能会想到纺织、金属冶炼等传统行业,其实不然。

    “IT行业是自动化程度最低的行业,目前多数IT管理均是依靠网络管理人员手动进行管理。” Opsware 公司负责研发的首席技术官兼执行副总裁 Tim Howes 所言着实让人吃惊。不过静思几分钟后,作为网络运维人员的你,或许会有此感受。

    对于任何大型IT系统的运维工作来说,最基本的要素不外乎两个方面。一方面是运维对象,即运行各种应用的IT基础设施,包括网络、服务器、存储和各种数据库、中间件等;另一方面是运维主体,即一个日趋庞大复杂的运维团队,其中包括系统管理、网络管理、应用管理、生产调度、安全检查等多种职能人员。

    IT运维的基本目标就是通过运维主体的日常工作,保证运维对象的安全稳定运行。但要实现这一目标,必须为运维主体提供一系列工具类系统,使其具备实现目标的能力。都需要哪些辅助系统呢?

    首先需要运维主体需要眼睛,因为究竟系统中发生什么问题,运维人员单靠肉眼是无法发现的。我们所说的传统意义上的网管主要致力于为IT运维人员提供发现IT系统中的故障、事件和运行情况的一双眼睛,使IT运维人员能够在第一时间发现系统问题,甚至能对某些事件进行预警。像HP Openview、Micromuse NetCool等主要实现这一功能。

    其次运维主体需要一个有指导性的笔记本,该笔记本为日常运维流程提供了一些标准格式,并使运维人员可以在这个笔记本上记录下他们日常的运维工作,这也是ITIL等IT运维非常好的实践和标准所给出的建议和要求。如HP Service Desk、BMC Remedy等主要实现这一功能。

    其实今天,具备一定IT管理水平的企业,上述系统已经基本实现。假若你在这样的企业中出任网络运维人员的话,你可能很快就会发现这些系统的上线虽然在一定程度上改善了运维的反应时间,并建立了标准的运维流程,但也带来了一个很大的问题,那就是众多的事件和流程要求都大幅提升了工作量,而且这种繁琐复杂的工作量的提升规模几乎无法靠增加运维人员的方法来解决。以今天IT系统的规模、复杂度和流程化、标准化的要求,自动化已经成为IT运维部门的必然的选择。

    正如古人所言——“工欲善其事,必先利其器”,IT管理服务实现自动化无疑成为提升企业信息化管理水平的根本。

    PAS 7将分布式数据中心的工作流程自动化

    Opsware 公司日前推出 Opsware流程自动化系统 PAS7(Process Automation System 7),可大幅地增加即拆即用的工作流程的数量,针对大型企业用户的要求提高了可用性,并提供与复杂异构环境的无缝整合——提供更快的ROI、并轻松满足信息技术基础设施库(ITIL)及其它以工作流程为中心的业务流程。

    Opsware 公司将 PAS流程自动化系统、SAS服务器自动化系统 和 NAS网络自动化系统相整合的创新能力是PAS 7产品欲获得成功的关键因素,它可使客户获得了较高的优势。

    Tim Howes 认为:“PAS7 流程自动化系统是业内领先的IT运维手册自动化软件的主要更新版本,它进一步兑现了 Opsware 公司的愿景,即帮助客户实现零延时的数据中心。”


    由于和 Opsware公司的整套自动化软件紧密整合,Process Automation System 7 使客户能够将流程自动化和变更自动化功能整合进一个生命周期管理解决方案,从而为重要的应用软件提供极快的上市时间,并实现极低的成本。例如,某Opsware的大型银行客户部署了 PAS流程自动化系统 及其它Opsware产品,建立起了一个符合ITIL要求的应用软件版本管理解决方案,该解决方案整合了变更和流程自动化功能。通过内置的审查跟踪技术,PAS 7能够为最严苛的企业环境提供必要的控制、预部署及配置功能。

    PAS 7 的各项改进使客户获得了更高的能见度和操作控制,因此 IT 部门能够更为迅速地发现其环境中的故障,实现事故修复及变更协调自动化。Process Automation System 7 提供多种重要的增强功能,包括:

    一、适合企业部署的扩展平台

*     企业级的安全性 - 该软件通过单点登陆、支持Kerberos协议、以及定制角色以适应各种复杂的安全模型等,为客户提供企业级的安全性
* 内置的负载平衡器 - 该软件目前直接提供高可用性和故障恢复功能,使管理和配置该功能变得更加容易
* 支持64位 - 该软件支持64位Oracle及Linux,因此符合包括大型金融服务客户在内的全球性企业的需求
*
    二、在高可用性方面

*     内置的调试器 - 该软件使IT部门能够逐步调试工作流程,以保证它们在部署之前能够正常运行
* 轻松查看工作流程 - 该软件使用户能够快速查看流程,并通过Web用户界面迅速放大以查看细节
* 双屏支持 - 该软件提供一个高分辨率的流程图,除了在输出/结果屏幕上显示外,还能够在一个单独的屏幕上显示,从而轻松查看变更对环境造成的影响
*
    三、综合的工作流程及内容

*     Opsware 加速器包 - 该软件整合了Opsware SAS服务器自动化系统和NAS网络自动化系统的客户最常用的工作流程和操作,从而提高了整个数据中心的运营效率
* 更深入地支持各种异构环境 - 该软件目前提供Microsoft Operations Manager (MOM) 2007和CA Unicenter NSM的整合包
* ITIL 加速器包 - 为了帮助企业实施ITIL,该软件提供在所有ITIL流程中能够代表ITIL非常好的实践的即拆即用工作流程模板
* 应用服务器加速器包的更深度内容 - 该软件包含 WebLogic、Jboss 及 WebSphere 的新工作流程和模板
*
    Opsware的自动化运维操作管理平台产品帮助IT机构自动化管理IT基础实施的部署、配置、补丁管理、变更管理、安全管理、审计管理、系统恢复、迁移和集中等关键的IT运营任务。目前全球已经有超过350家大型企业、政府机构和运营商使用Opsware的IT自动化解决方案。

    IT 管理自动化对实现ITIL具有重要意义

    Tim Howes 介绍道:“PAS 7,这个最新版本增强了企业级功能,并为 ITIL 流程提供大量的即拆即用工作流程,以便能够与各种领先的应用服务器整合,更好地支持各种异构环境,以及深入整合整套 Opsware 软件。它还含有各种重要的可用性增强功能,进一步强化了流程自动化软件中本已非常好的的用户界面。”

    ITIL(IT Infrastructure Library)是目前比较广泛应用的与IT 服务管理相关的框架,被企业用户广泛采用,作为设计整个企业IT 服务管理框架的指导思想和理论支持。

    在ITIL的框架中,与IT运维管理紧密相关的就是服务管理中的“服务支持”和“服务提供”部分。我们考察其中的主要内容,就能够发现Opsware自动化运维操作平台对于成功实施ITIL具有极其重要的作用。

1. 意外事件管理

    ITIL定义了意外事件管理主要是处理发生的故障,包括对实际的故障从发现,请求,报告的整个过程,其目的是快速恢复由于故障造成的业务中断,可能是对故障的彻底解决,也可能采用应急或临时的解决办法。在故障恢复后,一定要进行问题分析,以彻底解决问题,防止故障的再次发生。

    很多客户在实践ITIL的过程中会率先实施这部分功能,通过HP Openview、IBM Tivoli、CA Unicenter等网络/系统监控软件来实现“意外事件管理”。然而多数情况下,只做到了了“监”,而没有做到“控”。也就是说,IT人员可以通过上述软件看到发生了什么故障,甚至可以了解若干故障之间的关联和受影响的业务等,但是解决这些问题往往还是需要运维人员手工的操作,这就使得运维的效率出现了“延迟”;如果故障数量太多,超过了运维人员的处理极限,哪怕是很小的、很容易解决的故障,都会因为延迟累积而放大故障效果,直到影响业务的正常运转。因此,一个自动化的运维平台对于实现ITIL“意外事件管理”是至关重要的。

2. 问题管理

    问题管理主要关注于跟踪已经确定的已知问题的处理和IT基础架构的长期的稳定性。与意外事件管理的侧重不同,问题管理流程侧重于发现故障的真正的原因,并避免问题的再次发生。对于意外事件管理中虽然已经恢复但是还没有找到原因和采用临时措施解决的问题,需要通过问题管理流程进行问题的分析、诊断,找到问题原因和避免问题再次发生,或者在发生相同故障时,可以快速恢复。

    一个强大的运维操作平台,能够向IT技术专家提供丰富、即时的系统配置信息,可视化地展现网络、服务器、存储、应用之间的映射关系,帮助运维人员快速定位、诊断问题。

    当问题得以解决,形成宝贵的运维经验或知识,通常情况下,这些知识被记录在纸上或者录入到知识管理系统,以备将来发生类似问题时查询。而运维操作平台可以将这些知识固化到企业的IT系统之中,当问题再次发生时,IT系统可以自动的做出反应,将问题解决。

3. 变更管理

    变更管理流程目标是实现在可控制的方式下处理变更的过程。在影响网络可用性的诸多因素中,非法或者随意变更造成的故障占有重要的比例,有统计数据表明,80%的网络故障都与变更有关,因此需要严格控制变更,以提高数据中心的可用性。

    其实,变更就是操作。对于数据中心,变更操作往往是针对一批设备,可能是几十、上百甚至数千台,人工实施变更无疑效率低,出错概率高。运维操作平台的主要功能之一,就是要提供一个自动化的操作工具,使得运维人员能够高效准确的完成对批量设备的变更操作,并自动进行验证;同时,任何一个变更都是在严格的权限控制和记录下进行,做到“按章办事,有据可查”。

4. 配置管理

配置管理负责产生和维护基础架构的资源配置信息。对于每天发生的意外事件,问题,变更处理,新服务的部署,与提供一个服务有关的所有组件的信息都是至关重要的。“配置管理”的职责就是提供和维护这些信息,配置管理是与“服务管理”有关的最复杂但是又是非常重要的任务之一。

    配置管理在ITIL的框架中,是所有流程的一个基础信息,被所有的服务管理功能组件使用,需要保持其信息的准确和及时性。配置数据库保存当前的,历史的配置数据;必须定义和维护属性以便实时追踪CI的配置。同时需要通过相配套的变更管理流程,确保数据库的信息准确。

    根据Gartner对CMDB调查和总结,确定了CMDB的几项关键要素,也就是说CMDB需要符合这些要素才能有效的支持企业IT服务管理的建设目标:
1) 联邦:将来自不同数据源的配置项目信息整合到一个统一的CMDB中。
2) 调整:通过对来自每个数据源的匹配字段进行对比,自动保证 CMDB中的记录在多个数据源中没有重复现象,维持 CMDB 中每个配置项目数据源的完整性
3) 同步:确保数据是更新的,反应真实状况。
4) 映射与可视化:通过可视化的视图将配置项的依赖关系和服务的支撑关系展示出来

    与上面Gartner对CMDB定义的关键要素相对照,现实情况是客户往往实施的CMDB是静态的,靠人工来将不同数据源的配置信息更新到CMDB中。这样建立的CMDB无法真实地反应当下IT基础设施的真实状态,原因就是CMDB没有与运维平台紧密集成。建设运维操作平台,不但需要对IT基础设施的方方面面进行高效自动化的操作,还应当提供统一的数据模型,自动化地更新CMDB相关配置项

5. 版本管理

    版本管理主要指规划和实施版本,一般针对软件和配置。企业保持对版本信息的控制和一致对于提高可用性非常有帮助。比如网络设备的IOS版本,或者配置参数应该尽可能的统一管理,减少随意性。

    版本管理与变更管理流程需要协同工作,因为任何一个版本的下发,都是一个变更的过程。版本管理落实到IT系统中也是变更操作,统一的、标准化的操作平台必不可少。

    6. Service Desk服务台

    服务台不是一种流程而是一种功能,其主要目的是为服务的用户提供一个唯一的接入点。服务台充当着服务用户和支持服务的人员之间的信息沟通通道。

    提供高品质的服务需要处理方法和流程,以便尽可能快的发现和纠正问题。当一个问题被报告,它被服务台记录为一个事件。这种事件控制机制需要不断的确认问题已经有人去关心了,同时也要确认同样的问题报告只被处理一次。当一个问题被报告,服务台将进行响应,并针对问题提出解决方案。服务台可以,但是并不一定需要去鉴别,测试以及实施这个解决方案,服务台的责任是继续跟踪这个问题,确认它能在服务水平规定的时间内被解决,并且在必要时提升这个问题的优先级别。

    自动化的运维平台能够将监控系统、工单系统、诊断操作、变更操作、审计工具等各个运维子系统整合在一起,形成闭环的自动化服务流程。这样,服务台不仅仅是IT服务流程的入口和跟踪报告的窗口,它被赋予了更多的能力,甚至是解决问题的能力。

    将服务流程自动化,实现的目标第一是“提高效率”,第二是“标准化”,这也是实施ITIL非常好的实践最终目标。

    在ITIL管理框架中衍生出来的安全管理和知识管理中,无一例外的均需要一个强大的运维操作平台与之结合,强制落实安全策略、进行安全审计、提供补救措施、积累企业运维经验、固化非常好的实践。

0
相关文章