在上个世纪80年代中期,英国政府为填补IT服务管理方面的空白,英国政府中央计算机和电信局CCTA(Central Computer & Telecommunications Agency,后来并入英国商务办公室OGC,Office of Government Commerce),发起成立专门项目,通过深入研究和总结各个组织的实际经验(最佳实践best practice),找出IT运营管理中什么起作用而什么不起作用。CCTA在项目进展中,结合了政府部门和企业界各方力量,同时放眼欧洲和美国(包括HP、IBM等企业)。经过几年的深入研究,CCTA发布了IT服务管理的最佳实践―ITIL(IT Infrastructure Library,IT基础设施库)。这是一套系列书籍(其中最早的一本于1998年出版),基于最佳实践,在提供符合业务部门要求的IT服务方面,给出了通用的指导。
2001年英国标准协会(BSI)在国际IT服务管理论坛(itSMF)年会上正式发布了以ITIL为基础的IT服务管理英国国家标准BS15000。2002年BS15000被提交给国际标准化组织(ISO),申请成为IT服务管理国际标准。国际标准组织在2005年5月以快速表决方式通过(fast track)这一申请,在2005年12月就正式发布了ISO20000。
ISO20000包括两个部分。第一部分ISO20000-1是一套正式标准,陈述了企业该如何遵循这套标准,并依靠这套标准通过认证,内容覆盖了如下需要遵循的要素:管理系统、服务规划、流程关系、服务交付、控制、发布。第二部分ISO20000-2是众所周知的“实践指导”,对空洞的需求作了详述,给希望通过该标准的服务提供商提供了解释和指导。这一部分同样遵循了第一部分的框架,但很少使用术语,并给予了适当的解释。
从生命周期的观点看,系统的设计、开发(购买)和实施只占20%的时间,而系统的运维则占到整个生命周期的80%的时间。世界权威的IT研究机构Gartner的调查也发现,在导致IT基础设施经常出现故障的原因中,源自技术或产品(包括硬件、软件、网络、电力失常及天灾等)方面其实只占了20%,而因为管理方面的原因则占到80%。
ITIL将IT服务管理分为十个核心流程和一项管理职能。这十个核心流程分别是服务级别管理、IT服务财务管理、能力管理、IT服务持续性管理、可用性管理、配置管理、变更管理、发布管理、事件管理、问题管理,一项管理职能是服务台。
也可以把ITSM的核心流程和模块划分为:IT服务支持(IT Service Support)、 IT服务交付(IT Service Delivery)和服务台(Service Desk)。
IT服务支持(IT Service Support)关注于IT基础设施的日常服务支持,它提供了以下5个基本的相关管理流程:
1. 突发事件管理 (Incident Management)
2. 问题管理 (Problem Management)
3. 变更管理 (Change Management)
4. 配置管理 (Configuration Management)
5. 应用发布管理
IT服务交付(IT Service Delivery)功能与组织每年的规划周期和每年持续的评估息息相关。因此,IT服务交付形成了一个逻辑严谨的功能组。主要的五个功能是:
1. 服务级别管理(Service Level Management)
2. IT服务财务管理(IT Service Financial Management)
3. IT服务连续性管理(IT Service Continuity Management)
4. 能力管理(Capacity Management)
5. 可用性管理(Availability Management)
这些流程和职能之间的关系如下所示:
服务台:用户和IT服务组织的中心联系点,是一个服务职能,是IT服务方为用户提供一个唯一的联络窗口,管理客户请求、协调支持人员的工作,直至故障被解决。
事件管理:事件管理是处理服务台所反应的、每天的、日常问题。通过事件管理,尽快恢复IT的正常服务。
而一个”事件”是指不符合标准操作的服务、或服务的中断、或IT服务的降低。例如事件既包括软件、硬件、系统故障,也包括服务请求。事件也叫突发事故。
而事件管理的目标于在成本效益的价格下,尽可能的恢复正常的业务流程,将对业务的不利影响降低到最小,从而确保维持服务质量和可用性的最高水平。
事件管理的输入主要来自用户,但也可能来自管理系统的信号或监测系统等其他来源。事件管理的输出则是RFC(变更申请Requests for Changes),解决与关闭此事件。
上图中,所谓匹配是指:检查一下事件是否可能与某一原有事件、问题或已知错误有关,查看是否已有解决方案或临时的救急措施。
问题管理:问题管理的目标是消除引起事件的深层次根源,以防事件再次发生,将事件对业务的影响降到最低程度。
问题:多个具有相同症状反复出现的事件、或者出现一个严重的未知根源的故障。 已知错误:经过诊断和分析后,成功找到一个问题的根源故障的情况,即已知哪个配置项出现的错误。
临时措施Workaround:是避免事件或者问题的方法,也许是一个临时补丁,或者是能够避免已知错误的技术。
问题管理扮演重要的角色,通过提供临时救急措施(workarounds and known errors)解决方案,避免问题的再度发生。
问题管理不同于事件管理,问题管理主要的目的为找到解决问题的根源,防止事件再次发生;事件的处理是尽快恢复服务的正常水准,哪怕是临时的应急措施,尽可能使业务影响最小。
配置管理:通过识别、控制、维护和确认所有配置项,为IT基础架构提供逻辑模型
变更管理:确保使用标准方法和规范流程提出变更,确保经授权地处理所有IT基础架构变更
发布管理:确保以协同的方式发布所有技术和非技术的内容
服务级别管理:通过确认、监控、报告和评审IT服务的成本效益这样一个循环维持和不断改进IT服务质量
IT服务财务管理:配置成本效益比合理的IT资源为业务部门提供IT服务
(IT服务)能力管理:在成本和业务需求的双重约束下,通过配置合理的服务能力使组织的IT资源发挥最大效能
(IT基础架构的)可用性管理:通过分析用户和业务方的可用性需求并据以优化和设计IT基础架构的可用性,从而确保以合理的成本满足不断增长的可用性需求
IT服务(保持客户业务)持续性管理:确保发生灾难后在预定时间内必需的IT技术、相关服务设施能得以恢复以支持业务持续管理