随着数据中心生命周期中业务的增长,设备的变量是不可避免的,尤其是数据中心的设备变更可以说是每天都在进行。如果没有良好的变更管理,可能导致混乱,以致于下一步的变更无法进行。因此,对变更过程进行管理是DCIM系统的重要环节。
变更管理的定义是指在维护过程中对系统或服务所作出的各种改变,包括增补、移除和其他修改。数据中心基础设施类的变更表现形式为:环境(电力系统、空调、布线、建筑物、安防系统、消防系统等)、系统硬件/网络硬件(安装、升级、维护、搬迁、删除等)。
从配置库(CMDB)来看,即任何生产环境的配置项属性的改变均为变更。变更管理的目标即规范数据中心各类变更活动的管理,消除或降低变更风险,减少变更对生产运行的影响,保障各系统的安全、稳定运行。 二、变更管理角色和分类
基础设施的变更管理可参照IT基础架构的变更管理规则设定如下角色:
角色 职责描述 负责流程的设计、回顾和改进; 流程文档的更新维护; 维护标准变更清单内容; 设定流程的绩效指标并考核指标完成情况; 收集汇总流程信息,编制管理报告,反映存在问题,提出改进建议,制定改进计划。 审批变更计划、方案以及相关文档。 负责管理变更流程,更新流程文档,监督流程的执行; 负责管理变更工具,保存变更记录; 负责协调变更实施,组织回顾变更,验证结果; 变更实施结果通报,并验证变更计划执行情况; 确认变更质量,关闭变更。 提交变更申请,生成变更记录; 提供详细变更方案,包括但不限于: 详细变更计划,包括每个变更步骤 回退方案、测试报告等 关联影响分析(受影响的用户、系统、服务等) 指明变更的执行人、验证人等 变更经理 变更审批人 变更负责人 变更申请人 变更执行人 确保在进行变更前,有变更申请记录且获得了所有相关的批准; 按照变更记录中的变更计划实施变更; 变更未达到预期时,负责执行回退计划。 同时,可以设计如下输入和输出项:
输入项 变更请求 来源 事件管理、问题管理流程触发的变更请求、日常工作中主动提交的变更请求 周期 发生时
输出项 变更记录 配置项更新信息 去向 流程内部 配置管理 周期 发生时 发生时 每月 变更发布管理报告 部门负责人 基础设施类变更一般分类分为:硬件、机房环境、通讯变更。
变更分类 描述 主机、存储、网络、消防、安防等设备的进出机房、上下架、维保及配件变更; 硬件设备在配置库(CMDB)属性信息的改变; 空调、温湿度监控、UPS、门禁、视频监控等机房设施的变更; 例行的设备走廊设备巡检、保养、维护等; 供配电系统的检修; 机房搬迁、容灾演练等 运营商通讯线路的开通或撤消、网络布线的调整等。 硬件变更 机房环境变更 通讯变更 同时,可以根据变更操作对数据中心业务的影响可以分为重大变更,常规变更,标准变更和紧急变更。
变更分类 描述 重大变更 1.高压后端供配电系统检修; 对业务影响比较巨大2.机房搬迁; 的变更。 3.容灾演练 需要按计划实施的变1.硬件设备上下架; 更 2.UPS年检; 常规变更 3.空调系统保养维护 4.其他消防、安防系统的检修、演练等 为迅速修复异常,恢复服务或降低异常影1.后台系统的关键参数设置。 响,需要在短时间内立即执行的变更。 日常频繁发生的、变更风险已知且可控、1.机房环境的清洁; 执行方案已被验证是2.备机空调轮休检测; 成熟的、安全的变3.UPS等设备例行巡检 更。 紧急变更 标准变更
三、变更的执行和流程
变更前的准备工作至关重要,通常包括以下几个方面 1、关联影响分析:
对变更的运行影响和业务影响进行评估,及时了解可能的风险,涉及到关联影响的系统或服务需一一标识出来,并在变更记录单内体现;要实现关联影响分析,需先建立好完善的配置管理系统,且数据的可视化能力至关重要。
2、配置备份:
所有会引起设备下电类的变更,应对硬件设备的配置信息做备份动作,包括但不限于网络设备(核心交换机、路由器的IOS版本信息)、服务器(OS环境、中间件环境、数据库配置信息等)等。
3、工具准备:
基础设施系统巡检类:需准备力矩扳手等; 硬件设备变更类:需准备对应操作工具如测线仪等; 重大变更:资产库、配置信息库等软件工具 4、沟通:
A.根据变更时间窗同变更实施人进行沟通,以确认变更可按照变更计划时间实施;
B.涉及设备供应商服务人员配合的也需提前沟通配合实施时间、人员等; C.涉及用户影响的需提前跟用户进行沟通,以确保变更实施期间不会对公司业务造就额外影响;
D.变更关联影响其他产品服务的需提前知会对应产品经理做应急预案; 5、人员组织:
针对重大变更、涉及多个部门协同执行,需提前准备人员组织架构图,确定各模块负责人及变更执行任务,应急人员联系方式及支援方式等
6、技术方案审核: A.变更前准备内容是否完善
B.变更记录单规范性审核:变更原因、目的、来源是否标注清晰、业务关联影响分析是否填写等
C.根据变更内容审核变更时间窗是否合理;
D.对基础环境进行评估,保障上线设备用电功率、制冷效果在额定范围内,并对硬件设备进行合理位置规划,放置进合理的网络区域
E.实施步骤合理性审核;
F.变更实施后验证方案合理性审核;
在变更实施阶段即据发布与部署方案,根据《变更任务清单》完成相关的发布任务。变更完成后进行结果反馈:
1、变更负责人参考《变更任务清单》,完成变更活动的验证; 2、配置管理员更新服务目录和CMDB信息;
3、变更结果回溯及关闭变更记录单
在或一段时期之后,可对这个阶段所有的变更进行变更分析,具体内容如下:
1、紧急变更数量在所有变更数的比例是否超出额定阀值; 2、紧急变更的来源; 3、失败变更的来源; 4、失败变更的原因分类; 5、整体变更来源分析
一个完整的变更管理流程如下:
步骤 输入 事件管理、问题管理,或日常工作触发的变更申请 步骤描述 变更申请人填写变更记录单提交至变更负责人。 变更负责人根据变更记录的信息,对变更进行分级分类,其中: 1. 对于常规、紧急变更,进入步骤3; 2. 对于标准变更,进入步骤5。 1. 变更负责人根据《变更任务清单》内容,确定本次变更需要执行的各项活动以及涉及本次变更的各发布执行人; 2. 变更负责人、发布执行人完成变更任务,其中: a)变更负责人完成变更计划、文档汇总等工作; b) 发布执行人创建发布记录,制定发布方案,并与变更记录单进行关联。 输出 1. 发起变更 变更记录 2. 变更分类分级 变更记录 变更记录 3. 制定/修订变更方案及计划 变更记录 包含变更计划的变更记录 4. 影响分析 包含变更计划的变更记录 完成变更影响1. 变更负责人、发布执行人对变分析的变更记更的影响、存在的风险进行分析; 录 2. 变更负责人将变更记录、发布记录以及相关文档提交进行审核。 变更记录、发布记录 变更审核人对变更计划、变更影响完成审核的变分析、相关文档进行审核,其中: 更记录、发布1. 审核通过,则执行步骤6; 记录 2. 需要修订,则返回步骤3。 变更审批人基于审核意见、变更计划、变更影响以及相关文档进行审批,其中: 1. 审批通过,则执行步骤7; 2. 需要修订,则返回步骤3; 3. 取消变更,则执行步骤11。 1. 发布执行人根据发布方案进行变更实施; 2. 对于常规变更和紧急变更,需要发布和部署生产环境的,应触发一个或多个发布记录并参照发布管理流程执行; 3. 相关发布记录应与变更记录建立关联。 变更实施负责人、发布执行人按照保障期要求进行保障,如在保障期间发现异常,应创建事件记录。 变更负责人就变更实施结果与预期目标进行验证;根据需要,变更负责人可协调业务部门共同验证变更实施结果,其中: 1. 对于未达到预期效果的变更,进入步骤10; 2. 对于达到预期效果的变更,进入步骤11。 变更负责人根据变更回退或补救措施进行回退或补救。 1. 变更负责人将实施结果通知涉及配置项修改的配置项管理员; 2. 配置管理员修改配置项信息,反馈至变更负责人,变更负责人验证配置项更新结果; 3. 变更负责人根据《变更任务清单》确认变更任务的完成情况以及相关文档提交情况,如有未完成的任务,变更负责人应协调相关人员完成。 5. 变更审核 6. 变更审批 完成审核的变更记录、发布记录 审批结果 7. 变更实施 审批通过的变更记录 变更结果 8. 变更保障 变更结果 变更结果 9. 变更验证 变更结果 验证完成的变更记录 10. 行回退/补救措施 未达到预期效果的变更 执行回退/补救的结果 11. 变更回顾 达到预期效果的变更 完成回顾的变更记录 完成回顾的变更12. 变更关闭 记录 变更负责人确认变更记录的完整性,关闭变更记录并提交变更经理保存。 关闭的变更
(可点击放大查看)
四、DCIM和ITSM的集成
ITSM系统因其系统设计核心与思路更偏重于企业内部的IT类的职能部门及应用部门使用,因此对于数据中心基础设施管理角度来说不具有针对性,且ITSM流程中不能将数据中心管理所必须的数据、资源、容量等信息进行有效调配和记录,这就造成了IT管理中业务流程与数据中心的管理数据无法有效融合。因此将DCIM系统与ITSM业务流程相结合,是对于各职能部门包括数据中心部门在内都能带来巨大价值与意义的管理方式。
通过DCIM和ITSM的集成,可以将IT变更和基础设施的信息有效融合。在部署新的IT资源来支撑新的业务服务的时候,需提交一个IT资源请求,然后交由IT部门检查确认基础设施有足够的可用容量来支撑新的IT资源。DCIM的管理员通过数据中心可用容量分析来帮助他们决定是否批准资源申请需求。一旦容量满足需求,DCIM管理员继续查看数据中心是否还有足够的空间、电力和冷却和其他因素来容纳请求资源的设备,才可以允许进行变更部署并确定具体放置的地点。
参考流程图如下:
图1 DCIM流程示意
这两套独立、完整且闭环的系统流程相结合的方法可通过“流程并行”或“流程整合”等方式进行集成。
流程并行:
IT团队通过ITSM系统进行业务流程的申请、审批与执行等操作。当ITSM系统流程审批合格后,通过接口或数据库对接实现业务流程及操作画面的跳转,通过DCIM系统进行数据变化的操作与记录,当完成数据变动后,再次通过业务流程及操作画面的跳转回到ITSM操作流程画面,进行后续执行确认,最终完成业务流程的闭环操作。
特点:这种模式相对两套系统的结合点比较清晰,流程与数据相互分离、并行处理,责任分工更加明确。且在完成DCIM的数据操作后,通过系统接口将数据同步到ITSM系统的CMDB中使得数据交互更加简单。
图2 流程并行
流程整合:
将DCIM系统中变更管理功能的每个审批及操作画面均可独立剥离,并将其以接口或数据等形式纳入到ITSM整体业务流程的操作中,实现画面、数据同步的并存。在ITSM系统完整每个一个环节的流程审批、工单处理后,均将该操作以数据同步的形式分别同步到ITSM系统CMDB以及DCIM系统数据库中。
特点:这种模式对于ITSM与DCIM系统的结合更加紧密,无需等到业务流程结束即可实现数据交互。但是相对二次开发工作较多,需考虑系统间的数据库同步机制的设计。
图3 流程整合
(文章摘自《数据中心基础设施管理技术白皮书》
因篇幅问题不能全部显示,请点此查看更多更全内容