研究与 DOI:10.3969/j.issn.1009-9492.2014.07.023 一种大型数据中心基础设施综合管理系统的设计与实现 潘宗霞 (深圳中兴网信科技有限公司,广东深圳 518057) 摘要:大型数据中心作为云计算和移动互联网的服务载体,面临系统日趋复杂、故障影响严重、专业系统管理人员不足、能耗 日益攀升等诸多挑战。结合实际项目应用,介绍了数据中心基础设施综合管理系统的架构和功能特点,通过全方位监测及智能 管理平台的实施,有效缓解了数据中心的管理困境。 关键词:数据中心;基础设施综合管理系统;能源利用率 中图分类号:TP273 文献标识码:B 文章编号:1009—9492(2014)07—0077—04 A Design and Implementation of Infrastructure Management System in a Large-Scale Datacenter PAN Zong—xia (ZTEICT Technology Co.,Ltd,Shenzhen518057,China) Abstract:As the service carrier of cloud computing and mobile interact,large-scale datacenter is now facing many challenges such as increasingly complex system,serious fault impact,lack of professional maintenance staff and energy consumption augmentation etc.This article describes the architecture and functional characteristics of datacenter infrastructure integrated management platform through a real implementation case,and introduces how to solve the dilemma of datacenter management by comprehensive monitoring and intelligent management platform. Key words:datacenter;infrasturcture integrated management platform;PUE 0前言 构、运营通常是不同专业团队运作维护,且交叉 数据中心起源于20世纪60年代,发展至今, 较少,两大功能模块的相对独立部署更有利于简 数据中心先后经历了计算中心、信息中心和服务 化系统、增加可靠性,因此本文仅讨论基础设施 中心的三个发展阶段n 。信息服务的集约化、社会 部分的管理系统。 化和专业化发展使得因特网上的应用、计算和存 1需求分析 储资源向数据中心迁移-z-。随着云计算和移动互联 基础设施综合管理系统是对数据中心的各类 网的快速发展,数据中心作为核心服务载体,需 动力设备、机房环境实施集中监控管理的系统, 要稳定可靠的运行环境,及时发现事故隐患,增 通过遥测、遥信、遥控、遥调,实时监视动力设 强事故处理能力,优化资源利用率p 。所以有必要 备和机房环境的运行状态,记录和处理相关数 建立一套完善、智能、可靠的综合管理系统,对 据,通过智能分析预防故障、快速排障,提高系 数据中心的环境进行集中监控、统一管理,真正 统的可靠性及数据中心设备的安全陛。 做到实时化、智能化、网络化。 本论文引用项目的基本情况是:建筑面积共 数据中心综合管理系统的范围可涵盖物理 计14 340平方米,其中包括室外场地1 910平方米 基础设施和IT资产管理、业务运营等所有功能 (室外油机房820平方米、室外地下水池220平方 模块[41。但在实际应用中,因基础设施和IT架 米、冷却机组占地860平方米、室外储油罐l0平 收稿日期:2014—05—16 圈圈— 翟豳 与开发 方米)。数据中心共规划60个微模块,900个服务 器机柜,平均每机柜6.5 kW。综合管理系统需监 控的设备和系统如表1所示。 表1 数据中心监控管理对象及测点举例 控平台采用标准接口,可灵活扩容和增加系统, 提供双机热备以保障高可靠运行,现场处理单元 采用嵌人式设备,避免机械故障。管理系统逻辑 上包括信息采集子系统和信息管理子系统。系统 结构参见图1。 信息采集子系统主要包括监控主机及末端信 设备大类 设备子类 高\低压配电柜、逆变 测点举例 三相电压、三相电流、峰电 息采集设备。每台监控主机提供12路AI/DI通用 采集通道、2路DI通道、4路专用通道、4路数字 控制量输出DO通道;通用AI/DI或DI通道可连接 备曩 …~… 。 度、谷电度、平电度、开关状态、 过流跳闸告警、速断跳闸告警、失 流配电设备、柴油发电机 压跳闸告警、接地跳闸告警等 各种传感器,如压差传感器、水浸传感器等,专 用通道可直接测量温度、电池总电压以及烟雾告 警,DO通道可以通过相关控制器对设备进行控 制,如非智能空调开关、照明开关等设备。主机 环境设备享调 要常 氰温湿 漏水: 设 ; ……一 具备6路智能协议转换口,在同一时间段可以对 多个智能设备进行监控,本项目中智能电量仪、 高压直流系统、UPS、空调、门禁系统等都将连 接到监控主机的智能接口。在主通讯接口方面, 安防设备监控 雪门禁设备、视频蓑篓 消防设备防系 早期消防系统、消监控主机提供2个IP接口,同时内置有HUB,既 可通过IP接口进行上行通讯,也可通过IP接口接 人智能设备或视频设备;另外,监控主机可提供 1个RS232接口作为主通讯串口。 感、温感、运行状态、报警 状态 信息管理子系统即监控中心,由安防台、前 2综合管理系统设计 2.1系统概述 置台、业务台、报表台、数据库服务器、安防应 用服务器、动环应用服务器、大屏幕、多媒体交 换单元、网络接人设备或监视器等设备构成。监 控中心使用局域网,采用TCP/IP协议,此技术手 段符合工信部关于本地网网管和监控系统的技术 要求,且容易实现与其他监控系统的相互联接。 2.3信息管理子系统设计 基于上述需求分析,数据中心基础设施管理 系统采用动环视频一体化监控的解决方案,在动 环监控量的采集和视频信号的采集上做到功能互 通,在传输上采用一体化组网,在监控中心也采 用同一平台进行动环和视频的管理,实现数据中 心基础设施的综合管理。 该方案依托IP网络,采用分布式部署的系统 架构,可以实现对机房内所有环境设备的统一集 信息管理子系统各设备功能介绍如下。 (1)数据库服务器:用以存放系统监控的所 有数据,其中包括各监控量的历史数据、报警阀 值、报警记录、安全及操作员权限管理信息、配 置信息、操作维护记录等。数据库可以响应各业 中全方位监控管理,提供美观友好的监控管理、 查询界面,受控设备若出现异常情况,系统即自 动通过网络,通过声光、短信、电话、语音、桌 面、邮件等方式及时报警,并直观地锁定异常或 务台发出的请求(如读出、查询、写入等操作),在 执行请求的过程中各业务台以客户端的方式访问 故障部位,确保机房管理维护人员第一时问掌握 机房的异常状态,及时启动应急预案,迅速排除 数据库服务器中的数据,此方式在很大程度上提 升了数据库处理数据的速度。在同一时间段允许 多个客户进行访问,实现了数据库的实时陛。同 时,该数据库还具有文件存档功能,文件存档以 故障,确保系统的可靠运行。 2.2系统结构 基础设施综合管理系统采用分布式架构,监 后可以在硬盘上保存一年,还可以导人其他存储 潘宗霞:一种大型数据中心基础设施综合管理系统的设计与实现 研究与 数据进行处理后发送到节 点台、业务台和数据库, 并接收从监控中心发出的 命令请求,根据地址将各 命令请求转发至各监控端 局,对端局设备进行查 询、控制或调节。同时, 前置台还支持Ⅳ+1备份功 能。 (6)中心接人设备: 根据不同的组网方式和传 输资源选择不同的网络接 入设备,进行不同接口之 间的数据转换,最终将监 控数据送至局域网上的前 置台。 (7)安防应用服务 器:该服务器是视频一体 图1 基础设施综合管理系统结构 化和安防一体化监控系统 的数据中心,为智能门 设备(如:磁带等)进行存储。 (2)动环应用服务器:用以集中监控中心所 有服务软件模块,并完成该监控系统的所有应用 服务功能,例如:数据转发、用户鉴权、数据库 禁、出入管理、基站防盗等子功能提供数据中心 的各项服务,并提供各视频监控设备的接入、各 媒体信息的接收、转发和存储等功能。 (8)安防台:作为视频一体化和安防一体化 监控系统的客户端,提供门禁控制、出入管理、 防盗报警管理等安防管理功能,以及摄像机控 存储和备份、系统管理、WEB服务等。 (3)业务台:用以提供用户界面并实现多种 用户交互的监控功能,包括监控数据的实时显 示、报警信息的显示和处理、报警过滤和屏蔽的 设置、监控量属性修改、历史数据的查询、遥控 功能、生成统计报表、查询和打印报表、以及其 他定制监控功能的实现。根据系统规模可以设置 多个业务台,根据不同属性的登录用户,业务台 制、视频浏览、录像回放等视频监控功能。 3综合管理系统实现 本项目采用中兴通讯自主研发的数据中心综 合管理系统DcNumen 3000,实现了以下功能: (1)实时监控及界面显示; (2)告警管理; (3)报表管理; (4)PUE计算与测量; (5)配置管理; (6)安全机制; 可以具有不同的监控范围和操作权限。此外,可 以通过远程接人的方式设置具有与位于监控中心 的业务台相同功能的反拉终端或者远程分控台。 (4)报表台:用以提供报表操作界面并支持 对历史监控数据的查询,提供系统各设备报警统 计报表或图表(包括曲线图、直方图、饼图)的 (7)视频管理; (8)门禁管理; (9)互联互通。 导出等服务,实现各种报表的生成、查询和打印 等功能。 (5)前置台:用以交替访问各监控数据,对 单、 综合管理系统从使用者的角度考虑,操作简 维护方便。用户只需有一定的计算机基础, 对用户的编程技能没有要求,只需要进行少量培 训即可熟练的使用该管理软件。该系统还设有智 能容错机制,用以防止用户因操作失误而导致的 系统失控,通过该机制可以导人系统原来的设置 撑用户的业务和发展。PUE数据的实时显示对能 耗管理和绿色环保具有积极意义。 参考文献: [1]余侃.云计算时代的数据中心建设与发展[J].信 息通信,2011(6):100—102. 使系统恢复到发生错误操作之前的状态,这在一 定程度上降低了对维护人员专业技能的要求,使 系统更易于维护与管理。 [2]魏祥麟,陈鸣,范建华,等.数据中心网络的体系结 构[J].软件学报,2013,24(2):295—316. 数据中心作为能源密集型产业,能耗成本和 碳排放是评估数据中心等级的关键指标。综合管 理系统实时显示PUE值,结构化方式显示各设备 的能耗,分项、分类、分区域计量,直观定位问 [3]邓维,廖小飞,金海.基于虚拟机的数据中心能耗管 理机制[J].中兴通讯技术,2012,18(4):15—18. [4]王聪,王翠荣,王兴伟,等.面向云计算的数据中心 网络体系结构设计[J].计算机研究与发展,2012, 49(2):286—293. 题点,有效改善了高能耗、低效率的弊端。 4结束语 本系统采用分布式结构,各组件功能清晰, 全面监测数据中心动力设备、机房环境、安全、 消防等基础设施,有效预防故障,稳定可靠地支 -作者简介:潘宗霞,女,1977年生,河南新乡人,大学本 科,工程师。研究领域:智能建筑技术,机电工程。已发 表论文2篇。 (编辑:向一--飞) +-+-+ 4---+-+-+.--+---+-—・卜---4---+---+--.+一+--4-----4---4--一—・卜・ (上接第43页) Research,2003,42:3085—3097. [15]wu N Q,Chu F,Chu C B,et a1.Tank cycling and scheduling analysis of high fusion point oil transportation [10]Wu N Q,Zhou M C,Chu F.A Petri net based heufis. tic algorithm for realizability of target refining schedule ofr crude oil operations in refinery lJ].Computers& Chemical Engineering,2010b34(4),529—543. orf oil reifnery【J].IEEE Tmnsactions on Automation Science and Engineering,2008,5(4):661—676. [16]wu N Q,Chu C B,Chu F,et a1.Schedulability naalysis of short-term scheduling for crude oil operations in refinery with oil residency time and charging——tank-swi-- [11]Wu N Q,Chu F,Chu C B,et a1.Shom—term schedu— lability analysis of crude oil operations in refinery with oil residency time constraint using Petri net[J].IEEET- ransactions on Systems,Man,and Cybernetics,Part tchoverlap constraints lJ j.IEEE Transactions on Auto— mation Science and Engineering,2011,8190—204. (1): C,2008a,38(6):765—778. 112]Wu N Q,Zhou M C,Chu F,et a1.A Petri net based heuristic algorithm for realizability of target refining [17]伍乃骐,白丽平.炼油生产计划与调度优化的研究 [J].计算机集成制造系统,2005,l1(1):90—96. [18]李勇,白丽平.原油运作过程中输油管道输油方案的 schedules in oil reifnery[J].IEEE Trans.on Automa. tion Science and Engineering, 2008b, 5 (4): 661-676. 研究[J].机电工程技术,2013(10):77—80. [19]N.Q.Wu,M.C.Zhou,L.P.Bai.Control-theoretic and model—based scheduling of crude oil transportation 1l3 J Wu N Q,Chu F,Chu C B,et a1.Short—term schedu. 1ability analysis of multiple distiller crude oil operations orf refiney irndustyrJune 1-6,2014. [A].to appear 2014 IEEE Int. in refinery with oil residency time constraint[J J.IEEE Transactions on Systems,Man,and Cybemetics,Part Conf.on Robotics and Automation l C j.Hong Kong C,2009,39(1):1—16. [20]Zhou M C,Venkatesh K.Modeling,Simulation and Control of Flexible Manufacturing System.A Petir Net 114]wu N Q,Chu F,Chu C B,et a1.Hybrid Petri net modeling and schedulability analysis of high fusion point oil transportation under tank grouping strategy for crude Approach[M].Singapore:World Scientiifc,1998. 第一作者简介:成华,男,1989年生,山西人,硕士研 (编辑:向飞) oil operations in refiney[rJ].IEEE Transactions on Systems,Man,and Cybernetics,Part C,2010a,40 究生。研究领域:生产计划调度与控制。 (2).159—175.