# 管理系列产品白皮书 V3R4C50




共济数据中心运行管理
系统（DCOM）

白
皮
书





深圳市共济科技有限公司
2023年 3月


修改记录




## 前言

目的
本白皮书对外主要用于客户对共济数据中心运行管理系统的具体、全面的总体了解，其主要内容可以作为客户的招标文件技术部分材料；对内是各部门了解本产品的基本材料。
参考文件
所有系统集成、设备、材料、施工工艺和施工符合下面所列规范和设计要求：
《数据中心设计规范》（GB50174—2017）
《民用建筑电气设计规范》（JGJ 16—2008）
《建筑设计防火规范》（GB50016－2014）
《综合布线系统工程设计规范》（GB 50311－2016）
《综合布线系统工程验收规范》（GB50312—2016）
《智能建筑设计标准》（GB/T50314-2015）
《安全防范工程技术规范》（GB 50348－2004）
《视频安防监控系统工程设计规范》（GB50395－2016）
《出入口控制系统工程设计规范》（GB50396—2007）
《民用闭路监视电视系统工程技术规范》（GB50198－2011）
《建筑物防雷设计规范》（GB50057-2010）；
《建筑物电子信息系统防雷技术规范》（GB50343－2004）
《计算机场地通用规范》（GB2887-2011）
《电磁兼容性标准》（IEC 801）
《建筑电气工程施工质量验收规范》（GB50303—2015）
《智能建筑工程施工质量标准》（ZJQ00-SG-026—2006）
《安全防范工程技术规范》（GB/50348—2004）
《自动化仪表工程施工及验规范》（GB50093—2013）
《数据中心基础设施施工及验收规范》（GB50462—2015）
《数据中心监控系统技术白皮书》
《数据中心基础设施管理技术白皮书》
《数据中心运维管理技术白皮书》
术语


目  录
前言	1
目的	1
参考文件	1
术语	2
第 1 章. 背景与必要性	1

### 1.1 市场背景	1


### 1.2 核心市场需求	3

第 2 章. 产品介绍	4

### 2.1 产品概述	4


### 2.1.1 产品目的	4


### 2.1.2 产品属性	4


### 2.1.3 产品架构	6


### 2.1.3.1 产品业务架构	6


### 2.1.3.2 产品物理部署架构	8


### 2.2 功能介绍	9


### 2.2.1 个人工作台	9


### 2.2.2 基础设施监控	9


### 2.2.3 能效管理	9


### 2.2.3.1 能效数据展示	10


### 2.2.3.2 能效分析	11


### 2.2.3.3 节能控制	11


### 2.2.4 资产管理	11


### 2.2.4.1 资产生命周期管理	12


### 2.2.4.2 资产检测专利技术	13


### 2.2.5 容量管理	14


### 2.2.5.1 容量检测与展示	15


### 2.2.5.2 容量建模	15


### 2.2.5.3 容量预占	15


### 2.2.6 变更管理	15


### 2.2.6.1 变更管理概述	15


### 2.2.6.2 变更管理的关键点	16


### 2.2.6.3 变更日历	16


### 2.2.7 巡检管理	17


### 2.2.7.1 巡检计划	17


### 2.2.7.2 巡检任务	17


### 2.2.8 维护保养	17


### 2.2.8.1 维保计划	17


### 2.2.8.2 维保任务	18


### 2.2.8.3 维保对象	18


### 2.2.8.4 维保日历	18


### 2.2.9 值班管理	18


### 2.2.9.1 值班安排	18


### 2.2.9.2 交接班与调班	19


### 2.2.9.3 值班日历	19


### 2.2.10 知识库	19


### 2.2.10.1 知识录入和维护	19


### 2.2.10.2 知识索引	19


### 2.2.11 事件管理	20


### 2.2.11.1 事件管理概述	20


### 2.2.11.2 事件管理的关键点	20


### 2.2.12 问题管理	21


### 2.2.12.1 问题管理概述	21


### 2.2.12.2 问题管理的关键点	21


### 2.2.13 协助工作单	22


### 2.2.13.1 协助工作单概述	22


### 2.2.13.2 协助工作单的关键点	22


### 2.2.14 供应商管理	22


### 2.2.14.1 供应商管理	22


### 2.2.14.2 供应商人员管理	23


### 2.2.15 服务请求	23


### 2.2.15.1 服务请求概述	23


### 2.2.15.2 服务请求的关键点	23


### 2.2.16 租户管理	23


### 2.2.16.1 租户管理概述	23


### 2.2.16.2 租户管理的关键点	24


### 2.2.17 人员管理	24


### 2.2.17.1 运维人员管理	24


### 2.2.17.2 客户管理	24


### 2.2.18 表单与流程工具	25


### 2.2.18.1 模块管理	25


### 2.2.18.2 表单管理	25


### 2.2.18.3 流程管理	25


### 2.2.19 运维宝APP	25


### 2.2.19.1 移动巡检	25


### 2.2.20 服务级别管理	26


### 2.2.20.1 服务级别管理概述	26


### 2.2.20.2 服务级别管理的关键点	26


### 2.2.21 培训管理	27


### 2.2.22 成本管理	27


### 2.2.23 健康评分	28


### 2.2.24 设备健康检查	28


### 2.3 系统特点	28


### 2.3.1 安全可靠	28


### 2.3.2 绿色节能	29


### 2.3.3 高效简单	29

第 3 章. 典型应用	29

### 3.1 高可用性保障	29


### 3.2 复杂事件分析	30


### 3.3 影响分析	30


### 3.4 知识推荐	30


### 3.5 资产盘点	30


### 3.6 容量规划与优化	30


### 3.7 移动巡检	31


### 3.8 运维经验积累	31


### 3.9 快速排班	32




## 背景与必要性


### 市场背景

新一代数据中心在架构设计上更加的弹性化。为了满足业务可持续发展的要求，降低TCO，提高业务灵活性，当前的数据中心采用了更多如虚拟化、模块化等技术，使得UPS和空调等基础设施和服务器、存储、网络等IT基础架构之间的匹配更加的困难，如图所示。

传统的数据中心在建设完成后，往往UPS的容量以及空调的制冷量很难再做出改变和调整，而且一台服务器的应用数量通常也是固定的，因此这台服务器的功耗也不会有大的变动，所以两者之间的匹配相对比较容易。而在云时代，虚拟化使得负载可以在服务器之间动态的迁移，应用访问也存在爆发性访问的特点，IT设备的功耗会波动较大且比较频繁，随之而来的是对供电和制冷容量的动态需求。特别大量应用的刀片服务器，使得单机柜的功率密度轻松突破10KW，如果处理不好，就会造成局部过热，使得服务器宕机。因此对数据中心管理者而言，我们更需要有一个统一平台能够同时管理到IT和基础设施，实时监控设备的容量、功耗、空间、承重等信息，从而防患于未然，提高数据中心可靠性。
传统运维方式存在诸多问题
在数据中心业务和设施在快速发展的同时，我们运维方式和工具却没有跟上步伐。根据CA和IDC联合推出的报告，市面上84%的数据中心都面临在制冷、供电、空间和承重方面的问题，带来的问题包括延长应用上线时间，增加OPEX甚至是中断提供服务。特别是对提供云服务的Co-location客户来讲，数据中心是他们的利润中心，是赚钱的工具，如何通过运维在不降低数据中心可靠性的同时，最大化效率是他们最关心的问题。但是传统的运维方式和工具往往很难满足这类客户的需要。
IT和Facility分开管理
根据IDC 的报告，有58%的数据中心将IT设备和Facility设备的管理分成了不同的部门。这种现象在国内的3大电信运营商身上更加普遍。这种人为的组织架构划分虽然在一定程度上有利于人员管理和权责划分，但是增加了部门之间的沟通成本，降低了数据中心运维的效率，甚至提高了数据中心发生事故的风险。比如这种隔离造成了很难对业务发展需求进行准确预测，甚至如果Facility部门在对设备进行维护时没有及时通知到IT部门，则会对业务应用造成影响。

使用离散的数据中心管理工具
在DCOM解决方案出现以前,市面上缺乏有效的工具为对数据中心的管理进行支撑。数据中心的管理人员往往采用一系列离散的，不专业的工具对数据中心进行维护。比如采用Excel进行资产和连接关系的管理，利用Visio或者AutoCAD进行数据中心的可视化建模，了解设备的存放位置。再利用动环，甚至是一些免费的，厂家赠送的工具进行设备的监控。
这种管理方式的优点是获取方式简单，成本相对低廉，但是却带来了多方面的问题。首先对数据中心管理者而言，没有一个统一的视图获得所需要的信息，维护多个离散的工具也提高了管理和拥有成本；其次不同系统之间的数据难以关联和共享，在制作报表和业务预测的时候尤其困难；最后工具的不专业造成对数据中心数据的维护非常痛苦，需要花费大量的时间去更新数据，保持同步，甚至新老数据彼此发生冲突。因此DCOM管理工具在现代数据中心的应用显得迫切和重要。
数据中心运营团队的绩效评估
传统数据中心管理团队在整体企业中是成本中心，每年的通过申请维护经费或新增维护系统等方式进行管理方法及工具的优化。数据中心管理的优劣在传统意识中，对于整个企业核心业务来说，属于间接影响关系。因此在企业中传统的数据中心的运维与管理团队的价值远低于其他业务团队。但是随着数据中心技术与职能发展的提速，数据中心所承载业务的关键度发生了巨大变化，传统概念中CAPEX与OPEX的界定发生了很大改变，以往重建设轻管理的运营模式也在往管理引导建设的思路改变。因此如何保证数据中心的高可用、低延时、低成本、低故障的稳定运行，直接关系到业务停顿次数与时间，如果换算成成本其金额数量巨大。
2013年谷歌(微博)一度宕机，不仅损失数十万美元，而且也引发了全球网络流量暴跌40%；2013年亚马逊宕机约30分钟，其经济直接损失近200万美元。
因此对于数据中心运维管理团队来说，MTFB已成为关键绩效考核指标，并关系着整个企业业务的持续稳定运行。因此通过更好的工具、更优秀的管理方法论以及更加有据可循流程进行疏导，将实现数据中心管理团队绩效的达标。不仅将管理团队在整个企业中的重要度得到了提升，对于那些默默无闻的工作者们进行充分的肯定，同时还将企业关键业务的持续、稳定运营得到了有效保障。

### 核心市场需求

当前基础设施监控、IT设施监控信息各自为阵，信息零散，不能形成统一、高效、简洁、智能的监控管理：
基础设施监控有不同厂家完成，只停留在动力、环境的基础信息的监测中，不能提前预警、不能提前计划统一维护以避免故障的发生，发生故障不能快速定位；
资产说不清，管不住；
机柜容量不能有效利用，投资不断增大，不能达到预期营收效率；
能效管理薄弱，无有效、可持续性进行全面的、清晰的提高能效、改进能效的方案与办法；
管理工作压力大，不能有效管控、调度资源；
日常工作权责不能靠系统自动管理，工作效率不能有效提高。

## 产品介绍


### 产品概述


#### 产品目的

基于市场需求背景和现状分析，共济科技为本项目设计并建设一套DCOM数据中心运行管理平台，监控、管理、运维相融合的系统，构建了“信息、资源、运维”的统一管理体系，实现“集中监控、集中运维、集中管理”，服务全程自动化，以满足集中监控管理系统的建设要求。
共济科技数据中心运行管理系统（DCOM）是为数据中心管理团队量身打造的专业化数据中心运行管理工具：通过设施监控、资源管理、容量管理、能效管理以及运维功能等模块的统一构建，帮助数据中心管理者实时掌握数据中心的运行状态，及时发现基础设施运行问题，确保数据中心可靠性、可用性；实时了解数据中心能耗和资源使用状态及趋势，为数据中心能耗控制容量规划提供有效依据；全过程跟踪和推动基础设施故障处理，并为数据中心日常运维提供必要的自动化辅助工具，全面提升数据中心的运行管理效率，助力数据中心的平稳、高效运行。

#### 产品属性

共济科技认为DCOM系统应作为一个服务于数据中心日常运维管理工作的统一化、集中化的管理平台，实现对数据中心7*24的全面集中监控和管理，保障数据中心机房内各设备及子系统的安全高效运行。基于以上目标，产品具体以下特点：
先进性：应用当前最新的产品和技术，已经或即将淘汰的产品及技术不在方案中使用；
成熟性：选用在国内已获成熟应用的产品和系统，确保系统稳定运行；
适用性：方案设置充分匹配项目实际需求，做到“供求合一”；
可靠性：系统及设备具有较高可靠性和容错性，可长时间稳定运行；
高性价比：在保障系统性能前提下，充分考虑设备的成本最优化；
系统性：采用整体系统化设计，提供高度集成的一体化运营管理平台；
高效性：围绕实际需求，有效提升日常系统运营管理工作效率；
易用性：设计人性化人机界面，定制灵活管理模式，适合各种日常管理场合；
智能化：充分采用高科技智能化技术，尽量减少人工操作压力；
信息化：实现监控数据处理过程以及系统日常运维工作的高度信息化；
绿色节能：采用各种有效措施尽量降低能耗，实现机房节能减排，节省运营开支；
可持续性：容量及功能设计满足数据中心未来可持续性发展所需；
开放性：适应技术发展趋势，支持多种方式的系统扩展，包括业务功能的增加，系统升级以及系统扩容等。

#### 产品架构


#### 产品业务架构

共济数据中心基础设施监控管理系统物理部署架构如图2.1.3 1所示：

图2.1.3 1
我司DCOM数据中心运行管理系统软件具备在线升级和平滑扩容能力，可实现本地或远程等多种升级方式，易于操作，且不同时期版本具备向下兼容能力。共济DCOM系统的架构设计完全可满足本项目后续的系统扩容及兼容性要求，避免因后续新需求而带来投资浪费。
系统采用模块化的分层架构进行设计，各功能模块之间采用松耦合关系建立，确保系统的稳定可靠运行，任何模块出现故障不会影响同级别的其他模块的正常工作。并能随着业务发展的需求，灵活地扩充更多关联性的功能模块。
系统架构具体描述如下：

### 1.	数据采集层

数据中心基础设施监控管理系统的数据采集层设计为系统的数据入口，是系统管理所需基础设施数据的来源，其通过提供标准接口及协议，接收前端系统（如：我公司的或非我公司的下级动环系统、楼宇监控系统、安防监控系统、DCM等第三方系统）的监控数据。

### 2.	集中处理层

平台将采集上来的数据进行数据的存储、图形化组态。根据每个用户的权限，进行数据区分。前端系统的报警事件会先经过复杂事件处理，然后将处理后的报警结果分级分类发送给指定运维人员。同时也会对历史大数据进行统计分析，将预测结果和累计结果推送给运维人员做判断。

### 3.	运行管理

运行管理分为两个层面：
一方面是针对于机房基础设施资源的管理，包括设施监控、资产管理、容量管理、能效管理，这些管理模块会将所有的基础设施的运行信息进行关联化处理和可视化呈现，并为数据中心的资源使用及计划提供必要的、基本的辅助工具；
二方面是基于ITIL体系构建的运行管理功能群，包括个人工作台、服务台、事件管理、巡检管理、值班管理、维保管理、协助工单管理、服务级别、问题管理、供应商管理、知识库管理、变更管理等。这些管理模块会对基础设施信息和运维人员的工作进行合规化管理，提升运维管理人员工作的电子化、流程化、智能化水平。

### 4.	交互展示

展示层提供丰富的展示媒介，包括移动终端、PC、大屏等方式；提供2D/3D展示效果；提供友好的用户交付界面。随着应用设备的发展，根据应用需要，在应用层增加对应展示应用模块
随着业务的发展，数据中心进行扩展，只需根据扩展规模增加上述数据中心监控管理系统平台，系统自动把原管理系统与新增管理系统纳入统一管理，形成一套统一整体管理系统，拓展管理能力

#### 产品物理部署架构



系统硬件架构部署图
如上图所示，DCOM运行管理系统软件部署在数据中心内网，通过网络接入数据中心内各监控子系统。类似地，各集成子系统则通过北向数据接口向DCOM运行管理平台发送基础监控数据。
承载DCOM运行管理系统的是一套双机服务器组，主服务器故障时，管理工作自动切换到备机运行，不会导致业务中断。同时，根据数据中心的规模的大小，管理系统也能支持采用集群化、虚拟化方式进行部署。
本次提供的管理服务器均采用开源的LINUX系统、开源的MYSQL及NOSQL数据库。
数据库具备良好的开放性，支持异类数据库的互访。同时，支持数据库的存储加密，采用负载均衡技术，通过联机存储，实现数据的可靠性备份。本架构具备较强的系统及数据的容错能力，具备服务进程及数据库的错误恢复能力，同时，通过系统自监控，邮箱保证过数据库正常运行，避免数据库死锁。



### 功能介绍


#### 个人工作台

整合了工单、值班、交接班模块，展示当前用户相关的工作，使用更加便捷、高效。

#### 基础设施监控

见《监控系列产品白皮书》

#### 能效管理

共济数据中心能效管理通过能效相关数据的实时历史展示、分项能耗统计及趋势预测，从多维度观察、思考、控制改进三个行为逻辑，提高能效，降低能耗成本，如图2.2.2-1所示。

图2.2.2-1 能效展示

#### 能效数据展示


图2.2.2-2 能效数据展示
PUE展示
展示新建机房、改造机房的PUE标准；
展示IT设备、空调设施、配电设施、其他设施能耗占比；
展示实时、当月、今年的PUE;
展示数据中心、机房的PUE。
子系统能耗展示
展示服务器、交换机、存储设备等每台IT设备的实时、历史功耗数据；
展示UPS、发电机、变压器、高压直流电源等配电设施的实时、历史功耗数据；
展示室内机、室外机、泵、冷水机组、新风机等空调设施的实时、历史功耗数据；
展示其他耗能设备的实时、历史功耗数据。

#### 能效分析

能效分析模块为客户提供能效视图，让客户清楚整体数据中心的能源都消耗在哪些环节，并且提供分析工具，帮助用户找出各种异常的用电行为，找出可以节能的依据。
用户自定义分析模型，选择各耗能设备的历史数据形成分析图表，进行环比、同比等对比分析，总结节能方案。
比如，根据IT设备能耗历史曲线、空调系统能耗历史曲线、进风温度历史曲线进行环比，找出一天内白天与深夜IT设备能耗是否与空调制冷是否匹配，有无降低空调能耗以便结论的可能。
手工分析模型可保存，以便下次利用分析。

#### 节能控制

通过能耗分析给出的节能方案，节能控制模块进行审批、跟踪执行、效果对比三个过程对节能进行控制管理。
节能方案通过审批后，生成节能任务，由任务执行人完成节能任务的执行；执行过程中由系统跟踪进度；当执行完成运行一段时间后，调用效果对比功能，能清晰的看到通过此方案，能耗比以前是降低了，还是升高了，降低了多少，升高了多少。以便确认能效方案的有效性，以便持续调优方案，持续提高能效，持续降低称版本。

#### 资产管理

共济数据中心资产管理以确保资产的安全完整，防止闲置和流失，提高使用效益为目的。为保障此目的的达成，通过使用先进技术和规范流程进行资产全生命周期管理。库存资产的简易入库、出库自动发码等管理功能，解决仓库资产信息录入复杂、去向不明、盘点难等问题。在架资产的自动检测、实时盘点、精确定位等智能化管理。解决在架资产非法变更设备位置、盘点耗时长、设备查找难等问题。

#### 资产生命周期管理

对于数据中心涉及的资产，系统对资产从入库到迁出等的每一个状态或操作都详细记录在资产履历中，从而进行资产全生命周期管理，如图2.2.3-1所示

图2.2.3-1 资产生命周期
入库管理
由资产使用单位/采购申请人发起入库申请，填写资产信息，申请入库，确保资产的完整/合规性，对于机架资产还需与共济电子标签进行匹配，以便于机架资产在上架后能自动识别和实时盘点。
上架管理
上架部署与容量管理进行连动，对于机架资产首先对机柜的功率、U位、承重、温度的检测，计算得出合适的上架位置，再通过行政的手段进行审批管控，确保将IT资产合法部署在合适的位置。
下架管理
下架管理与变更管理进行连动，从而保证由于在资产的下架而引起的对生产环境的影响降到最小，提高数据中心的服务质量。
变动管理
资产变动与变更管理进行连动，它规范了在架资产的变更，从而保证由于在资产的变动而引起的对生产环境的影响降到最小，提高数据中心的服务质量。
维修管理
对于需要修理的设备，可由系统发起维修申请，维修完成后依据情况可回到原处或返回到仓库。
迁出管理
对于第三方的资产需要迁移时由系统发起迁出，迁出后的设备不再继续占用系统任何资源。
施工管理
包括机房基础环境建设、新系统建设、已有系统扩容、其他等类型的施工，进行施工的信息化管理。
资产报表
资产报表从资产的不同维度如资产分类、资产状态等统计系统中的资产，并通过图表、柱状图、饼状图等方式展示。

#### 资产检测专利技术

资产检测是通过资产检测硬件资产检测条与EIC的标识向DCOM传输信号，并进行解析后与DCOM系统资产数据进行比对，而形成的资产检测机制，对资产的盘点、查找、异常告警。
在架资产盘点
通过在机柜部署的U位资产检测条，系统可自动盘点在架资产，并输出资产统计报表。当用户需要盘点在架资产时，只需要设置待盘点的内容，即可在线快速完成在架资产盘点，特殊情况也可通过移动终端进行手动盘点。
资产定位
绑定U位资产检测条的在架IT设施可通过定位功能定位其在机柜中的位置，在检测条对应的位置灯闪烁蓝灯，能快速的定位其在机柜中位置，便于用户在实际物理机房查找定位，如图2.2.3-2所示。

图2.2.3-2 资产列表
资产条告警
当线上线下资产状态不一致或资产发生状态改变时资产条会产生告警，并在DCOM系统产生对应的铃铛事件。

#### 容量管理

容量管理主要是对数据中心的基础设施容量管理，它提供了数据中心容量的实时监测、容量计划、容量历史曲线和趋势预测、容量雷达图等功能，确保数据中心的容量均是经济合理，且能够及时满足当前和未来的业务需求。同时它可对当前容量信息进行分类统计、查询、数据导出等操作，以便了解当前容量的使用情况和可能的瓶颈，并给予初步的分析建议，让容量扩容决策及时准确。
多维度容量统计查询
全面统计各级空间

#### 容量检测与展示

容量的检测和展示是通管理层级或设施物理层级（区域、数据中心、机房、列、机柜、设备）进行检测并在页面上实时显示SPC等容量数据、预警与告警信息，以便运维人员直观掌控相关的容量信息，包括机房、机柜列、机柜、虚拟机房展示。

#### 容量建模

容量管理通过建立数据中心各物理层级SPC容量模型，以便精细分析、处理与显示各层级容量数据。综合U空间、供电、制冷、承重、电力口、光口、网口等因素构建容量模型以支撑其他运维管理流程，如上架、变更管理流程等。

#### 容量预占

容量预占功能可在对数据中心的容量分配进行管理，提供可用机位、机柜位的搜索、预占和上线功能。根据设备部署所需的资源(U位空间、电力负载、发热量、PDU、光网口、电网口、承重等)和相关属性（所属项目、空间能耗比、搜索范围）进行匹配，快速输出多套部署方案，并有精确到U位的上架指导，部署结果自动进行校验。对于已经预占的机位和空间，考虑不同项目的优先级，管理员还可以审核、取消、编辑和再分配，以确保高优先级项目的顺利执行，避免资源的随意占用和资源闲置。



#### 变更管理


#### 变更管理概述

变更管理是借鉴行业成熟方法论ITIL及国际标准ISO20000，将变更管理流程分成：变更创建、变更审批（多级审批、变更委员会（CAB）会审等多种形式）、变更发布与回退、变更回顾及评审4个阶段来管理和控制所有对数据中心业务环境有影响的变更，并起到节约运维成本的作用。

#### 变更管理的关键点

可以管理和引导运维人员的变更需求
通过对所有变更的正确评估，可以确保数据中心业务环境的完整性
变更和变更实施得到正确记录，并提供审核统计
减少或消除由于变更实施准备不当等原因出现的对数据中心环境的破坏
提高资源使用率
可以获取更多关于变更的管理信息，帮助更好地判定问题发生的范围
共济的变更管理有助于优化风险和最小化变更对数据中心业务的影响，并起到节约运维成本的作用。
变更管理通过风险评估和分析来提高数据中心的服务质量；
变更管理提供关于受变更影响的服务信息，这些信息有助于采取预防措施和消除风险，确保一个稳定的环境；
变更管理有助于通过提供稳定和高质量的数据中心服务从而提高客户的生产力；在变更实施过程中，通过预防运营中断提高了运维人员的生产力；
变更管理作为一个系统化的流程，处理变更的能力得到提高的话，即使频繁处理变更也不影响数据中心环境的稳定性。

#### 变更日历

变更日历提供了带实施开始和结束时间的变更图形化视图，使用户对变更的排期一目了然。

#### 巡检管理

巡检管理是数据中心预防性管理的主要工作之一，同时也是设施监控准确性的校正手段。移动巡检是为了提高机房巡检质量和加强巡检统筹管理力度的管理系统。利用巡检管理工具，相关管理单位可以清晰观地掌握各机房的巡检情况，实现机房巡检的统一监督和指导。各机房管理单位可合理优化安排巡检人员和巡检活动，并及时发现、诊断和及时处理故障。同时，移动巡检终端具备拍照功能，可在巡检过程中进行拍照留存，自动绑定到巡检工单上。

#### 巡检计划

管理员可以制订巡检计划,计划的内容包括配置巡检点位、巡检路线、巡检指标、巡检组,巡检人等参数。

#### 巡检任务

根据巡检计划,系统会提前生成巡检任务单,并可以提前以短信,邮件方式提醒任务执行人,执行人可以下载巡检任务单后,依据任务单的巡检项完成巡检按任务。

#### 维护保养

维护保养属于预防性维护的重要方式之一,DCOM系统维保管理功能，针对IT运营的特点帮助运维管理人员对设备的维保事务进行管理，具体功能包括维保对象定义,维保计划制订,维保任务执行等。

#### 维保计划

专业主管制订维保计划，并对计划进行分类，比如定期检修、日常巡检（与巡检模块信息设定关联）等；计划周期设定，分每月、每周、工作日、自然日；执行方式、执行团队或个人等；计划可以关联多个维保对象,维保对象把多个具体的对象按照维保方式、维保周期、维保方式进行分类管理，并可以指定每类具体设备的维保方式和维保结果标准，供维保人员执行维保任务时参考。

#### 维保任务

维保计划可以提前生成维保任务单，并在分派和认领任务单或者任务单即将到期时以邮件或短信提醒等方式提醒相关人员。
维保执行人员认领维保单后,可以下载工单,并按照工单的指示信息进行维护保养工作,并可记录每项维保工作的执行结果和设备是否异常等情况。
完成维保任务后，维保结果会以维保日历或者报表方式展示。

#### 维保对象

用户可进行维保对象的增删查改维护操作，定义的维保对象可供其他模块使用。

#### 维保日历

通过日历形式，展示维保任务，使用户对任务的排期一目了然。



#### 值班管理

值班管理模块旨在对运维人员的值班安排、交接班等活动进行管理，并与其他流程相配合，实现有关管理活动与值班人员的动态关联。

#### 值班安排

管理员通过制订值班计划来对运维人员的工作安排进行定义和管理,包括固定工作日、临时性值班和全日制值班等多种模式，对于需要进行班次轮替的全日制值班，还提供班次定义功能，实现不同班次的安排和定义；并支持导出和导入值班计划，值班计划还可以配置值班人员,临时调配人员,计划起始时间等。也可以配置工作日历来定义工作日，节假日等信息。排班计划需要遵循人性化，合法化的原则，通过优化人力配置节省人力成本。

#### 交接班与调班

根据责任人的变更情况对各类执行工单进行变更，完成有关责任的移交；交班单可以指定一个或多个接班人，也可以选择需要交接的故障或者变更申请。

#### 值班日历

以日历方式形象的展示指定月份每日的排班情况,还可以根据排班计划,筛选该计划生成的值班班次。

#### 知识库

知识库可以把系统管理运维过程中的维护经验、预案、规范操作类（SOP）等知识，共享给其他人员，提供知识的录入、审批、分类、查询和维护、评价等功能。

#### 知识录入和维护

提供知识的各类知识的录入和入库功能，支持从故障处理等环节的处理经验直接入库；
提供对在库信息的查询、修订、废弃、评价等功能，确保有关信息得到有效的利用和管理，及时淘汰各类过时的或不合格的经验信息；
提供对预案的管理，对于重要设备、重要系统，用户可以针对常见故障和重要故障场景定义应对预案并保存在知识库中，以降低故障发生时候对业务的影响和冲击，如：运维应急流程的嵌入及应急辅助操作指引、日常运维工作提醒、运维巡检工作记录、备品备件更换记录等；
支持与其他管理流程的联动，为故障处理提供参考，便利故障处理等活动的展开。


#### 知识索引

用户可以按照关键字、目录、标题、摘要、正文 等检索相关知识，也可以按照知识类型、知识目录等筛选知识，为故障处理提供参考。


#### 事件管理


#### 事件管理概述

事件管理的目标就是在出现故障时尽可能快地恢复服务的正常运作，避免其造成业务中断，把对业务的负面影响降为最低，以确保服务质量和可用性满足SLA（Service － Level Agreement，服务等级协议）中定义的正常服务级别。为了实现这个目标，事件管理流程必须最佳地利用资源支持业务、开发和维护有效的故障记录，以及设计和应用统一的故障报告方法。
事件管理的主要目的不是找到引起系统异常的根本原因，而是尽快恢复系统业务功能。事件管理的主要任务是及时识别并跟踪发生的故障；对故障进行分类并提供初步支持；对故障进行调查分析，识别引发故障的潜在原因；解决故障并恢复服务；跟踪和监督所有故障的解决过程，并随时进行沟通。

#### 事件管理的关键点

事件记录
事件管理记录详细的事件信息，如事件发生的时间、受事件影响的服务等。这样做的目的是便于确认事件的影响，根据这些信息查找事件原因，密切跟踪故障进展。
事件分类
ITIL中通常都将故障采取三级分类机制：分类、子分类、项目。事件分111111111类的目的是为了确定事件的来源以便采取相应行动，尽可能快地恢复用户的正常工作，尽量避免或者减少对IT服务质量的影响。
事件状态定义
事件状态反映了其在整个生命周期中的当前状态，有时候指其在事件工作流中的位置。通常情况下，事件状态的例子有：新建、待分派、待响应、处理中、已完成、已关闭。
事件级别定义
在确定事件的类别后，需要确定事件的优先级以确保支持小组对问题予以足够的关注。决定事件级别的要素主要有三个，分别是影响度（Impact）、紧急度（Urgency）和处理优先级（Priority），计算公式为：优先级＝紧急度×影响度。
事件诊断处理
经过事件的查明和记录，对事件进行初步诊断后通过技术或管理手段快速恢复。事件管理的目标首先是快速解决问题，恢复业务的正常运作。
事件关闭
事件解决和恢复服务后，事件到达关闭阶段在用户同意事件解决方案和方案执行的最终结果的基础上，该事件可以被关闭。

#### 问题管理


#### 问题管理概述

问题管理的目标是找出突发故障产生的根本原因，最小化由于IT基础架构错误引起的突发故障和问题的负面影响，防止与错误相关的突发故障的再次发生。通过实施主动问题管理，在故障发生之前发现问题并解决，从而减少故障发生的数量。
与事件管理强调速度不同，问题管理则注重诊断事件的根源，确定问题的根本原因，从而制定恰当的解决方案，从根本上解决问题，防止类似事件的再次发生。

#### 问题管理的关键点

问题的识别和记录
原则上，任何一个由未知原因引起的故障都与某个问题有关。问题记录会跟所有有关联的故障记录关联在一起。故障的解决方案以及临时解决方案的细节都应该被记录在问题记录中而不是故障记录中，以便它们可以用于将来有关联的故障中。
问题的诊断和处理
问题管理的目标是为了确定问题的根源。一旦诊断出配置项中的故障，那么该问题状态被转变为已知错误，然后开始进行错误控制。
问题的关闭
在满足问题关闭规则指定的条件之后，关闭问题，同时可将关联的所有故障一同关闭。

#### 协助工作单


#### 协助工作单概述

协助工作单适用于工作中需要其他部门协助的场景，在企业各部门之间沟通、协调、协助、配合时使用。协助工作单的目标是加强各部门之间的团结协作，提高工作效力，同时也避免发生部门之间权责不清，碰到交叉的工作，互相都不积极主动配合，或出现问题时相互推诿责任。

#### 协助工作单的关键点

协助工作单内容
协助工作单中需要明确工作内容、理由，以及完成工作的期限等。需要两个以上部门协助完成的事项，应分开填写协助工作单，以便跟进。
协助工作单的处理人
协助工作单由提交人填写完整内容后，指派给需协助部门的负责人。如因故不能及时处理或无法处理的，可以在沟通一致后，拒绝工单，由提单人改派工单。
协助工作单的关闭
在满足协助工作关闭规则指定的条件之后，关闭协助工作单。

#### 供应商管理

供应商管理的目的，是建立起一个稳定可靠的供应商队伍，为企业生产提供可靠得服务供应。

#### 供应商管理

用户可进行供应商信息的增删查改维护操作，定义的供应商可供其他模块使用。

#### 供应商人员管理

用户可进行供应商人员信息的增删查改维护操作，定义的人员可供其他模块使用。


#### 服务请求


#### 服务请求概述

服务请求流程是对来自IT用户的低风险、低成本的例行请求进行处理的流程，包括服务请求记录、审批、执行、关闭等环节。包括：信息咨询、建议、非系统投诉、重置密码、桌面服务请求等等。服务请求管理的目标是确保在成本允许范围内，在预先得到批准和确认的前提条件下，为IT用户提供一个请求和接受标准服务的渠道，快速实现来自IT用户的服务请求。

#### 服务请求的关键点

创建服务请求
用户可以通过多种方式提出服务请求，包括：在IT服务管理平台上自助提出创建服务请求。
服务请求的处理
处理人及时响应并领取该请求。
服务请求的解决
处理人完成服务请求，并知会用户。
服务请求的关闭
在得到用户确认后，服务请求可以关闭。

#### 租户管理


#### 租户管理概述

租户管理负责维护数据中心租户和租约合同的管理，确保数据中心可出租资源得到合理管控，并对数据中心运营决策提供数据支撑。

#### 租户管理的关键点

租户信息维护
确保租户基本信息、租户租约信息、租用机柜信息、用电量信息准确及时更新。
租户租约合同维护
租约的创建，审核，续约操作。
租户数据统计
租户用电量统计、租户容量使用情况统计。

#### 人员管理


#### 运维人员管理

运维人员负责维护并确保整个数据中心服务的高可用性，同时不断优化系统架构提升部署效率、优化资源利用率提高整体的ROI。
运维人员管理的目的是为了能够精细、高效的管理运维人员，充分调动员工积极性，以完成组织目标。

### 2.2.18.1.1组织架构

管理运维相关部门，明确数据中心部门划分，展示数据中心组织架构。

### 2.2.18.1.2运维人员通讯录

运维人员信息的360管理，包括账号信息、基础信息、教育经历、资质证书、运维信息等。人员资质证书到期可提前发出提醒换证。

#### 客户管理

客户是指通过购买你的产品或服务满足其某种需求的群体，也就是指跟个人或企业有直接的经济关系的个人或企业。客户管理是通过对客户详细资料的深入分析，来提高客户满意程度，从而提高企业的竞争力的一种手段。

### 2.2.18.2.1客户列表

管理与数据中心相关的客户线索，包括基本信息、联系人等。

### 2.2.18.2.2客户通讯录

记录所有客户联系人信息，方便快速检索。

#### 表单与流程工具

业务的快速发展、变化，对流程管理的高频迭代，提出了更高的要求。应用、表单、流程的自定义，很好的解决了此痛点。

#### 模块管理

支持用户自定义模块，结合表单管理和流程管理，为高效上线新应用、优化已有应用，提供了工具支撑，满足快速发展、变化的业务需求。

#### 表单管理

支持用户自定义应用的主表单、列表，通过拖拽控件方式，所见即所得。为高效上线新应用、优化已有应用，提供了工具支撑，满足快速发展、变化的业务需求。

#### 流程管理

遵循BPMN2.0规范，支持用户自定义应用的流程，通过图形化方式设计流程图，高可读性，高易用性。为高效上线新应用、优化已有应用，提供了工具支撑，满足快速发展、变化的业务需求。


#### 运维宝APP

集成了各模块的移动端，为用户提供便捷、及时的操作方式，可随时查看报表、处理工单、移动巡检等。

#### 移动巡检

采用支持无线射频读卡（NFC、RFID）技术的平板计算机或智能手机进行机房巡检的移动巡检,解决了人工巡检效率低下,巡检质量难以保证,巡检工作成绩难以评估等问题， 实现了电子排班、自动生成巡检工单，巡检点地图指引、读电子标签签到，巡检界面模板化、巡检标准统一，巡检异常情况、当场拍照留存，巡检全过程自动提醒巡检任务，巡检电子报表、简化统计分析等数据中心定时巡检全部工作的信息化。


#### 服务级别管理


#### 服务级别管理概述

服务级别管理提供服务级别协议（SLA）和运营级别协议（OLA）两个部分。
SLA：是IT服务提供商和客户之间进行磋商后正式记录下来的IT服务标准或合同。是对客户的整体服务承诺；
OLA：管控流程每个环节的工作时效；
服务级别管理保证 IT 服务水平达到要求，提高服务水平和运维效率。
共济DCOM提供事前协议维护，记录服务等级；事中监控提醒，有效避免工单超时；事后输出服务水平报告，为服务改进提供有效输入。

#### 服务级别管理的关键点

自定义监控特定节点
应对复杂、多变场景的工作流程，用户可自行选择所需监控的节点，有效跟踪流程执行情况。
支持设置多个服务级别
除5个固定级别外，还可自定义更多其它级别，单个模块做多支持设置50个服务级别。
支持设置多条逾期通知规则
支持设置逾期前、逾期后规则升级通知，单个级别最多可支持设置10条通知规则。
支持版本管理
提供SLA/OLA方案维护，包括方案的创建、控制及版本管理，可追溯查看历史方案详情。
支持报表生成
将 SLA 方案监控结果生成报表，呈现给用户，作为服务改进的输入。

#### 培训管理

共济培训管理提供视频、音频、图文三种类型的课程学习方式，以及在线测评、考试等，帮助学员或员工完成知识的学习和评估。
素材管理：管理员可以添加视频、音频、图文素材。
课程管理：管理员可以添加、删除或收回课程，根据不同类型或需求创建永久生效的通用课程或限定时间学习的任务课程。可以查看学员学习进度及学习时长。
试题管理：管理员可以添加、删除试题，设置题目类型，添加题目解析。
考试管理：管理员可以创建、收回考试，查看考试记录和成绩等。
统计报表：管理员可以查看各类报表，如课程访问量、学完人数、学习时长、考试成绩等。

#### 成本管理

数据中心成本管理需秉承“成本管理对象化，成本数据透明化”的理念。在做好成本核算的基础上，引入科学的成本管理方法，强化对成本管理的力度；建立各环节成本全过程管理体系，准确地统计与分析成本信息，实现成本管理的事前计划、事中控制、事后分析，从战略角度优化成本结构。
成本概览：以所见即所得的方式，展示静态成本分布、动态成本分布。
静态成本：管理数据中心建设中投入的一次性费用明细。
动态成本：管理数据中心长期运营维护期间发生的各类费用。

#### 健康评分

基础设施健康评分是基于基础设施健康指数驱动的管理和维护、智能化、平台化软硬件一体解决方案。实现健康管理与实时状态感知，提高管理效率和设备效率，构建融合的数据应用系统，降低维护的安全风险，延长资产的使用寿命，避免忽然停机的损失，促进数据中心管理智能化提升。
在线报告：设定指标评判标准与设备实际数据进行校验，定期输出测评报告及详情。
测评计划：设置评分等级、添加关联模板，制定测评计划定期执行。
测评模板：按需制定模板或者使用已有模板，支撑基础设施进行检测。
测评指标库：健康评分的基础，是测评报告输出的输入项。

#### 设备健康检查

设备健康检查是通过整合设备管理规章制度和业务流程，紧密结合状态监测、维修、使用和环境等信息，对涉及设备健康的因素进行全过程监控，建立以设备静态数据和动态数据相结合来分析设备健康度的能力，逐步建立一套稳定、高效数据分析平台。
健康报告：主要输出载体，进行综合校验与分析，以报告的形式定期输出检查结果。
计划管理：依据制定计划执行设备健康检查，协调各环节关系的系列管理活动。
模板管理：按需制定模板或者使用已有模板，支撑设备健康检查。
指标库：设备健康检查的基础，保障设备监控的实现。


### 系统特点

共济基础设施监控管理系统具备安全可靠、绿色节能、高效简单等特点。

#### 安全可靠

高可靠性，备份还原力保业务不间断
高可维护性，标准化设计，模块化设计维护十分方便
高可用性，授权控制易于在线扩容
实时的可用性计算

#### 绿色节能

采用高度智能化管理系统，比传统运维人力成本节约50%
强大的能效分析工具，帮助分析能耗问题
清晰的节能效果对比，为不断透明化、数字化提升能效提供技术支持
空调智能群控，降低空调耗电

#### 高效简单

容量、资产自动检测自动检测
故障自动精准定位，为快速解决问题提供技术保障
资产一键盘点，准确、省时、省力
积木式标准模块，现场快速安装、快速扩展
用户可按区域、部门、职能等业务模式进行权限划分，便于权限的分级管理

## 典型应用


### 高可用性保障

在企业中心部署了共济的基础设施监控管理系统，当建立了异地备份数据中心，并希望异地备份数据中心的基础设施纳入企业中心统一监控管理，这时，只需要根据异地备份数据中心的基础设施的数据量，增加对应共济基础设施监控管理服务器，利用共济基础设施监控管理服务横向扩展功能，无需停止监控管理服务，即可实现。
处于共济基础设施监控管理服务集群中的服务器共同承担监控管理业务，当其中的某台服务器故障、宕机、离线时，其他服务器自动接替该服务的工作，保障共济基础设施监控管理服务的完整、不间断的工作。

### 复杂事件分析

当主路开关断开时，会影响到支路的许多设备的正常运行，这么多告警事件同时发生，它们会发送给不同的负责人员，不仅浪费大量的人力，也会影响处理故障的效率。共济基础设施监控管理系统采用复杂事件分析处理引擎，对这些告警进行处理后，能够追溯告警发生的源头，精确定位到该主路的断开故障，并将其他的告警过滤掉，只发送给主路的负责人，不仅节省人力，也节省处理时间。

### 影响分析

实现分析对象造成的影响范围、影响区域分析，对这些区域进行醒目提示。可供事件管理、变更管理、信息安全等场景使用。降低风险，并及时通知相关用户。

### 知识推荐

实现知识智能推荐功能，在创建工单时，系统根据工单标题自动匹配相关的知识，并推荐到页面上，用户可根据需要进行选择。提升工单处理效率，提高知识复用性。

### 资产盘点

共济基础设施监控管理系统提供快速的盘点方式和盘点工具，对于在架资产，系统通过共济专利的资产检测技术可以做到在线一键盘点资产，准确快速获取盘点结果；对于非在架资产，系统提供手持移动盘点终端，也能方便的盘点资产，最后将盘点结果导入到系统中，所有的资产盘点工作便轻松地完成了。

### 容量规划与优化

建设一个数据中心是为了充分利用它的容量，但缺乏合理的使用规划往往会导致容量碎片的出现，容量利用率不高。共济基础设施监控管理系统通过对数据中心各个层级各个维度的容量（空间、电力、制冷等）进行实时监测，建立数据中心容量模型，能够根据容量实际使用情况，例如通过精细化的能效监测发现机柜的真实电力使用情况，及时调整各维度容量的综合使用率，使容量利用达到平衡，避免单项容量短板的出现，达到容量使用优化的目的。也可根据容量使用情况进行趋势分析与规划，合理部署新的设备，在容量不足时及时提醒决策者进行机房扩容。通过容量的规划与优化，最终减少容量碎片，提高容量的利用率。

### 移动巡检

在社会高度依赖信息化系统的今天，人们用制度化的定时机房巡检来弥补监控系统的不足，以及时发现并尽早处理异常情况，提高数据中心可用性。因此，机房每日定时巡检成为中大型数据中心日常运维活动中最基础的工作之一。传统巡检一般均基于纸质表单，将设备巡检情况进行手工记录和处理。
人工方式往往面临如下问题：
手工填报纸质巡检单，巡检效率低下；
有意无意漏检情况时有发生，巡检质量难以保证；
异常情况无法取证留存，问题分析缺少依据；
大量信息不能高效输入计算机，巡检结果难以统计分析；
巡检人员的工作成绩难以评估等。
移动巡检解决了这些问题。
出于信息安全考虑，数据中心一般不允许有无线网络环境，移动终端可以离线工作，无需网络环境；而对于需要统一管理的机构的联网机房，移动巡检系统可以实现定时巡检的所有联网机房定时巡检的统一管理。对于暂时还没有监控系统的数据中心，移动巡检系统是个简易方便的预防性运维管理工具；对于已有监控系统的数据中心，移动巡检功能可嵌入运维管理模块，使监控管理系统更完整。

### 运维经验积累

数据中心需要大量运维人员，数据中心的运行效率和事故应对能力将依赖于运维人
员的业务水平、管理协调能力,因此知识技能的传承和积累尤其重要,知识库给日常运维管理提供了信息共享平台以便保存和共享有关的处理经验，提高协作的效率。知识库做为运维管理的重要模块,可以促进故障处理经验，设备维护经验,系统基础资料，应急预案等知识的归档和不断完善及提升。

### 快速排班

传统人工排班面临排班工作量大,排班结果不人性化,调班不方便等问题,DCIM值班管理模块提供了快速排班的能力,通过排班计划,可以快速创建及调整月度,季度,甚至年度值班任务。


**表1**

| 版本号 | 时间 | 修改人 | 备注 |
|---|---|---|---|
| V1.0 | 2017/11 | 蔡睿 | 初稿 |
| V1.1 | 2018/03 | 曾祥应 | 增加能效管理、容量管理等功能介绍 |
| V1.2 | 2018/07 | 曾祥应 | 增加事件管理、问题管理、工作单功能介绍 |
| V1.3 | 2021/01 | 王戎坤 | 增加个人控制台、供应商管理、服务级别、服务请求、表单与流程工具、运维报APP |
| V1.4 | 2021/06 | 王戎坤 | 更新流程工具2.0，事件、问题、变更、服务请求、协助工单主线流程 |
| V1.5 | 2023/03 | 陈永连 | 增加人员管理、租户管理功能介绍 |
| V1.6 | 2023/06 | 陈永连 | 增加培训管理、服务级别管理、成本管理、健康评分、设备健康检查模块功能介绍 |


**表2**

| 术语 | 解释 |
|---|---|
| DCIM | 数据中心基础设施监控管理系统 |
| DCOM | 数据中心运行管理系统 |
| DCOP | 数据中心低代码平台 |
