联系电话
首页 ITSS ITSS标准介绍
新闻动态推荐
热点文章推荐

[ITSS标准] 信息技术服务 运行维护 第4部分:数据中心规范

信息技术服务 运行维护 第4部分:数据中心规范

Information technology service - Operation and maintenance - Part4:Specifications for data center

(报批稿)

随着各行业、各领域信息化工作的深入开展,有越来越多的信息系统进入运行维护阶段。然而,提供运行维护服务的各类组织的能力水平参差不齐,需方缺乏评价或选择供方的方法、手段及规范。本标准对不同服务对象、服务过程和服务需求的能力要素进行抽象,并通过关键指标对服务能力进行评价;针对不同服务对象的运行维护服务过程、服务交付内容及特定服务需求提出了要求。

本部分规定了数据中心运行维护服务的对象、服务策略、交付内容等要求,旨在规范数据中心运行维护服务供方(以下简称供方)行为、改进服务能力及提高数据中心运行维护服务的工作效率。数据中心运行维护服务的服务需方(以下简称需方)可以参照本部分提出明确的数据中心运行维护服务需求。本部分亦适用于需方选择和评价供方。

本部分的第4章提出了数据中心运行维护服务的对象和服务的交付内容,以及它们之间的关系。

本部分的第5章阐述了数据中心运行维护服务的基本策略。

本部分的第6章对数据中心运行维护服务交付内容进行了详细的描述。

1 范围

本部分规定了数据中心运行维护服务的对象、服务策略、交付内容等要求。

本部分适用于规范供方针对数据中心服务对象提供的运行维护服务内容,也可供需方参考使用。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T 22080信息技术 安全技术 信息安全管理体系 要求

GB/T 22081信息技术 安全技术 信息安全管理实用规则

GB/T 24405.1-2009信息技术 服务管理 第1部分:规范

SJ/T XXXXX.3信息技术服务 运行维护 第3部分:应急响应规范

3 术语、定义和缩略语

3.1 术语和定义

下列术语和定义适用于本文件。

3.1.1

数据中心datacenter

以信息技术为支撑,实现应用集中处理和数据集中存放,提供数据的构建、交换、集成、共享等信息服务的基础环境。

3.1.2

配置管理数据库configuration management database

包含每一个配置以及配置项之间重要关系的详细情况的数据库。

[GB/T 24405.1-2009信息技术服务管理-规范,定义2.5]

3.1.3

工作说明书statement of work

合同的重要附件之一,详细规定了合同双方在合同期内应完成的工作,如项目范围、工作描述、进度表、风险、需方责任等。

3.1.4

服务级别协议service Level agreement

服务提供商与服务需方之间签署的记录了服务和约定服务级别的协议。

[GB/T 24405.1-2009信息技术服务管理-规范,定义2.13]

3.1.5

外部事件external events

为服务对象运行提供支撑的、协议获得的、不可控、非自主运维的服务资源(例如互联网、市电、租赁的机房等等)中断引发的事件。

3.1.6

系统事件system events

在服务对象范围内的、自主管理或运维的系统资源服务中断引发的事件。

3.1.7

安全事件security events

由于安全边界破坏、安全措施或安全设施失效,造成的安全等级下降或信息被非法盗用等需方(数据中心)利益被侵害的事件。

3.1.8

虚拟资源池 Virtual resource pool

指通过使用虚拟化技术对数据中心的计算、存储、网络等物理资源进行虚拟化,通过管理软件来动态部署给用户使用,这些被虚拟化集中管理的资源叫做虚拟资源池 Virtual Resource pool。

3.1.9

虚拟机virtual machine

指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。

3.1.10

宿主机 hypervisor

指运行虚拟化软件,并为虚拟机运行提供环境的物理机器。

3.1.11

电源使用效率  Power Usage Effectiveness

数据中心消耗的所有能源与IT负载使用的能源之比,简称PUE。

3.2 缩略语

ACL    访问控制列表(Access Control List)  

APU    辅助(或备用)电源设备(Auxiliary Power Units)

ATS    自动转换开关(Automatic Transfer Switch)

CMDB  配置管理数据库(Configuration Management Database)

CPU    中央处理器(Central Processing Unit)

HBA    主机总线适配器(Host Bus Adapter)

IO      输入/输出(Input/ Output) 

IOPS    每秒进行读写(I/O)操作的次数(Input/ Output Operations Per Second)

IP      互联网协议(Internet Protocol)

LED    发光二极管(Light Emitting Diode)

PUE     电源使用效率(Power Usage Effectiveness )

QOS    服务质量(Quality Of Services)

RAID   廉价冗余磁盘阵列(Redundant Arrays of Inexpensive Disks)

SAN    存储区域网络(Storage Area Network)

SLA    服务级别协议(Service Level Agreement)

SOW   工作说明书(Statement Of Work)

UPS    不间断电源(Uninterrupted Power Supply)

VDC    虚拟设备上下文(Virtual Device Context)  

VLAN  虚拟局域网(Virtual Local Area Network)  

VPC    虚拟端口通道(Virtual Port Channel)  

VPN    虚拟专用网(Virtual Private Network)  

VRF    虚拟路由转发(Virtual Routing and Forwarding)  

VSS    虚拟交换系统(Virtual Switching System)  

VSwitch  虚拟交换机(Virtual Switch) 

4 服务对象与交付内容

4.1 服务对象与交付内容的对应关系

4.2 服务对象

根据数据中心的特点,数据中心的服务对象分为机房基础设施、物理资源、虚拟资源、平台资源、应用资源和数据六类。这六类对象的集合构成应用系统:

a) 机房基础设施:指确保机房环境满足计算机相关设备正常运行要求的各类设施,包括机房电力        系统(供配电系统、UPS系统、发电机系统)、空调系统(精密空调系统、新风系统)、安防系统(防雷接地系统、消防系统、视频监控系统、门禁系统)、综合布线系统等;

b) 物理资源(网络及网络设备、服务器设备、存储设备)

1) 网络及网络设备:指保持数据中心内部各系统之间、数据中心与外部系统连接的网络及网络设备,包括内部局域网、外部广域网、互联网、网络线路(包括专线、拨号网络、VPN)和网络设备(包括路由器、交换机、防火墙、入侵检测、负载均衡、语音以及通信传输设备等);

2) 服务器设备:实现各种计算服务的硬件设备,包含PC服务器、小型机和主机等;

3) 存储设备:实现数据存放的各种存储设备,包括磁盘阵列和磁带库等。

c) 虚拟资源(虚拟网络资源池、虚拟计算资源池、虚拟存储资源池)

1) 虚拟网络资源池:通过各种网络虚拟化技术(如:VLAN、VPN、VDC、VPC、VRF、VSwitch、VSS等), 将数据中心内网络设备进行统一管理和调度,构成网络资源池,对业务系统需要的网络资源进行合理、灵活的分配;

2) 虚拟计算资源池:指通过虚拟化技术,将数据中心内计算设备进行统一管理和调度,构成计算资源池,对需要不同计算能力的业务系统进行合理、灵活的分配;

3) 虚拟存储资源池:通过虚拟化技术,将数据中心存储存储设备进行统一管理和调度,构成存储资源池,对业务系统需要的存储空间容量进行合理、灵活的分配。

d) 平台资源(操作系统、数据库、中间件等):指支持应用软件运行的系统软件,包括操作系统、   数据库、中间件等;

e) 应用资源:指实现用户特定需求的应用软件;

f) 数据:指由应用软件产生、处理、并存储于数据中心的业务数据。

4.3 交付内容

数据中心的服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:

a) 调研评估服务:根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;

b) 例行操作服务:按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业;

1) 监控:指采用各类工具和技术,对数据中心服务对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;

2) 预防性检查:指为保证服务对象的持续正常运行,供方根据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;

3) 常规作业:指供方对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。

c) 响应支持服务:根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;

1) 事件驱动响应:由于不可预测原因导致服务对象整体或部分性能下降、功能丧失,触发将服务对象恢复到正常状态的服务活动。事件驱动响应的处理过程首先应争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;

2) 服务请求响应:由于需方提出各类服务请求,引发的需要针对服务对象、服务等级做出调整或修改的响应型服务。服务请求响应需要根据总体服务策略并参考已有的SLA/ SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;

3) 应急响应:指在数据中心出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。应急响应的服务实施及相关要求见SJ/T XXXXX.3。

d) 优化改善服务:包括适应性改进、增强性改进和预防性改进三种类型;

1) 适应性改进:为保持数据中心服务对象在已变化或正在变化的环境中可持续运行而实施的改造;

2) 增强性改进:根据数据中心的运行需求或由于服务对象的缺陷,采取相应改进措施增强数据中心的安全性、可用性和可靠性;

3) 预防性改进:检测和纠正数据中心服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足数据中心未来可靠运行的需求。

5 运行维护服务基本策略

5.1 总则

为保证数据中心的业务连续性和信息安全性,应制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。

5.2 可用性

供方应采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可用性要求。包括:

a) 供方在服务实施时,应建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以满足需方对可用性的要求;

b) 进行合理的人员岗位设置和职责定义,应保证专人专岗并设置人员备份;

c) 应配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。人员能力具体要求见附录A;

d) 应选择适用的运行维护技术,以保证服务的可用性;

e) 根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。运行维护工具等级见附录B;

f) 供方应根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。

5.3 安全性

服务的供、需双方应采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:

a) 建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为。信息安全管理可参照GB/T 22080、GB/T 22081等标准的有关规定执行;

b) 应对数据中心运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;

c) 应对数据中心运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密相关规定;

d) 应充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;

e) 应对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;

f) 应建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。

5.4 及时性

供方应采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。包括:

a) 对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;

b) 建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的及时响应;

c) 建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;

d) 特殊时间段(如法定节假日或重大事件等),应提升响应级别,提供必要的现场支持;

e) 建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。

5.5 规范性

供方应建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。包括:

a) 建立有效的服务管理流程文件,以保证服务过程实施规范性;

b) 建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;

c) 对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;

d) 对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;

e) 在服务过程中进行的任何活动,应建立服务档案,可形成服务报告(见附录C),保留完整的服务记录。

6 运行维护交付内容

6.1 机房基础设施

6.1.1 服务对象

服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统、发电机系统)、安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)以及综合布线系统。

6.1.2 调研评估

机房基础设施调研评估服务内容包含但不限于:

a) 空调系统(精密空调系统、新风系统):机房环境指标分析及改进建议、机房热点分析及布置改进建议、机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;辅助制冷单元配置建议等;

b) 电力系统(供配电系统、UPS系统、发电机系统):机柜供电分析及改进建议、机房回路调整分析调整建议、机房扩容建议等;发电机负荷分析及调整建议等;UPS运行分析及扩容建议,超过设计使用寿命的电池更换建议、整流直流电容、逆变交流电容等;

c) 安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):防雷接地系统分析及改进建议、消防系统现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系统的分析和改进建议、门禁系统的分析和改进建议等;

d) 综合布线系统等:光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进或扩容建议;级别提升建议等。

e) 机房电源使用效率:通过对机房PUE连续监测分析,提供机房能效改进建议,包括但不限于:空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、使用节能型设备等)、实施容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。

6.1.3 例行操作

机房基础设施的例行操作服务包括:监控、预防性检查、常规作业。

6.1.3.1 监控

对机房基础设施的监控

6.1.3.2 预防性检查

应在监控服务的基础上对机房基础设施进行预防性检查。包括:性能检查和脆弱性检查。

6.1.3.3 常规作业

机房基础设施的常规作业包括基础类操作、测试类操作和数据类操作,其中:

a) 基础类操作:按服务管理手册的有关规定,执行设备的日常运行、维护和保养;

b) 测试类操作:按服务管理手册的有关规定,对机房基础设施各系统功能、性能进行测试;

c) 数据类操作:按事先规定的程序,对机房基础设施运行日志、记录等数据进行操作。

6.1.4 响应支持

6.1.4.1 事件驱动响应

针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:

a) 空调系统:故障排查、关闭部分机组以维持机房最低温湿度指标、关闭新风系统等;

b) 电力系统:配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;发电机系统包括故障排查、启动发电机、油料补充等;UPS系统包括故障排查、旁路系统、关闭非重要输出等;

c) 安防系统:防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等;消防系统包括故障排查、系统启动、报警联动、疏散警示等;视频监控系统包括故障排查、监控头或硬盘更换、检查告警、数据恢复等;门禁系统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等;

d) 综合布线系统:线缆更换等。

6.1.4.2 服务请求响应

根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:

a) 空调系统:调整温度、湿度参数等,调整新风量等;

b) 电力系统:配电系统包括增减回路、增减供电类型(如直流、110V)等;分支回路相位调整等;发电机为指定负载供电等;UPS系统包括旁路操作、为指定负载供电等;

c) 安防系统:防雷接地系统包括新设备接地等;消防系统包括增减终端设备、检查及提供告警及监控记录、备份或清除记录等;视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;门禁系统包括增加、删减、变更门禁权限等;

d) 综合布线系统:链路跳接、跳线更换,布线扩容等。

6.1.5 优化改善

6.1.5.1 适应性改进

根据应用系统特点和运行需求,对机房基础设施进行调整,包括但不限于:

a) 空调系统:调整温湿度参数等、调整机组位置、增减新风风量等;

b) 电力系统:配电系统包括更换开关、导线以适配负载容量等,发电机包括调整启动方式等;

c) 安防系统:调整防雷接地系统、消防系统、视频监控系统和门禁系统,以适应应用系统的变化;

d) 综合布线系统:调整综合布线系统,以适应应用系统的变化。

6.1.5.2 增强性改进

根据应用系统的特点和运行需求,通过对机房基础设施的运行记录、趋势的分析,对机房基础设施进行调整、扩容或升级,包括但不限于:

a) 空调系统:增减精密空调机组、增减APU单元,增加新风机组、预处理装置等;

b) 电力系统:配电系统包括增加回路、增加ATS设备等;UPS系统包括增加主机数量、增加电池数量等;

c) 安防系统:防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等;消防系统包括增加传感器和喷头数量,更换高性能控制主机;视频监控和门禁系统包括增加报警联动、增加终端数量、增加存储容量等;

d) 综合布线系统:线路扩容、更换高性能布线等。

6.1.5.3 预防性改进

根据对机房基础设施的运行记录、趋势的分析,结合应用系统的需求,发现机房基础设施的脆弱点,有针对性地进行改进性作业,包括但不限于:

a) 空调系统:调整机组位置,调整出回风方式等;

b) 电力系统:配电系统包括更换开关、更换导线、调整回路等;发电机包括更换或添加高标号油料等;

c) 安防系统:防雷接地系统包括焊接点加固、防腐处理等;消防系统包括消防系统预防性改进(按照当地消防管理部门管理要求);视频监控和门禁系统包括门禁系统支持与消防系统和视频监控系统的联动;

d) 综合布线系统:弱电线缆与强电线缆的物理隔离,鼠患排查等。

6.2 物理资源

6.2.1 服务对象

服务对象包括1)网络及网络设备;2)PC服务器、小型机等服务器;3)磁盘阵列、磁带库等存储设备。

6.2.2 调研评估

通过对物理资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出物理资源的改进建议和方案,调研评估服务包括但不限于:

a) 网络及网络设备调研评估

1) (整体或局部)网络实际负荷与承载能力分析;

2) (整体或局部)网络预期负荷与承载能力分析与建议;

3) (整体或局部)网络架构分析与建议;

4) (整体或局部)网络路由策略分析与建议;

5) (整体或局部)网络安全策略分析与建议;

6) (整体或局部)网络配置调优分析与建议等。

b) 服务器调研评估

1) 服务器负载情况分析;

2) 服务器安全策略分析;

3) 服务器的高可用性分析;

4) 服务器性能分析及调整建议。

c) 存储调研评估

1) 存储的负载情况分析;

2) 存储的空间使用分析;

3) 存储的性能及调整建议;

4) 存储的链路连接分析;

5) 存储的高可用性分析。

6.2.3 例行操作

6.2.3.1 监控

重点是对物理资源(网络及网络设备、服务器设备、存储设备)的运行状态、运行性能、资源分配使用情况进行监控,以便了解其是否满足运行要求。监控应当采用合适的装备与手段,分配专门人员定期或全时段进行监控。

6.2.3.2 预防性检查

在监控服务的基础上,对物理资源(网络及网络设备、服务器、存储)进行预防性检查。包括:性能检查、脆弱性检查。

6.2.3.3 常规作业

物理资源(网络及网络设备、服务器、存储)的常规作业

6.2.4 响应支持

6.2.4.1 事件驱动响应

针对物理资源的故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:

a) 网络及网络设备事件驱动响应

1) 故障定位;

2) 停止、启动进程;

3) 中断、连通网络连接;

4) 关闭、启动端口;

5) 网络备件更换;

6) 更改、恢复配置。

b) 服务器事件驱动响应

1) 服务器重启;

2) 更换故障部件,包括主板、电源、CPU、内存、硬盘等;

3) 服务器关键部件微码升级;

4) 服务器硬盘RAID配置修复。

c) 存储事件驱动响应

1) 存储重启;

2) 配置文件恢复;

3) 更换故障部件,包括电源、硬盘等;

4) 微码升级;

5) 存储管理软件补丁安装;

6) 数据修复。

6.2.4.2 服务请求响应

根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:

a) 网络及网络设备服务请求响应

1) 增加、降低网络接入的数量或速度;

2) 更改网络设备配置;

3) 启动、关闭端口或服务;

4) 更换、更新或升级设备硬件或软件。

b) 服务器服务请求响应

1) 服务器设备搬迁;

2) 服务器设备停机演练;

3) 服务器设备清洁维护等。

c) 存储服务请求响应

1) 存储设备搬迁;

2) 存储设备停机演练;

3) 存储设备清洁维护;

4) 存储硬盘空间扩容;

5) 存储结构调整;

6) 新增主机分配存储空间;

7) 主机端多路径软件的安装配置。

6.2.5 优化改善

6.2.5.1 适应性改进

根据应用系统特点和运行需求,对物理资源进行调整,包括但不限于:

a) 网络及网络设备适应性改进

1) 路由策略调整;

2) 设备或链路负载调整;

3) 安全策略调整;

4) 监控对象覆盖范围调整;

5) 局部交换优化;

6) 局部冗余优化。

b) 服务器适应性改进

1) 服务器硬盘RAID配置调整;

2) 服务器网络、光纤链路冗余调整;

3) 服务器电源供电接入冗余调整。

c) 存储适应性改进

1) 存储设备读写Cache比例调整;

2) 存储设备RAID保护级别调整;

3) 存储设备新增硬盘,包括新增磁盘扩展柜;

4) 存储设备逻辑盘的容量调整;

5) 存储设备分配主机的调整;

6) 光纤交换机ZONE规划调整。

6.2.5.2 增强性改进

根据应用系统的特点和运行需求,通过对物理资源的运行记录、趋势的分析,对物理资源进行调整、扩容或升级,包括但不限于:

a) 网络及网络设备增强性改进

1) 硬件容量变化,如网络设备硬件、软件升级、带宽升级等;

2) 整体网络架构变动;

3) 网络架构容量变化,如网络子系统的增减等;

4) 系统功能变化,如新增功能区、新增安全系统、新增审计系统等;

5) 路由协议应用及部署调整;

6) 整体安全策略收紧;

7) 交换优化;

8) 冗余优化。

b) 服务器增强性改进

1) 为本服务器从存储系统上分配更大空间;

2) 服务器CPU个数增加;

3) 服务器内存容量增加;

4) 服务器磁盘空间扩容;

5) 服务器网卡和HBA接口卡增加等。

c) 存储增强性改进

1) 存储设备控制器、硬盘等部件的微码升级;

2) 存储设备新增硬盘扩容,包括新增磁盘扩展柜;

3) 存储设备Cache容量增加;

4) 存储设备光纤模块的升级;

5) 光纤交换机的光纤模块升级;

6) 存储设备管理软件的版本升级。

6.2.5.3 预防性改进

根据对物理资源的运行记录、趋势的分析,结合应用系统的需求,发现物理资源的脆弱点及潜在的隐患,有针对性地进行改进性作业,包括但不限于:

a) 网络及网络设备预防性改进

1) 配置参数优化,例如关闭不必要的服务、打开缺省的增强功能、加快三层网络路由收敛速度、加快二层网络生成树收敛速度等;

2) 安全优化,例如密码加密,TELNET控制等;

3) 提高软件配置命令可读性。

b) 服务器预防性改进

1) 检查服务器硬盘RAID配置,及时修复或更换故障硬盘;

2) 增加服务器网卡、光纤卡以及链路冗余情况;

3) 增加服务器电源供电模块冗余。

c) 存储预防性改进

1) 收集磁盘空间的使用情况,及时清理垃圾数据或增加存储设备容量;

2) 查看存储控制器电池的使用情况,及时更换新的电池;

3) 检查存储设备的电源是否老化,及时更换新的电源;

4) 查看存储设备的读写性能,适时调整存储控制器的Cache容量。

6.3 虚拟资源

6.3.1 服务对象

服务对象包括虚拟网络资源、虚拟计算资源、虚拟存储资源。其中虚拟网络资源含虚拟网卡、虚拟网络设备、虚拟链路、虚拟机网络和网络设备等;虚拟计算资源包括虚拟机、虚拟机宿主机、虚拟计算资源池(Resource Pool)集群等;虚拟存储资源包括虚拟存储卷、存储资源池、服务控制器等。

6.3.2 调研评估

通过对虚拟资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出物理设备、虚拟资源的改进建议和方案,调研评估服务包括但不限于:

a) (整体或局部)虚拟资源实际负荷与承载能力分析;

b) (整体或局部)虚拟资源预期负荷与承载能力分析与建议;

c) (整体或局部)虚拟资源架构分析与建议;

d) (整体或局部)虚拟资源安全策略分析与建议;

e) (整体或局部)虚拟资源配置调优分析与建议等。

6.3.3 例行操作

6.3.3.1 监控

对虚拟资源的监控内容

6.3.3.2 预防性检查

应在监控服务的基础上,对虚拟资源进行预防性检查。包括:性能检查、脆弱性检查。

6.3.3.3 常规作业

虚拟资源的常规作业

6.3.4 响应支持

6.3.4.1 事件驱动响应

针对虚拟资源及所依赖的硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:

a) 故障定位;

b) 虚拟资源重新调配、紧急迁移、紧急扩容;

c) 解决虚拟资源所依赖的物理资源故障和缺陷,包括:服务器、网络及网络设备、存储、仲裁控制点(磁盘、光纤链路、服务器等)等;

d) 虚拟资源紧急操作,如更换、中断、连通网络连接、关闭、启动端口、更改、恢复配置、停止及启动进程、重启等。

6.3.4.2 服务请求响应

根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:

a) 虚拟机、配置信息、数据的备份与恢复;

b) 虚拟机迁移、回收、变更;

c) 虚拟资源池的容灾、高可用配置、计划实施与演练;

d) 数据统一存储;

e) 数据访问性能优化;

f) 数据在线迁移与分级存储;

g) 新增主机分配存储空间;

h) 现有主机存储空间调整;

i) 主机端多路径软件的安装配置;

j) 虚拟资源池的扩容、调配、变更;

k) 增加、降低虚拟网络资源网络接入数量或速率;

l) 更改虚拟网络资源配置;

m) 启动、关闭端口或服务;

n) 更换、更新或升级虚拟网络资源硬件或软件。

6.3.5 优化改善

6.3.5.1 适应性改进

根据应用系统特点和运行需求,对虚拟资源进行调整,包括但不限于:

a) 虚拟网络设备或链路负载调整;

b) 虚拟网络安全策略调整;

c) 虚拟网络监控对象覆盖范围调整;

d) 虚拟网络路由策略调整;

e) 虚拟网络交换及冗余优化;

f) 虚拟网络资源调配;

g) 虚拟机计算资源CPU、内存容量、硬盘容量、网络的调整;

h) 虚拟机计算资源迁移;

i) 虚拟化计算资源调度的算法;

j) 虚拟存储服务控制器前后端网络(SAN或IP)端口吞吐速率的调整;

k) 根据数据生命周期,进行存储资源分层调整;

l) 数据存储平衡算法调整;

m) 虚拟存储卷保留份数调整;

n) 虚拟存储卷镜像复制级别调整。

6.3.5.2 增加性改进

根据应用系统的特点和运行需求以及数据量处理能力要求,通过对虚拟资源的运行记录、趋势的分析,对虚拟资源进行调整、扩容或升级,包括但不限于:

a) 虚拟网络资源调整,如CPU、内存、端口的调配、扩容回收;

b) 虚拟网络资源网络架构变动;

c) 虚拟网络架构容量变化,如网络子系统的增减等;

d) 虚拟网络系统功能变化,如新增安全系统、新增审计系统等;

e) 虚拟网络路由协议应用及部署调整;

f) 虚拟网络整体安全策略收紧;

g) 虚拟网络资源冗余优化;

h) 虚拟计算资源宿主机服务器和虚拟机计算能力扩容;

i) 虚拟计算资源宿主机服务器和虚拟机内存扩容;

j) 虚拟计算资源宿主机服务器和虚拟机网络吞吐能力扩容;

k) 虚拟计算资源高可用性增强与演练;

l) 虚拟计算资源容错机制增强与演练;

m) 虚拟计算资源备份恢复测试;

n) 虚拟存储服务控制器节点数量增加;

o) 虚拟存储服务控制器内存容量增加;

p) 虚拟存储服务控制器CPU性能增强;

q) 虚拟存储服务控制器前后端网络(SAN或IP)端口增加;

r) 虚拟存储服务控制器后端分布式物理存储的Cache、容量等增加;

s) 虚拟存储服务控制器微码升级;

t) 存储虚拟化软件升级。

6.3.5.3 预防性改进

根据对虚拟资源的运行记录、趋势的分析,结合应用系统的需求,发现虚拟资源的脆弱点及潜在的隐患,有针对性地进行改进性作业,包括但不限于:

a) 虚拟网络配置参数优化,例如虚拟网络资源的VLAN、QoS、ACL、带宽等;

b) 虚拟网络部署路由策略情况下端到端选路变化、端口流量变化、路由条目变化;

c) 根据系统监控得到的信息替换可能存在问题的内存,CPU,硬盘,网络设备等;

d) 根据系统的压力增长趋势主动对物理服务器的数量进行必要的扩容;

e) 根据系统的发展趋势对网络系统采取必要的扩容;

f) 收集存储资源池空间的使用情况,及时清理垃圾数据或增加存储资源池的容量;

g) 监控服务控制器的负载情况,必要时增加硬件数量,或提高硬件规格;

h) 监控服务控制器的硬件出错率,替换存在问题的硬件;

i) 监控服务控制器后端分布式物理存储的硬件出错率,替换存在问题的硬件;

j) 监控仲裁控制点(磁盘、光纤链路、服务器等)的运行情况;

k) 服务控制器微码升级;

l) 存储虚拟化软件升级。

6.4 平台资源

6.4.1 服务对象

服务对象包括操作系统、数据库、中间件等系统软件。

6.4.2 调研评估

通过对平台资源软件的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出处理或改进的建议和方案。

6.4.3 例行操作

6.4.3.1 监控

重点是对平台资源(操作系统、数据库、中间件等)的运行状态、运行性能、资源使用分配情况进行监控,以便了解其是否满足运行要求。监控应当采用合适的装备与手段,分配专门人员定期或全时段进行监控。

6.4.3.2 预防性检查

应在监控服务的基础上,对平台资源(数据库、中间件等)进行预防性检查。包括:性能检查、脆弱性检查。

6.4.3.3 常规作业

对平台资源(数据库、中间件)的常规作业

6.4.4 响应支持

6.4.4.1 事件驱动响应

针对设备的软、硬件故障、误操作等引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务。包括但不限于:

a) 操作系统事件驱动响应:

1) 操作系统损坏;

2) 操作系统CPU、内存等资源耗尽;

3) 操作系统服务进程无效;

4) 操作系统文件系统空间不够;

5) 操作系统网口无法通讯;

6) 操作系统无法识别外置存储空间。

b) 数据库事件驱动响应:

1) 数据文件坏块修复;

2) 数据库重启;

3) 网络侦听重启;

4) 数据库备份恢复;

5) 数据库解锁。

c) 中间件事件响应驱动:

1) 程序恢复;

2) 应用服务重启;

3) 配置文件恢复;

4) 守护服务调整。

6.4.4.2 服务请求响应

根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务。包括但不限于:

a) 操作系统服务请求响应:

1) 操作系统版本升级;

2) 操作系统死机修复;

3) 操作系统文件系统损坏修复;

4) 操作系统文件系统空间扩容;

5) 操作系统IP地址修改;

6) 操作系统参数调整;

7) 操作系统日志清理。

b) 数据库服务请求响应:

1) 数据库版本升级;

2) 数据库灾难恢复;

3) 数据清理和维护。

c) 中间件服务请求响应:

1) 中间件服务器更换;

2) 中间件参数调整;

3) 中间件软件版本升级。

6.4.5 优化改善

6.4.5.1 适应性改进

根据应用系统特点和运行需求,分析平台资源软件的运行情况,调整平台资源软件不合理的初始容量配置、参数配置等,以满足应用系统的运行需求,包括但不限于:

a) 操作系统适应性改进:

1) 操作系统交换区容量调整;

2) 操作系统内核参数调整;

3) 操作系统文件系统使用空间调整划分;

4) 操作系统IP地址调整。

b) 数据库适应性改进:

1) 数据库资源使用调整;

2) 数据库执行SQL计划调整;

3) 数据表参数调整;

4) 数据库对象的调整;

5) 主机操作系统内核参数调整;

6) 数据库参数调整;

7) 临时表空间、用户表空间调整;

8) 数据库物理部署的调整(迁移至新服务器或者数据库存储阵列调整);

9) 调整数据库备份策略。

c) 中间件适应性改进:

1) 中间件参数配置优化;

2) 数据库连接参数调整;

3) 连接池参数调整;

4) 相关操作系统参数调整。

6.4.5.2 增强性改进

根据应用系统的特点和运行需求,通过对平台资源软件的运行记录、趋势的分析,对平台资源软件进行调整、扩容或升级,包括但不限于:

a) 操作系统增强性改进:

1) 操作系统版本升级;

2) 操作系统内容扩容;

3) 操作系统磁盘空间扩容;

4) 操作系统增加网卡、光纤卡数量;

5) 操作系统参数调优。

b) 数据库增强性改进:

1) 数据库版本升级、打补丁;

2) 由于主机CPU个数、内存容量增加调整数据库相应的参数;

3) 由于主机存储的增加调整数据库表空间容量;

4) 数据库安全备份架构构建以提高可用性;

5) 数据库调优等。

c) 中间件增强性改进:

1) 中间件版本升级、打补丁;

2) 由于主机CPU个数、内存容量增加调整中间件相应的参数。

6.4.5.3 预防性改进

根据对平台资源软件的运行记录、趋势的分析,结合应用系统的需求,发现资源平台软件存在的脆弱点,有针对性地进行改进性作业,包括但不限于:

a) 操作系统预防性改进:

1) 操作系统删除垃圾数据,释放数据空间;

2) 操作系统文件系统扩容;

3) 操作系统增加网卡、光纤卡冗余;

4) 操作系统用户权限合理分配;

5) 操作系统服务端口调整。

b) 数据库预防性改进:

1) 增加数据库表空间数据文件空间使用范围;

2) 对数据库存在的无效对象处理;

3) 数据库用户的权限合理分配。

c) 中间件预防性改进:

1) 删除临时文件,释放数据空间;

2) 监控主要参数以及时调优;

3) 应用备份策略调整;

4) 定期备份。

6.5 应用资源

6.5.1 服务对象

服务对象是应用资源。

6.5.2 调研评估

通过对应用资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出处理或改进的建议和方案。

6.5.3 例行操作

6.5.3.1 监控

对应用资源的监控内容

6.5.3.2 预防性检查

应在监控服务的基础上,对应用资源进行预防性检查。包括:性能检查、脆弱性检查。

6.5.3.3 常规作业

应用资源的常规作业内容

6.5.4 响应支持

6.5.4.1 事件驱动响应

针对应用资源故障而进行的响应服务。包括但不限于:

a) 应用级启停;

b) 系统级启停等。

6.5.4.2 服务请求响应

根据应用系统运行需要或需方、服务相关方的请求,进行及时响应和处理。例如:

a) 按服务请求指示进行用户增加;

b) 口令修改;

c) 参数调整等。

6.5.5 优化改善

应用资源的优化改善服务包括但不限于:

a) 应用消息队列、共享内存优化;

b) 应用服务能力优化,例如应用进程数、应用线程数的优化;

c) 应用日志级别及日志空间的调整;

d) 应用版本升级、打补丁。

注:本部分中应用资源的优化改善服务通常指在软件运行中对软件有关性能、维护参数调整,对于应用资源自身功能增加、变动等引起的优化改善活动不在本部分范围内,具体详见《信息技术软件维护》。

6.6 数据

6.6.1 服务对象和活动

服务对象是数据。

6.6.2 调研评估

见本部分6.4.2和6.5.2的要求。

6.6.3 例行操作

6.6.3.1 监控

监控应当采用合适的装备与手段,分配专门人员定期或全时段进行监控。

6.6.3.2 预防性检查

应在监控服务的基础上,对数据进行预防性检查。包括:性能检查、脆弱性检查。

6.6.3.3 常规作业

对数据的常规作业内容

6.6.4 响应支持

见6.4.4和6.5.4的要求。

6.6.5 优化改善

见6.4.5和6.5.5的要求。

分享到:
收缩

  • 付老师:业务咨询
  • 简老师:业务咨询
  • 金老师:业务咨询
  • 徐老师:业务咨询

  • 技术支持

  • 010-83607858
  • 010-83683376