某国有银行全国数据中心运营管理
数据中心的运维管理经过四到五年发展,已经达到相当高的成熟度。经过几年的建设,基础架构的各个专业领域和应用管理领域都已经完成了主动式故障管理系统的建设。但随着应用系统和基础架构越来越复杂,如何统一和规范十多个监控管理子系统,以及把故障告警管理有机纳入到事件管理流程中的课题被提上高层领导的议事日程。天港惠达在该项目中作为 IBM 的核心合作伙伴,根据数据中心的要求,提出了端到端的集中告警管理平台解决方案:
集中告警管理平台是综合的系统管理平台,针对来自网络、系统、安全、机房环境、应用等告警事件,进行告警定位、告警过滤、告警压缩,告警升级、告警级别定义、告警清除,信息丰富等操作,并与工单管理平台提供告警数据的双向交互接口,具有如下功能:
□对不同事件源的集成能力,能够收集来自网络、系统、安全、机房环境、应用、客户端、配置的各类告警事件
□对事件的压缩、过滤、简单关联能力,能够对事件进行分级、分组,能够按照客户的需求对事件进行压缩、过滤和丰富
□能够根据策略对事件进行响应,并能够灵活的定义策略
□对事件进行对象化的能力,能够与CMDB进行集成,将事件根据CI进行关联,对事件进行对象化处理
□支持与流程平台的整合,能够与HelpDesk、事件或问题流程进行集成
集中告警管理的关键技术体现在以下几个方面:
1)实现告警管理与业务管理的统一 本项项目中能够实现统一的告警和故障管理流程,其主要实现的功能体现如下:
□ 在全中心范围内把统一了18个告警子系统的故障级别,并且实现告警级别与事件(故障)流程三级分类的统一
□规范告警发出后的处理步骤,并在和BMC Remedy流程平台上实现了自动化,包括在流程平台三自动开事件(故障)单、根据18个告警子系统可以独立定制的自动化通知功能、根据18个告警子系统可以独立定制的自动化派单功能、告警升级自动化管理功能
2)实现告警可读性 告警通常需要操作员跟踪处理,但监控系统发出来的告警信息往往只有各平台的专业技术人员才能读懂。所以如何发出让操作员可以读懂的告警信息是告警平台有效使用的重要前提。在本期项目中,我们会实现告警可读性的功能
3)实现告警策略的可管理性 18个告警平台各有其独特的告警策略,定制方式千差万别。本期项目会尝试让告警策略定制变得简单的功能,主要体现在如下几个方面:
□ 针对过滤、压缩和通知策略,屏蔽各子系统实现细节,提供图形化和表格方式的定制界面,使得这三类的策略定制工作不再依赖于特定技术工程师
□ 提供告警屏蔽定制界面,帮助用户用图形化的方式定制策略以屏蔽维护期的无效告警
□告警丰富维护界面,帮助用户无需集中告警管理技术技能即可定制告警可读性的相关策略和字段
4)实现18个告警子系统的告警与应用的关联分析和展