智和信通助力台网中心-地震局全国机房统一运维项目顺利实施
北京智和信通通过一个平台搭载不同模块解决台网中心运维难题。同时,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,在支撑用户构建信创环境的同时,也针对各类信创设备、服务组件等提供相应的运维服务。
项目背景
中国地震台网中心是中国地震局直属事业单位,是中国防震减灾工作的重要业务枢纽、核心技术平台和基础信息国际交流的重要窗口。承担着全国地震监测、地震中短期预测和地震速报;国务院抗震救灾指挥部应急响应和指挥决策技术系统的建设和运行;全国各级地震台网的业务指导和管理;各类地震监测数据的汇集、处理与服务等重要任务。
项目现状
项目建设以对台站、机房、网络、业务系统等全流程环节的IT软硬件设施进行监控,通过配置不同告警策略,对不同场景下的不同设施进行差异化监控,并以可视化的方式进行综合展示,同时提供对外接口可与其他系统集成。项目原采用的运维监控系统,因带宽占等性能占用过高,影响整体稳定运行需对其进行替换。
设备类型:网络设备、安全设备、存储设备、服务器、操作系统、数据库、中间件、应用服务、动环系统等。
设备数量:全国30多个省份,共计6000+台设备。
部署需求:分布式多级部署,各省地震局独立部署、独立管理,台网中心集中管理核心接入设备。
功能需求:
- 安装部署便捷,可在各省快速实施,且部署后不改变原有网络结构,占用网络性能少。
- 自动扫描全网中的IT设施,并生成网络拓扑,通过拓扑展示链路和设备实时状态。
- 监控IT软硬件设施的运行数据,包括性能数据、硬件状态、事件信息、进程信息等。
- 监控网络中链路状态,流量、带宽信息。
- 支持自定义告警策略模型,可进行多级告警基本设置,提供邮件、短信等告警通知方式。
- 具备可视化运维大屏,集中展示故障、性能等信息。
- 支持业务管理,可对业务运行状态进行监控,提供可视化业务拓扑、流程展示。
- 支持自定义报表,可根据各省运维需求配置报表模板。
- 具备资产管理能力,可纳管全网IT设施。
- 具备运维工单能力,可在系统内创建工单,无缝流转。
智和方案
通过深入交流确定智和网管平台的网络观测、综合监控、资产管理和运维功能模块即可满足用户的核心需求。
在部署方面采取分级部署的方式,整体结构采用智和网管平台(中心部署)→省级平台(省部署)→设备的结构,由中心部署的智和网管平台获取下级各省平台的监控信息,并进行集中展示。智和网管平台可以管理所有设备,省级平台对本省的设备进行交互,具有平台完整的监控、管理权限。每级可以单独监控各自的网络设备,也可以由中心平台集中管理,实现上级智和网管平台对各省级平台中纳管的网络设备运行数据的采集、管理、存储。
构建全网视图,网络架构可观测
以可视化拓扑视图对不同品牌、类型、版本的网络设备、安全设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控、动力设备、环境设备等进行统一、全方位、多层次的综合管理,在在拓扑图上以图形方式轻松实现网络设备及资源、链路状态的整体观测,并以声光进行告警提醒。实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。
综合呈现设备性能指标,网络态势可感知
将设备的关键指标信息通过可视化图形的方式汇总、分析、呈现,实时反应网络态势,助力用户掌控网络变化趋势。同时提供基于告警和性能指标使用率的统计视图,从资源逻辑类型统计、设备逻辑类型统计、告警级别统计到CPU、内存、带宽、吞吐量TOP榜单,详细展现了全网状态与核心设备资源指标的运行。
设备资源覆盖
- 服务器硬件:连通性、响应时长、CPU、内存、温度、电源、硬盘、网卡/网口、风扇等;
- 操作系统:连通性、响应时长、CPU、内存、网口、磁盘、进程、端口等;
- 交换机、路由器:连通性、响应时长、CPU、内存、电源、风扇、网口、光模块、端口等;
- 数据库:连通性、响应时长、连接信息、SGA缓存信息、IO读写信息、锁表信息等;
- 中间件:连通性、响应时长、运行状态、内存池、类、线程、内存、CPU等;
- 服务:连通性、响应时长、服务端口、URL地址等;
故障、性能指标自定义配置
监控指标根据资源类型的不同,涵盖状态信息、响应时长、使用率、输出输入流量、输入输出带宽、时延、命中率、读写速度等方方面面。整个监控指标体系,支持完全自定义,根据台网中心与各省地震局场景的不同进行差异化配置。
全网告警信息集中处理,告警无延迟
全量汇聚异常告警信息,基于故障模型和AI算法分析故障原因,分析、压缩、并归关联故障信息,降低故障风暴,秒级定位故障位置,主动出击快速排障,故障处置全流程展示。根据各省管理权限及人员排班安排,定义告警通知策略,从系统内声光闪烁到邮件、短信通知,运维人员更短的时间获知告警信息,排障处置责任到人。
7×24小时不间断监控,运维数据大屏展示
智和网管平台平台内置5种大屏样式与自定义大屏能力,适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。
多维度跨地域巡检,将人工转为自动化执行
当前台网中心与各省地震局的运维巡检工作多依靠人工进行,巡检范围和深度存在一定的局限性,工作效率也比较低,消耗大量人力资源,在智和网管平台部署后,根据各省、中心的巡检内容与流程,从巡检范围、巡检指标、巡检深度、巡检周期等方面,定义出依托于平台的自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行,自动生成巡检报告。
兼具资产与工单能力,一站式运维中台满足更多需求
得益于智和网管平台的一站式运维中台能力,整体打通资产、工单和运维监控模块,在兼具完备的资产管理和运维工单功能的同时,紧密连结监控数据。
在资产管理的过程中,从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理,使得IT资产每一次生命周期变更,都有流程可依、都有迹可循。
在工单流转的过程中,于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。
应用价值
智和网管平台是北京智和信通自主研发的一站式运维中台产品,采用统一代码、统一数据模型、统一技术架构,统一拓扑、监控、流量、控制、资产、工单、数据分析等运维中台能力,通过一个平台搭载不同模块解决台网中心运维难题。同时,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,在支撑用户构建信创环境的同时,也针对各类信创设备、服务组件等提供相应的运维服务。