网络运维 设备管控

如何实现网络安全监控运维?

智慧电力电网IT运维方案

智慧电力电网IT运维方案
    马上咨询

            智能电网背景下,电力、电网企业信息化逐渐渗透到其业务链的各个环节,云计算、物联网、移动互联网等新技术的应用,更驱动信息化与业务创新深度融合。电力、电网企业集团信息系统群逐渐朝着一体化方向发展,信息链越来越长,问题追踪越来越复杂,旧有的分散IT运维组织无法承担新的运维工作,这就要求必须改变IT运维组织以满足新的集成需求,分散或半集中的运维模式不可避免要向集中运维模式发展。

    第1章 电力电网IT运维建设背景

            相对于传统行业,我国电力行业的信息化建设发展较早,已经有了一定的规模,到目前为止,电力企业的网络普遍建立,电力专用通信网已日趋完备,形成了微波、卫星、光纤、无线移动通信等多种通信手段,通信范围覆盖全国。在此基础上,基本建成从国家电网公司→区域电网中心→省电力公司→地市电力公司→变电所(局)的四级计算机网络和电力生产调度网络,成为生产控制、电力调度以及信息传输和交换的重要基础设施。

            同时,随着电力市场化和电网建设的进一步发展,传统电力系统业务正在发生变化。电力交易系统、电能量计量系统建设加速;会议电视、变电站视频监控(无人值守)、输变电线路监控及电厂视频监控等视频业务出现;传统单一主机的调度自动化体系架构向客户机/服务器体系架构转变;雷电定位系统、气象信息系统等建设;多媒体业务出现等方面。

            随之而来的是因电力网网络系统、业务分布在不同的地区,同时又分布在各个地区的不同位置,日常的网络维护和操作的工作量大大增加,网络系统和电力业务需要一个可靠,便捷、功能强大的网络运维监控系统来充分有效地管理和利用局域网络资源。

    第2章 电力电网运维痛点

            智能电网的建设背景给IT基础设施的建设和运维管理提出了更高要求。从网络、存储到应用系统都要求具备更高的可用性、可扩展性、稳定性和安全性,为业务系统的高性能运行提供更加强大的支撑。围绕IT基础设施开展的运维活动,则要求更快速、规范,更主动有效。

            随着“SG186工程”实施,电网企业逐步建立两级三线四层运维模式,数据中心和应用系统等向总公司和省网公司集中,大量运维工作在这两级完成。由于整体IT系统发展速度快、变化频繁,各级运维面临诸多难题,压力激增。

            (1)根据电监会5号令要求电网企业的电力系统安全防护工作应当坚持安全分区、网络专用、横向隔离、纵向认证的原则,所以需要一套平台能够完备地将IT设施集中统一运维监控起来。

            (2)需管理的IT设备类型多、厂商多,数据中心机房内环境监控设备种类多,难实现资源的统一管理,运维人员无法实时掌握各系统设备运行情况。

            (3)无法实时监控云平台CPU、内存、磁盘I0、网络流速、存储容量等核心指标,缺乏云平台资源消耗统计手段,无法科学合理地分配资源。

            (4)发现故障后知后觉,难以定位故障根因,跨部门沟通艰难且效率低,故障排除靠经验,疲于应对各类运维事件,缺乏自动化手段及工具。

            (5)因业务管理及监管的需要,省公司需要对下属单位区域网络进行直接、实时的跨地域监管的同时,各下属单位也需实现对内部网络的独立分级管理。

            (6)受限于各系统分隔和物理地域隔离,无法实现业务信息的交互和贯通,不能精准确定各类异常事件对业务造成的影响程度及范围,难以从多个视角直观掌握业务运行态势。

            (7)电力电网体系内监控系统复杂多样,相互隔离,缺乏数据统一采集,缺乏资源统一纳管,多数网省公司存在大量未接入的系统和设备,制约运行监视深化应用。

    第3章 智和信通电力电网多级网络集中运维方案

            智和信通根据电力电网的运维需求,打造统一的IT运维监控平台,实现统一、集中、、分层次的IT运维管理。


    3.1.分布式部署分级监测网络

            电力、电网行业IT架构规模庞大、业务系统众多,特别是数据中心应用逐渐复杂,给网络运维带来了很大的挑战。智和信通采取分布式部署的方案,分级、分区域监测整体网络。

            在多级运维平台部署方案中,采用综合-区域-设备运维平台-设备的结构,部署多级架构运维平台方案,上级运维平台可以查看下级运维平台(包含其子集)的监控信息,综合运维平台可以管理所有设备,下级运维平台对本区域内单位或本单位网络进行管理。

    多级平台部署示意图

    3.2.IT架构智能可视化显示


            随着数据中心和应用系统等向总公司和省网公司集中,在运维管理上,采取智能技术,实现网络拓扑可视化的能力,通过动态智能拓扑实现全网设备、资源、链接关系、IP等实时更新、快速定位。

    电力电网企业拓扑示意图

            通过按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管理对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。

    电力电网企业拓扑示意图

            通过分级、分权管理,不同人员对不同网络和界面具备差异化权限。一线二线人员,可直观看到所在区域的核心拓扑及设备状态,管理人员可查看整体网络状态,掌控全局。

    3.3.全网资源统一监控

            本方案实现网络设备信息高频采集,通过对电力网络中海量网络设备、服务器、数据库、应用系统、中间件、虚拟化、云、存储等设备的智能解析和关联分析,结合全流量采集分析能力,形成整个网络通信链路的多端网络流量分析链,助力运维人员从多个维度实现对相应告警的智能分析,解决传统运维监控中关联数据缺失,辅助排障信息不足的问题。

    设备资源可视化显示

    3.4.全网MAC-IP管控

            北京智和信通自动化运维方案支持端到端规划、部署、管理和监控IP 地址。通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息。


            通过黑白名单配置,通过黑白名单功能用来检测用户所关心的设备是否在网络中出现及出现时间,对非法接入设备进行告警处置。支持IP-MAC绑定,对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测,当IP-MAC的绑定关系发生冲突时产生告警,保证入网终端安全可信。

    3.5.全网带宽、流量回溯分析

            方案基于海量流量数据的存储挖掘,实现对网络流量的侦测分析。通过网络流量分析技术,采集、分析、存储所有网络流量,回溯分析数据包特征、异常网络行为,以多维数据分析和深度挖掘为手段,实现数据包层面的流量追踪,发现潜伏于网络中的未知攻击。


            针对电力网络中业务专线、物联网专线等专线线路管理需求,通过实时监控和定期对专线线路的使用情况进行统计分析,为每条专线的扩容或缩容提供数据依据。

    3.6.精细化私有云监控

            方案基于对私有云中的系统资源、租户资源的监控,实现云资源的生命周期管理,通过可视化运维编排,进行云管理策略预设配置、云策略批量/定时执行、智能监控巡检。支持多云纳管、持续监控,对云的容量进行智能化分析,为容量优化提供依据。


    3.7.灵活可配的实时告警策略

            北京智和信通电力电网运维方案,通过统一的故障管理平台,将各个网络、功能模块中的监控信息统一采集、分析,实现整个电力网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为电力电网企业提供主动式的故障解决方案。


    3.8.设备、策略模型无限扩展

            方案采取用户自定义设备类型及其设备资源的方式,赋予用户自定义适配设备的能力,更大可能地支持对不同设备类型的支持。通过自定义设备类型及其设备资源,更大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的化管理,达到管控万物的目标。


    3.9.适配国产信创环境

            智和信通国产信创能力采用Java、HTML5跨平台技术,兼容国产化操作系统、数据库、中间件、CPU和虚拟化等,支持包括:中标麒麟、银河麒麟、中科方德、达梦、人大金仓、南大通用、神州通用、华为虚拟化、H3C虚拟化、深信服虚拟化等。


    3.10.业务可用性拨测分析

            本方案以保障业务可用性为基础,通过对承载业务的IT基础设施构建真实的业务模型。直观呈现面向服务的业务系统体系架构,如财务系统、电力生产管理系统、电力营销、CRM,ERP、电子商务等业务的逻辑模型。

    业务看板示意图

            通过影响传递,准确反映设备异常对核心业务、用户造成的影响和威胁,并对造成业务影响的故障进行实时告警,快速查明导致业务中断的故障源,帮助运维人员做出及时响应,保障业务连续性。

    3.11.全量业务调用链追踪

            方案实现完整全链路调用链追踪,包含详细的调用链访问路径和性能等访问信息,以及相关的各类请求参数等业务数据指标,为故障定位、根因分析提供详尽的参考数据。

    业务拓扑示意图

    3.12.业务依赖关系可视展示

            方案通过构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑,通过可视化的方式呈现业务健康状况,联动设备监控,快速定位导致业务健康指数波动的原因,保障核心业务流程稳定、高效。

    3.13.业务瓶颈根因定位

            方案通过业务数据可视化能力,既可集中呈现业务数据的用户体验状态,也可以基于应用、设备实时监控、呈现业务各节点的实时运行状态,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。


    3.14.跨地域自动巡检

            传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行。


    3.15.网络策略远程配置

            电力网络对运维的颗粒度和精细程度均有较高要求,运维过程中网络人员将面对每日数以百计的网络变更及调整,相关的变更从用户域访问控制到变更投产,都需要投入大量的人力进行变更内容的评审和准备。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化。


    3.16.设备策略备份对比

            方案支持通过远程人工、托管的方式进行变更系统配置,修改配置文件、参数文件等操作,通过配置文件批量备份、下载、周期性备份、查看、对比分析等能力,为用户管理网络做出合理的建议提供数据支撑。


    3.17.全场景自动化运维

            从日常的巡检、灾备、应用发布、变更以及各单位反馈的修复工作等待汇报总结,工程师们亲力亲为的过程中难免因为疲倦、遗漏或是放宽质量的标准。因此,随着整个工作体系不断拓展,传统的运维方式会渐渐扩大风险、边际成本。

            方案通过智和网管平台将运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,实现围绕各运维场景的自动化,包含:软件代码自动化更新、自动化编译、自动化打包、自动化发布、服务自动化升级、软件自动化部署、故障自愈、定时服务重启、定期设备健康状况自检、主备数据库运行状况自检异常自动切换、虚拟化/云服务资源自动化扩容、自动化定期数据清洗、自动化定期环境检查等。

    3.18.运维大数据分析

            利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的电力网络中各类运维数据,呈现分析结果,从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维部门能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。

    某省级单位电网运维大屏示意图

            适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。

    3.19.IT资产生命周期监管

            对于资产管理,采取统一数据标准,对整体网络资产进行梳理和调用,避免资产信息在运维系统和实物间的差异,减少网络运维过程中信息不一致、数据不统一等问题通。从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,建立健全资产台账,实现一机一档,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。


    3.20.可量化运维工单体系

            通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。

     

    第4章 方案应用价值

            随着电力电网企业信息化的不断建设完备,新的应用和业务不断扩展,不仅使网络的承载量增大,网络结构日趋复杂,对网络、IT设施的运维需求和标准日益增高。在部署智和信通统一运维监控方案后,以网、省两级作为运维服务管控的枢纽,进行协同管理、指标联动和对标评价,实现IT设施监管,实时掌控网络状态,对网络的承载能力,进行准确的判断,为网络扩容或优化提供依据。

            本方案通过集中与业务相关的IT信息,根据业务逻辑和IT资源之间的关联关系进行可视化建模,用户可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和准确度,保障业务的稳定运行,帮助客户实现从运维到运营,为电网业务的数字化转型提供有力保障。

    第5章 标杆案例

    5.1.某电力科学研究院

            在承建电力核心骨干网——光芯片网络系统中,需要开发管理光芯片网络的EPON网络管理系统。在光芯片网络中,通常一个OLT设备会连接8个PON 设备,每个PON设备会外接 1至8个ODN,每个ODN设备可以外接多达64个ONU设备。通过人工来维护这些庞大的设备之间的关系,导致维护量巨大,而且非常容易出错,在网络变化的时候的,网络设备关系来不及及时更新。

    核心需求

            实现对 EPON 系统中 OLT、ONU 设备的配置、性能、安全和故障等方面的管理、监控和维护。 系统中设备的配置、 状态、 性能等数据来自 OLT 设备中 ARM 系统获取的 OLT、 ONU设备的相关数据,并能通过列表、图形、图像等方式进行展示、操作。

            (1)OLT、PON、ONU自动发现;

            (2)故障监控、TRAP监控、性能采集、配置管理等功能;

            (3)故障发现的要求更高,光芯片网络中,由于是承载国家电网核心业务,对故障发现的要求更高,期望在 1-3 秒钟之内。

    解决方案

            智和网管平台满足用户设备拓扑、故障管理、性能管理、配置管理以及安全管理的网管需求,真正解决了用户的设备管控、功能实现、运营维护以及拓展集成难题。针对电力科学研究院的需求,智和信通提供如下具体解决方案:

            (1)采用了自动化搜索、智能化发现的技术,网络管理系统在后台自动发现网络设备关系,并将设备关系自动存储在数据库中,通过客户端管理界面直接呈现当前更新的网络设备连接关系和运行状态。

            (2)基于智和网管平台,利用公司原有的拓扑图组件、SNMP组件、网管软件开发平台、智能化网管软件产品的基础上,满足电力科学院对于新设备和新功能的需求。

            (3)网络管理系统层采用了故障实时接收和优先上报机制,通过WebService接口技术,将故障快速地推送到管理员操作界面,做到了管理员通过界面发现故障的平均处理时间为1秒钟以内。

    方案成果

            在以往方案中,通过人工来维护这些庞大的设备之间的关系,导致维护量巨大,而且非常容易出错,在网络变化的时候的,网络设备关系来不及及时更新。在光芯片网络管理系统中,采用了自动化搜索、智能化发现的技术,网络管理系统在后台自动发现网络设备关系,并将设备关系自动存储在数据库中,通过客户端管理界面直接呈现当前更新的网络设备连接关系和运行状态。