构建全栈可视、主动预警的智能监控运维体系

构建全栈可视、主动预警的智能监控运维体系

        随着企业数字化转型的深入,IT架构复杂度持续提升,机房IT设备、业务系统、动力环境的稳定运行成为业务连续性的核心保障,同时国产化信创转型对运维平台的自主可控能力提出了明确要求。为实现全类型IT资源与机房动环的一体化、精细化、智能化监控,保障系统持续稳定运行,北京智和信通技术有限公司基于自研的智和网管平台,打造全面响应技术需求的一体化监控解决方案。

一、智和信通一体化监控方案

        智和信通为用户提供覆盖IT基础资源全栈监控、机房动力环境一体化管理、国产化全适配、智能故障告警、可视化运维的完整解决方案。方案具备高适配性、高稳定性、高性能的特点,可满足不同规模、不同架构的机房与IT系统的运维监控需求,助力用户实现降本增效、保障业务连续性。

(一)全栈一体化纳管

        平台具备全面的IT基础资源监控能力,可对机房IT设备和机房动力环境提供一体化监控,支持对各个厂商的网络设备、安全设备、服务器、数据库、中间件、存储、虚拟资源等IT资源以及UPS、空调、温湿度、烟感、水浸等机房动环的全面深入监控,保证网络和IT系统的持续、稳定运行。

(二)全类型资源监控

1.网络与安全设备监控

        平台全面覆盖主流网络与安全设备,支持品牌包括:浪潮、思科、AVAYA、华为、H3C、普惠、中兴、恒扬、青云、锐捷、Dlink、深信服、启明星辰、天融信、F5、RiverBed、博科、山石、联想网御、飞塔、网神、360、网康、安恒等。

        支持设备类型包括:交换机、路由器、光纤交换机、VPN、负载均衡、防火墙、上网行为管理、DDos、Web应用防护系统、IPS。

        监测内容包含:网络设备的CPU、内存使用状况、接口状态、端口流量、流速、丢包率等;平台可支持SNMP V1、V2和V3版本,支持Syslog和SNMP Trap方式来收集网络设备的事件信息。

2.服务器硬件监控

        平台支持对IBM、DELL、HP、华为、浪潮、H3C等品牌的服务器进行监控。

        通过集成IPMI、SNMP及各类厂商专用管理接口(如Dell iDRAC/OpenManage、HP iLO、IBM IMM),实现对服务器硬盘、电源、温度、风扇、功耗、机箱连接性、机箱和机笼的电源状态及运行状态、机箱电源状态、机箱温度、机箱电源功率、机笼风扇状态、机笼能耗等硬件健康状态的深度监控。

3.存储设备监控

        平台支持品牌包括HP、IBM、EMC、NetApp、华为、中兴、宏杉、曙光等,监测内容包含:电压、风扇、电源、存储设备的CPU、控制器、逻辑设备、磁盘、I/O模块、连接性等,实现存储设备全生命周期的状态监控与风险预警。

4.操作系统监控

        平台支持Telnet/SSH、Ping、WMI、SSH、SNMP等采集方式。可监控Windows Server、AIX、HP-UX、Solaris、FreeBSD、Linux及中标麒麟、银河麒麟、红旗Linux、鸿蒙系统、AliOS、SPGnux、Deepin、华为欧拉等国产操作系统。

        监控指标涵盖内存利用率、磁盘、CPU利用率、硬盘利用率、网卡状态、接收和发送的流量及包数、日志、Syslog、异常进程、目录和文件的数量及大小等。

5.虚拟化环境监控

        支持监控VMware、hyper-V、Xen、华为FusionCompute、vCenter、IBM-HMC等虚拟化平台,同时监控宿主机与虚拟机的运行状态。

        监控内容包含:服务成功率、平均响应时间、CPU使用状况、内存使用状况、磁盘读写性能、网络接收速率、网络传输状况、电源状态、存储使用状况等,实现虚拟化资源从底层到业务的全链路监控。

6.数据库监控

        平台全面覆盖国内外主流数据库,支持监控品牌包括:Oracle、MySQL、SQL Server、DB2、SyBase、MongoDB、intersystems Cache、PostgreSQL、Rdis、OceanBase、人大金仓、神通、达梦、海量、ClickHouse等。

        监控内容包含:表空间、死锁数、用户连接、请求、内存及缓存使用等指标参数等;同时平台支持SQL自定义监测,支持通过撰写SQL语句,自定义监测指标,满足个性化的数据库监控需求。

7.中间件监控

        平台可监测WebSphere、JBOSS、Tomcat、Weblogic、IBM MQ、MS MQ、Sharepoint、Docker、WildFly、Apache、ActiveMQ、Apache-Artemis、Elasticsearch、Emqx、kafka、nginx、redis、zookeeper等。

        监控内容包含:中间件的可访问性、连接状况、活动连接数、等待连接数、线程池负载、会话数、中间件使用的端口状况、中间件运行性能等,保障业务中间件的稳定运行。

8.无线AP/AC监控

        平台可监控华为、锐捷、H3C、思科、TP-Link、Tenda、D-Link、NETGEAR、极进等品牌的无线AP/AC,小众或较为老旧的品牌型号也可通过灵活可配的模型库进行扩展适配并提供AP状态总览、网关状态总览、用户状态总览等信息。

        监控内容包含:CPU、内存、射频、关联站点数、连接用户数等。

9.动环及物联网设备监控

        平台实现IT与动环的一体化监控,支持监控设备包括:UPS、摄像头、门禁、温湿度、水浸、气体监测、空调、红外监测、智能电表,全面保障机房物理环境的安全稳定。

        可通过2.5D/3D的形式呈现机房内部场景,并以不同颜色图标展现机房内设备的实时状态信息,直观呈现机柜总U位数,使用U位数以及剩余U位数。

(三)高性能轮询采集

        平台具备行业领先的秒级采集性能,支持秒级轮询采集技术,实现故障发现可达秒级。纳入监控内任何设备的任何监测指标都可以单独设置监测频率,采集时间间隔包括秒级到分钟级等多种自定义轮询频率,最快轮询频率可达到5秒。

        通过高性能的采集能力,实现故障的秒级发现,大幅缩短故障响应时间,保障业务系统的高可用性。

(四)高效运维管理

1.可视化运维

        提供设备仪表盘、业务仪表盘、拓扑视图等多种总览视图。“我的仪表盘”支持自定义拖拽编排,并支持视图轮播。

        提供灵活的拓扑管理功能,支持提供拓扑图功能,包括拓扑展示、拓扑配置、面板图。拓扑配置中可以导入设备、自动搜索设备、搜索物理线,自动生成物理网络拓扑,直观呈现设备链路与运行状态,助力快速定位网络故障。

2.一键添加设备

        提供智能发现技术,用户只需要输入IP范围一步操作,即可自动完成如下全部功能:网络设备发现、设备类型识别、设备链路发现、设备故障和性能采集、链路流量和状态以及网络拓扑生成。

        平台支持下载设备模板方式批量添加设备、下载监测点模板方式批量添加监测点。支持指定网段,自动发现设备,大幅降低大规模设备上线的运维成本,提升部署效率。

3.批量修改监控任务

        平台支持批量修改阈值、批量修改监控指标监测频率、批量修改错误重试次数,满足大规模监控资源的批量配置需求,提升运维效率。

(五)智能故障告警

        提供多级别、多方式的告警机制,支持告警阈值灵活自定义配置。通过主动式故障监控能力,对海量事件与状态数据进行深度聚合分析,将离散状态信息提炼为系统全景视图,并精准识别异常状态并触发告警,实现故障的早发现、早预警。

        提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道,可自定义配置告警模板,通过预设置参数添加设备信息、监测点信息、阈值设置、故障时间等。

        支持设置多种不同的告警策略,包括设置以下内容:事件连续发生多少次时发送告警、设定时间内有几次同样状态时发送告警、事件连续发生多少次后停止发送告警、当发过告警监测点恢复正常时发送一次告警等。通过灵活的告警配置,实现故障的精准预警、快速通知,避免告警风暴,提升故障处置效率。

二、方案价值

        全栈一体化监控,打破运维孤岛:实现IT基础资源与机房动环的一体化监控,覆盖全类型设备与系统,避免多平台切换的运维痛点,实现一站式运维管理。

        国产化全适配,满足信创要求:全面适配国产化软硬件生态,满足国家自主可控的政策要求,助力用户信创转型落地。

        秒级监控与智能告警,降低业务风险:秒级采集能力实现故障的快速发现,以灵活的告警策略实现精准预警,大幅降低故障停机时间,保障业务连续性。

        高效批量运维,降本增效:批量设备添加、批量配置修改等能力,大幅降低大规模环境的运维人力成本,提升运维效率。

        可视化运维,降低门槛:自定义仪表盘、自动化网络拓扑等可视化能力,直观呈现系统运行状态,降低运维门槛,提升故障定位效率。