【OPM】设备ICMP(ping)可用性告警原因分析

【OPM】设备ICMP(ping)可用性告警原因分析

Idea
在 OpManager 中,当发生通过 ICMP(ping)监控设备可用性的告警时,实际情况分以下两大类:
1.设备关机/宕机/网络连接故障等。
2.网络阻塞/波动或服务器/产品进程阻塞等其他原因造成的短暂丢包/连接超时
OPM 在轮询时遇上上述两种情况都会发出可用性告警,对于情况 2 出现时,设备管理员在看到告警时检查设备状态和网络连接时,由于是短暂时间内发生的问题,故会发现设备和网络正常,OPM 也会在下一次轮询时发现设备可达并恢复设备状态为正常。
管理员会认为此次告警为误告,此问题往往难以排查出确切的根本原因。日志中会记录告警出现时,设备 ping 响应超时,并在下一次轮询时正常响应,除此之外难以给出造成此情况的进一步信息。
本文旨在整理、归纳出现此情况可能的原因,以及一些可操作、调整并减少此类误告的办法
Info
1.服务器性能
安装 OPM 的服务器配置,主要需要了解:
(1)CPU 几核/几线程,多少 GHz。
(2)内存多大。
(3)磁盘I/O如何。
(4)除了 OPM 外,是否还运行其他应用或防护安全软件,占用服务器多少性能资源。
(5)登录服务器做一些常规操作,响应是否有卡顿、缓慢等情况。
对于服务器资源,手册中对于不同量级有着最低配置要求,适当扩大服务器资源。
Info
2.产品性能
需要了解:
(1)当前版本构建号以及使用的模块和数量,获取办法:
(2)当前产品负载信息和数据库信息:
OPM web GUI->右上角“耳机🎧”图标->负载信息和数据库信息。
(3)监控总体监控数量和监视间隔,以及其他各个模块的使用情况综合判断负载。
了解上述信息后,可以通过如下几个方式降低产品负载,优化产品性能:
(1)根据手册中的推荐,调整设备、监视器的监视间隔,对于可能超出专业版负载的情况推荐转化为企业版,多探针均分监控压力来降低负载:
系统要求计算:
(2)老版本数据库性能和产品性能都相对落后,可以联系支持团队升级到最新的稳定版本提升性能。
联系支持团队的方法和推荐格式:
(3)通过诊断模块管理数据收集失败的监视器/接口,从而降低产品负载。
(4)增大堆内存。
OPM web GUI->右上角“耳机🎧”图标->负载信息,可适当调整堆内存到 4096/8192MB。
调整堆内存前,需确认服务器内存空间足够。调整后需重启OPM服务以使变更生效。
(5)调整产品内配置参数。
获取以下信息并邮件 联系产品支持团队 详细检查是否可以做产品配置的调整,请勿自行调整,以避免产品崩溃。
(6)可用性告警设置
OPM web GUI->设置->设备停机设置,在这里定义了设备可用性告警的三个级别所对应的连续轮询次数(全局设置)。
也就是当连续 n 次轮询均 ping 不通的情况下,生成对应级别的告警。
默认为 1、3、5 次,可以将最低级别(问题/要关注的)次数改为 2 次。
更改后,当设备连续 2 次 ping 不通再生成告警。以此避免当设备偶发一次 ping 不通时产生的误告。
Idea
3.自动化工作流结合通知发送条件综合处理。
可以通过自定义自动化工作流来进一步检测并做对应的自动处理。
结合通知配置文件中设定延迟 1 分钟发送。可以在工作流确认设备确实 ping 不通后再发出告警通知。
    • Related Articles

    • 【OPM】VMware凭证不通过排查步骤

      OpManager 中添加 VMware 监控凭证不通过时的排查步骤: 1.从安装 OPM 的服务器 ping VC/ESX/ESXi 地址,保证可以 ping 通。 2.在安装 OPM 的服务器上,访问 VC/ESX/ESXi (vSphere)平台地址,看是否可以正常访问并登录。Windows 可以通过浏览器访问,Linux 可以检查 URL 是否可达,对应 IP 端口是否可以访问。 3.确认 OPM web GUI 中用正确的用户名/密码/端口创建了 VMware ...
    • 【OPM】通过工作流进一步检测设备可用性参考

      目的:设备可用性出现“问题”级别告警时,通过工作流 ping 4 个包验证设备是否确实 ping 不通,并对不同结果添加相应告警注释,设备可以 ping 通时自动清除本次告警。 配置步骤: 1.OPM web GUI->工作流->新建工作流: 2.拖动左侧设备-> ping 设备到指定箭头位置: 3.弹窗中可以调整的设置为: 请求数、数据包大小、超时时间、重试次数。 如无特殊需求,按照默认设置配置为 4、32、1、0 即可。 4.左侧OpManager 下,拖动添加告警注释到 Ping ...
    • 【OPM】可用性监控说明

      OpManager 中默认使用 ICMP 来监控设备可用性。 也就是到轮询时间时,去 ping x.x.x.x,根据回包来判断设备up/down。 同时,我们也支持通过 SNMP 或 TCP 方式来监控可用性。 我们推荐使用 ICMP 方式监控可用性。 可用性选择 ICMP,并不会影响通过 SNMP 或 WMI\CLI 等其他协议监控性能指标。 在产品中,监控可用性可从设备概况界面->监视方式来查看使用哪种协议监控设备可用性 可以通过编辑设备,来选择使用哪种协议监控可用性:
    • 【OPM】H3C Mib 库及说明文件

      附件为 H3C 网络设备 Mib 与说明文件(及无线设备说明文件)
    • 【OPM】WMI凭证不通,使用WBEMTEST连接被监视服务器提示报错。

      问题描述: 在OPM中测试WMI凭证不通。使用WBEMTEST连接被监视服务器提示报错,报错截图如下。 排查步骤 1. 再次检查输入的登录名和密码是否正确 。 2. 检查是否远程DCOM是否开启,若未开启,请按照下图启用该服务。 具体截图如下 3. 远程主机的用户帐号无效。您可以 打开命令行窗口执行下面的命令,检查用户帐号是否有效: net use \\<RemoteComputerName>\C$ /u:<DomainName\UserName> "<password>" net use ...