跳到主要内容

告警规则

信息

告警规则用于定义何时触发告警、触发什么级别的告警、通知谁。通过配置检测规则、告警内容和生效时间,实现对指标、日志、事件的自动监控告警。

应用场景

  • 指标阈值超限:监控主机 CPU、内存、磁盘等指标,超过设定阈值时立即告警
  • 日志异常激增:检测特定日志数量在时间窗口内是否异常增加
  • 事件变更感知:在部署、配置变更等操作发生时触发通知,防止变更引入故障
  • AI 预测预警:基于历史走势预测指标未来异常,在问题发生前提前介入
  • AI 自适应:基于历史数据计算指标上下界,免去人为设置预置的烦恼

快速上手

进入 智能告警 → 告警规则,点击创建,按以下三步完成配置。

第一步:选择检测类型

在弹窗中选择检测类型。支持从预置模板自定义模板快速创建,减少重复配置。

类型说明
阈值检测指标值超过固定阈值时告警,适合 CPU、内存等常规监控
日志检测在指定时间段内检测特定日志数量,超过阈值时告警
事件检测特定事件(如部署、变更)超过阈值时告警
AI 自适应基于历史数据自动识别突发异常,无需手动设置阈值
AI 预测基于历史走势预测未来指标值,在超出阈值提前告警
危险

检测类型保存后不可修改,如需更换,建议克隆原规则后重新配置。

第二步:配置检测规则

生效范围(必填):选择该规则所属的资源域,规则只对该资源域内的数据生效。

指标选取(必填):支持两方式:

  • 选择查询:默认可视化选择指标,适合常规监控
  • PQL 查询:自定义查询语句,适合复杂条件

检测区间(必填):每轮检测的时间窗口,默认 5 分钟。

提示

窗口越短,告警越灵敏,但偶发抖动也更容易触发误报。建议根据指标稳定性选择合适的检测区间。

触发条件(必填):设置连续 N 次检测结果满足条件时才触发告警。

  • N > 1 可有效过滤偶发抖动,避免误报
  • 按严重程度从高到低设置 致命 严重 警告 三个级别的阈值
  • 连续 N 次无告警后,状态自动恢复为 正常

第三步:填写告警内容并保存

告警标题(必填):支持使用变量,变量在告警触发时自动替换为实际值。 例如:主机名称: ${host.customizedName},IP地址: ${host.ipv4Address} ${metric}过高

最终效果:主机名称:apm-01,IP地址:192.0.0.1 CPU使用率过高

通知内容(可选填):自定义通知正文,支持富文本和变量:

不填则使用系统默认模板,包含上述所有字段。

通知策略(可选填):指定告警策略并匹配通知方式、通知人等

注意

通知策略为空时,告警仍会产生,但不会向任何渠道发送通知。 如需接收通知,请确认已关联通知策略,或在保存后前往[通知策略]页面新建并关联。

生效时间(必填):选择规则的生效时段,规则在非生效时段内不触发检测。默认为7x24小时生效。

注意

生效时间设为"周期时间"或"自定义时间"时,请确认已覆盖预期的监控时段,避免漏检。

启停状态:创建时默认开启。关闭后规则暂停检测,配置完整保留,随时可重新开启。

确认配置后,点击保存

规则管理

进入智能告警 → 告警规则,查看当前资源域下所有规则。支持按启停状态规则类型筛选,支持按名称、类型、状态、创建人搜索。

每条规则支持以下操作:

操作说明
编辑修改规则配置
克隆复制当前规则,适合快速创建相似规则
导出将规则导出为文件,可导入到其他环境复用
删除永久删除该规则
启用 / 禁用临时关闭规则,不产生告警但配置保留

1776863506140

常见场景

场景:监控主机 CPU 持续过高

选择阈值检测,指标选取 CPU 使用率,设置连续 3 次超过 90% 触发致命告警,绑定值班群通知策略。

场景:维护期间临时屏蔽告警

在规则列表关闭目标规则的启停状态,维护结束后重新开启,配置完整保留,无需重新填写。

场景:快速复用已有规则

点击目标规则的克隆,生成副本后只修改关键参数(如阈值、指标),无需从头配置。