告警规则
告警规则用于定义何时触发告警、触发什么级别的告警、通知谁。通过配置检测规则、告警内容和生效时间,实现对指标、日志、事件的自动监控告警。
应用场景
- 指标阈值超限:监控主机 CPU、内存、磁盘等指标,超过设定阈值时立即告警
- 日志异常激增:检测特定日志数量在时间窗口内是否异常增加
- 事件变更感知:在部署、配置变更等操作发生时触发通知,防止变更引入故障
- AI 预测预警:基于历史走势预测指标未来异常,在问题发生前提前介入
- AI 自适应:基于历史数据计算指标上下界,免去人为设置预置的烦恼
快速上手
进入 智能告警 → 告警规则,点击创建,按以下三步完成配置。
第一步:选择检测类型
在弹窗中选择检测类型。支持从预置模板或自定义模板快速创建,减少重复配置。
| 类型 | 说明 |
|---|---|
| 阈值检测 | 指标值超过固定阈值时告警,适合 CPU、内存等常规监控 |
| 日志检测 | 在指定时间段内检测特定日志数量,超过阈值时告警 |
| 事件检测 | 特定事件(如部署、变更)超过阈值时告警 |
| AI 自适应 | 基于历史数据自动识别突发异常,无需手动设置阈值 |
| AI 预测 | 基于历史走势预测未来指标值,在超出阈值前提前告警 |
检测类型保存后不可修改,如需更换,建议克隆原规则后重新配置。
第二步:配置检测规则
生效范围(必填):选择该规则所属的资源域,规则只对该资源域内的数据生效。
指标选取(必填):支持两方式:
- 选择查询:默认可视化选择指标,适合常规监控
- PQL 查询:自定义查询语句,适合复杂条件
检测区间(必填):每轮检测的时间窗口,默认 5 分钟。
窗口越短,告警越灵敏,但偶发抖动也更容易触发误报。建议根据指标稳定性选择合适的检测区间。
触发条件(必填):设置连续 N 次检测结果满足条件时才触发告警。
- N > 1 可有效过滤偶发抖动,避免误报
- 按严重程度从高到低设置
致命严重警告三个级别的阈值 - 连续 N 次无告警后,状态自动恢复为
正常
第三步:填写告警内容并保存
告警标题(必填):支持使用变量,变量在告警触发时自动替换为实际值。
例如:主机名称: ${host.customizedName},IP地址: ${host.ipv4Address} ${metric}过高
最终效果:主机名称:apm-01,IP地址:192.0.0.1 CPU使用率过高
通知内容(可选填):自定义通知正文,支持富文本和变量:
不填则使用系统默认模板,包含上述所有字段。
通知策略(可选填):指定告警策略并匹配通知方式、通知人等
通知策略为空时,告警仍会产生,但不会向任何渠道发送通知。 如需接收通知,请确认已关联通知策略,或在保存后前往[通知策略]页面新建并关联。
生效时间(必填):选择规则的生效时段,规则在非生效时段内不触发检测。默认为7x24小时生效。
生效时间设为"周期时间"或"自定义时间"时,请确认已覆盖预期的监控时段,避免漏检。
启停状态:创建时默认开启。关闭后规则暂停检测,配置完整保留,随时可重新开启。
确认配置后,点击保存。
规则管理
进入智能告警 → 告警规则,查看当前资源域下所有规则。支持按启停状态和规则类型筛选,支持按名称、类型、状态、创建人搜索。
每条规则支持以下操作:
| 操作 | 说明 |
|---|---|
| 编辑 | 修改规则配置 |
| 克隆 | 复制当前规则,适合快速创建相似规则 |
| 导出 | 将规则导出为文件,可导入到其他环境复用 |
| 删除 | 永久删除该规则 |
| 启用 / 禁用 | 临时关闭规则,不产生告警但配置保留 |

常见场景
场景:监控主机 CPU 持续过高
选择阈值检测,指标选取 CPU 使用率,设置连续 3 次超过 90% 触发致命告警,绑定值班群通知策略。
场景:维护期间临时屏蔽告警
在规则列表关闭目标规则的启停状态,维护结束后重新开启,配置完整保留,无需重新填写。
场景:快速复用已有规则
点击目标规则的克隆,生成副本后只修改关键参数(如阈值、指标),无需从头配置。