跳到主要内容

阈值检测

信息

阈值检测告警规则用于对指标数据持续监控,当指标值超过设定阈值时自动触发告警并通知相关人员,实现主动运维。

快速上手

第一步:进入创建页

进入 智能告警 → 告警规则 ,点击 新建告警规则 ,选择阈值检测类型后进入配置页。

第二步:配置检测规则

  1. 选择 生效范围 (资源域,默认为空,必填。选择当前用户有权限的资源域)
  2. 指标选取中选择要监控的指标,例如 CPU 使用率,设置聚合方式(如最新值)并添加分组维度(如主机)
  3. 设置 检测区间 (如 5 分钟,即每次检测会查询5分钟的指标数据)
  4. 配置 触发条件 :填写结果数据连续超过阈值的次数,并为各告警级别(致命 / 严重 / 警告)填写对应的阈值
  5. 按需配置数据断档数据延时策略

第三步:填写告警内容并保存

  1. 填写 告警标题 (支持变量,如 主机名称: ${host.customizedName},IP地址: ${host.ipv4Address} ${metric}过高
  2. 按需填写 通知内容 (支持富文本和变量)
  3. 选择通知策略
  4. 设置 生效时间 (全部时间 / 周期时间 / 自定义时间)
  5. 点击保存完成创建

功能说明

检测规则

1776863598113

基础配置

字段是否必填说明
生效范围选择告警规则所属的资源域,用于隔离不同资源域的告警配置
指标选取支持两种方式:选择查询PQL 查询 
聚合方式对检测区间内的数据进行聚合,如最新值、平均值等
分组维度按指定维度(如主机)分别查询计算
检测区间每次查询数据的时间窗口长度,默认 5 分钟
提示

检测区间支持1-30min,提供快捷选项并支持手动输入

触发条件

字段是否必填说明
连续触发次数当检测结果连续 N 次超过阈值时才触发告警,避免偶发毛刺引起误报,默认为 1 次
比较方式支持 >>=<<==等操作符
致命阈值指标值超过此阈值触发致命级别告警
严重阈值指标值超过此阈值触发严重级别告警
警告阈值指标值超过此阈值触发警告级别告警
一般阈值指标值超过此阈值触发一般级别告警,默认不展示该等级,可添加
提醒阈值指标值超过此阈值触发致命提醒告警,默认不展示该等级,可添加
正常恢复次数连续 N 次检测无事件产生时,告警状态恢复正常,默认 3 次

高级配置

字段是否必填说明
数据断档开启后,当指定时间内无数据上报时,将指标结果视为 0 参与阈值判断,防止因采集中断导致漏报。默认关闭或开启数据断档触发指定级别的告警
数据延时开启后,将查询时间窗口整体前移指定时长,避免因数据链路过长导致漏报。默认开启 ,偏移 1 分钟
聚合规则当分组维度下有多个时间序列时,定义聚合粒度。默认按主机聚合,每台主机独立告警;按网络区域聚合,则每个网络区域产生一个包含多主机的告警

告警内容

字段是否必填说明
告警标题告警事件的标题,支持变量,如 ${host.customizedName}${metric},建议包含对象和指标名便于快速识别
通知内容告警通知的正文,支持富文本编辑和变量插值。
通知策略选择告警触发后的通知渠道和接收人配置,如无可点击创建通知策略新建
Labels为告警规则打标签,便于筛选和分类管理
信息

告警标题建议使用变量而非固定文本,便于在告警列表中快速定位问题。

通知内容留空时使用系统默认模板,包含告警 ID、时间、状态和等级等基础信息,满足大多数场景需求。

状态 & 生效时间

字段是否必填说明
生效时间全部时间(7×24 小时) :始终生效; 周期时间 :按工作日/周末等周期设置; 自定义时间 :指定具体时间段生效
启停状态控制告警规则是否运行。关闭后规则暂停检测,不产生告警事件,默认开启

常见场景

场景:监控生产服务器 CPU 持续高负载 选择 CPU 使用率指标,分组维度设为主机,将致命阈值设为 90%、严重设为 80%,连续触发次数设为 3,避免短暂峰值误报。

场景:非工作时间降低告警敏感度 生效时间选择 自定义时间 ,配置工作日 9:00–18:00 生效,其余时间不发送通知,减少夜间打扰。

场景:主机采集中断时仍能告警 开启数据断档并将断档结果视为 0,配合阈值检测,确保主机 Agent 异常时也能触发告警,而不是静默。

注意事项

注意

修改检测区间连续触发次数会影响告警的响应延迟:区间越长、次数越多,从异常发生到收到通知的时间越长,请根据业务容忍度合理设置。