跳到主要内容

AI 自适应

信息

AI 自适应告警基于历史数据自动建立指标基线,并动态计算正常波动范围,无需手动设定固定阈值。当指标偏离基线超出预设比例时触发告警,适用于具有周期性波动规律的指标监控(如 CPU 使用率、请求量等)。

快速上手

第一步:进入新建页面

进入 告警规则,点击新建告警规则,选择 AI 自适应检测类型后进入配置页。

第二步:配置检测规则

  1. 生效范围中选择资源域
  2. 指标选取中选择要监控的指标,例如 CPU 使用率,设置聚合方式(如最新值)并添加分组维度(如主机)
  3. 按需添加过滤条件(如主机名称 = 特定主机),缩小监控范围
  4. 触发条件中设置预测数据区间的比较方式,并填写各级别偏离基线的百分比阈值
  5. 按需调整算法配置中的波动容忍倍数

第三步:填写告警内容

  1. 填写告警标题,支持使用 ${host.customizedName} 等变量
  2. 按需编辑通知内容,或保留默认模板
  3. 选择通知策略;如未创建,点击创建通知策略

第四步:设置生效时间并保存

  1. 选择生效时间(默认全天 7×24 小时)
  2. 确认启停状态已开启
  3. 点击保存完成创建;如需复用,点击保存至自定义模板

功能说明

1777021110541

检测规则

基础配置

字段是否必填说明
生效范围选择本条规则监控的资源域,规则仅对所选范围内的数据生效
指标选取选择被监控的指标和聚合方式(如平均值、最大值),并可通过过滤条件精确锁定监控对象(如特定主机)
信息

页面顶部的检测数据图表会实时展示所选指标的历史趋势,以及 AI 计算出的基线范围(蓝色区间)。建议在保存前通过图表确认基线是否符合预期,辅助校准阈值设置。

触发条件

AI 自适应模式下,阈值不是固定数值,而是相对于 AI 基线的偏离百分比

字段是否必填说明
预测区间时长最近 N 分钟内,如果指标的预测数据区间满足条件则触发;决定检测的时间窗口长度
比较方式支持 >< 等操作符,与各级别偏离百分比组合判断是否触发
致命阈值若指标值高于基线阈值的百分比 > 设定值,产生致命级别告警
严重阈值若指标值高于基线阈值的百分比 > 设定值,产生严重级别告警
警告阈值若指标值高于基线阈值的百分比 > 设定值,产生警告级别告警
正常恢复连续 N 次检测无事件产生,告警自动恢复为正常状态,默认 3 次

高级配置

字段是否必填说明
算法配置在基线之上,额外容忍 N 倍正常信号波动范围内的变化。值越大,对毛刺越宽容,误报越少;值越小,对异常越敏感。默认为 1 倍
数据断档开启后,当检测区间内完全没有指标数据时也触发告警,适用于必须持续上报的采集场景。默认关闭
数据延时开启后,查询时间窗口整体后移指定时长,避免因数据入库延迟导致漏报。默认开启,偏移 1 分钟
聚合规则当分组维度下有多个时间序列时,定义聚合粒度。默认按主机聚合,每台主机独立告警;按网络区域聚合,则每个网络区域产生一个包含多主机的告警
提示

算法配置的波动容忍倍数建议从默认值 1 开始,根据实际告警情况逐步调整:误报多则适当调大,漏报多则适当调小。

告警内容

字段是否必填说明
告警标题告警触发时显示的标题,支持变量动态填充
通知内容发送给接收人的正文,支持富文本编辑和变量插入。不填则使用默认模板
通知策略指定告警触发后通知谁、用哪种渠道。未配置时告警仅记录,不发送通知
Labels为规则添加自定义标签,便于分类筛选与批量管理

状态 & 生效时间

字段是否必填说明
生效时间全部时间(7×24 小时):规则始终运行;周期时间:按周几重复生效;自定义时间:指定具体时间段。默认全部时间
启停状态开启时规则正常检测并产生告警;关闭时规则暂停,不产生任何检测和通知。默认开启

常见场景

场景:CPU 使用率异常升高告警 指标选取 CPU使用率 / 平均值,通过过滤条件指定目标主机,设置触发条件为高于基线 30% 触发警告、高于 80% 触发严重,由 AI 自动识别业务高峰与低谷的正常范围,无需手动区分白天和夜晚分别设阈值。

场景:指标周期性波动频繁误报 适当调大算法配置中的波动容忍倍数(如从 1 改为 2),允许更大幅度的正常波动不触发告警,减少因业务突发但合理的流量变化引起的噪音告警。

场景:多主机同类指标统一监控 在过滤条件中选择多台主机,同时将聚合规则设置为按主机聚合,系统将为每台主机分别建立基线并独立触发告警,而非将所有主机的数据混合计算。

注意事项

注意

AI 基线依赖历史数据。对于近期刚开始采集、数据量不足的指标,基线可能不够准确,建议积累一定历史数据后再启用 AI 自适应规则,前期可先使用固定阈值规则过渡。