跳到主要内容

事件检测

信息

事件告警规则用于对事件数据定义触发条件和通知策略,实现对异常事件的自动监控与告警。与日志告警不同,事件告警以结构化事件为检测对象,适用于业务操作记录、系统事件流等场景。

快速上手

第一步:进入新建页面

进入 告警规则 ,点击 新建告警规则 ,选择事件检测类型后进入配置页。

第二步:配置检测规则

  1. 生效范围中选择资源域
  2. 事件查询中输入字段和查询条件,筛选目标事件
  3. 设置统计方式(默认:全部事件 / 计数)和可选的分组字段
  4. 选择 检测区间 (默认 5 分钟)
  5. 配置 触发条件 :设置连续次数和比较方式,填写各级别阈值

第三步:填写告警内容

  1. 填写 告警标题 ,支持使用变量
  2. 按需编辑 通知内容 ,或保留默认模板
  3. 选择 通知策略 ;如未创建,点击创建通知策略

第四步:设置生效时间并保存

  1. 选择 生效时间 (默认全天 7×24 小时)
  2. 确认启停状态已开启
  3. 点击保存完成创建;如需复用,点击保存至自定义模板

功能说明

1777021601536

检测规则

基础配置

字段是否必填说明
生效范围选择本条规则监控的资源域,规则仅对所选范围内的事件数据生效
事件查询输入字段和查询语句,对事件数据进行过滤;查询结果作为检测的原始数据
统计对查询结果进行聚合;支持选择分组字段按维度拆分统计结果
检测区间每次检测时,向前回溯的时间窗口,默认 5 分钟

触发条件

字段是否必填说明
连续触发次数当检测结果连续 N 次满足阈值条件时,才触发告警,过滤一次性抖动引起的误报
比较方式支持 >>=<<==等操作符,与阈值组合判断是否触发
致命阈值若结果数满足条件,产生致命级别告警
严重阈值若结果数满足条件,产生严重级别告警
警告阈值若结果数满足条件,产生警告级别告警
一般阈值指标值超过此阈值触发一般级别告警,默认不展示该等级,可添
提醒阈值指标值超过此阈值触发致命提醒告警,默认不展示该等级,可添加
正常恢复连续 N 次检测均无事件产生,告警自动恢复为正常状态,默认为空

高级配置

字段是否必填说明
数据断档开启后,当检测区间内完全没有事件数据上报时也触发告警,适用于必须持续产生事件的场景(如心跳检测)。默认关闭
数据延时开启后,查询时间窗口整体后移指定时长,避免因事件数据入库延迟导致漏报。默认开启 ,偏移1 分钟
聚合规则当分组维度下有多个时间序列时,定义聚合粒度。默认按主机聚合,每台主机独立告警;按网络区域聚合,则每个网络区域产生一个包含多主机的告警

告警内容

字段是否必填说明
告警标题告警触发时显示的标题,支持使用变量动态填充
通知内容发送给接收人的正文,支持富文本编辑和变量插入。不填则使用默认模板
通知策略指定告警触发后的通知渠道和接收人。未配置时告警仅记录,不发送通知
Labels为规则添加自定义标签,便于分类筛选与批量管理
注意

分组条件会影响通知时配置的变量,但分组时所选的维度是所有事件属性的并集,因此当分组为空时,通知内容中的变量无法替换

状态 & 生效时间

字段是否必填说明
生效时间全部时间 (7×24 小时):规则始终运行; 周期时间 :按周几重复生效; 自定义时间 :指定具体时间段。默认全部时间
启停状态开启时规则正常检测并产生告警;关闭时规则暂停,不产生任何检测和通知。默认开启

常见场景

场景:监控关键操作事件异常增多 在事件查询中过滤特定操作类型(如 action:delete),统计方式选 计数 ,设置 5 分钟内超过 100 条触发 警告 ,连续触发次数设为 2,避免短暂峰值误报。

场景:心跳事件中断检测 开启数据断档开关,当检测区间内指定事件完全停止上报时立即触发告警,确保关键采集链路或心跳任务的连续性。

场景:非高峰期降低告警阈值生效时间设为 自定义时间 ,在夜间低流量时段配置更低的阈值,与白天业务高峰期的告警策略分开管理。