跳到主要内容

日志检测

信息

日志告警规则用于定义 何时对日志数据触发告警、通知谁 。通过配置日志查询条件、触发阈值和通知策略,实现对日志异常的自动监控。

快速上手

第一步:进入新建页面

进入 告警规则 ,点击 新建告警规则 ,进入配置页面。

第二步:配置检测规则

  1. 生效范围下拉框中选择资源域
  2. 日志查询中选择索引(如 main),输入字段和查询语句
  3. 设置统计方式(默认:全部日志 / 计数)和可选的分组字段
  4. 选择 检测区间 (默认 5 分钟)
  5. 配置 触发条件 :设置连续触发次数和比较方式,并填写各告警级别的阈值

第三步:填写告警内容

  1. 填写 告警标题 ,支持使用变量
  2. 按需编辑 通知内容 ,或保留默认模板
  3. 选择 通知策略 ;如未创建可点击创建通知策略新建

第四步:设置生效时间并保存

  1. 选择 生效时间 (默认全天 7×24 小时)
  2. 确认启停状态已开启
  3. 点击保存完成创建;如需复用,点击保存至自定义模板

功能说明1777021745942

检测规则

基础配置

字段是否必填说明
生效范围选择本条规则监控的资源域,规则仅对所选范围内的日志生效
日志查询指定索引和查询语句,支持字段级过滤;查询结果作为检测的原始数据
统计对查询结果进行聚合。全部日志仅支持计数,其他统计纬度支持去重计数;支持选择分组字段按维度拆分统计
检测区间每次检测时,以当前时间向前回溯的时间窗口,默认 5 分钟

触发条件

字段是否必填说明
连续触发次数当检测结果连续 N 次满足阈值条件时,才触发告警,避免偶发抖动误报
比较方式支持 >>=<<==等操作符
致命阈值若结果数 > 设定值,产生致命级别告警
严重阈值若结果数 > 设定值,产生严重级别告警
警告阈值若结果数 > 设定值,产生警告级别告警
一般阈值指标值超过此阈值触发一般级别告警,默认不展示该等级,可添
提醒阈值指标值超过此阈值触发致命提醒告警,默认不展示该等级,可添加
正常恢复连续 N 次检测无事件产生,告警自动恢复为正常状态;默认 3 次

高级配置

字段是否必填说明
数据断档开启后,当检测区间内完全没有日志数据时,也触发告警;适用于必须持续上报的场景。默认关闭
或开启数据断档触发指定级别的告警
数据延时开启后,查询时间窗口整体后移指定时长,避免因数据入库延迟导致的漏报。默认开启 ,偏移1 分钟
聚合规则当分组维度下有多个时间序列时,定义聚合粒度。默认按主机聚合,每台主机独立告警;按网络区域聚合,则每个网络区域产生一个包含多主机的告警

告警内容

字段是否必填说明
告警标题告警触发时显示的标题,支持使用变量动态填充
通知内容发送给接收人的正文,支持富文本编辑和变量插入。不填则使用默认模板
通知策略指定告警触发后通知谁、用哪种渠道(如钉钉、邮件)。如未配置,告警仅记录不发送通知
Labels为规则添加自定义标签,便于分类筛选和批量管理
提示

告警标题和通知内容中均支持变量,常用变量包括 ${alertId}(告警 ID)、${startTime}(触发时间)、${alertName}(规则名称)、${level}(告警级别),可在通知内容编辑框内输入 ${ 查看全部变量提示。

状态 & 生效时间

字段是否必填说明
生效时间全部时间 (7×24 小时):规则始终运行; 周期时间 :按周几重复生效; 自定义时间 :指定具体时间段。默认全部时间
启停状态开启时规则正常运行并产生告警;关闭时规则暂停,不产生任何检测和通知。默认开启

常见场景

场景:监控服务错误日志突增 在日志查询中过滤 level:error,统计方式选 计数 ,设置 5 分钟内计数 > 50 触发 警告 、> 200 触发 严重 ,连续触发次数设为 2,避免偶发误报。

场景:关键日志上报中断检测 开启数据断档开关,当日志在检测区间内完全停止上报时触发告警,适用于需要保证持续上报的采集链路。

场景:非业务高峰期收紧告警阈值生效时间设置为 自定义时间 ,针对夜间低流量时段单独配置一套更低的阈值,区别于白天的正常波动范围。