跳到主要内容
版本:3.7.0

指标类规则

概述

  • 指标类(含可用性类)与事件类告警规则在数据特性上存在本质差异:指标为持续性上报的时序数据,反映系统或服务的状态趋势;事件则为瞬时触发的离散数据,记录特定时间点发生的异常或动作。这种数据性质的根本不同,决定了两类规则在检测逻辑、配置方法与响应机制上需采用完全独立的设计体系。
  • 本文重点介绍指标和事件类规则在配置时的差异。

ac909e7d97634ef682cd0d3589988cc3.png

界面配置

检测规则

  • 您可选择规则类型为单指标或多指标进行配置,单指标仅针对单个指标配置规则,多指标最多支持选择相同实体模型下的5个指标进行配置,可配置与、或关系,与是指所有指标都满足检测条件后才会触发告警,或是指≥1个指标满足检测条件后触发告警。
  • 选择指标时的指标选择器样式是和指标体系保持一致的,若用户未对当前资源域定义指标体系,会使用默认的指标体系。鼠标移入指标名称后悬浮展示指标的关键信息,包括指标描述、指标维度等。c7cb7054b45940c1b8ac51f782da5b40.png
  • 过滤条件的一级为实体模型、相关实体、相关维度;实体模型和相关实体的二级为实体属性、实体标签;相关维度的二级为涉及的维度。这里最多支持10个条件,多个条件之间的关系为且。高基数实体相关过滤值来自实体中自定义标注的关键实例,如果没有标注关键实例,会出现无数据可过滤的情况。
  • 如果选择的实体模型是实体,分组会默认勾选上选择的实体模型,且不可取消,同时还提供实体模型上卷实体以及相关实体的交集的实体属性、指标独立维度,可能存在多个。如果选择的实体模型是非实体,说明是第三方或自定义实体模型下的,分组不需要给默认的,只提供相关维度让用户选择即可,无法生成AI根因问题。

检测条件

  • 检测方式分为固定阈值、AI检测、AI预测。方式不同会影响异常条件的配置,固定阈值是指用户直接配置阈值与指标相比较,触发阈值的会按条件产生告警;AI检测是指AI对过去30天数据进行训练(如果数据不够30天,实际存在多久数据就用多久,如果指标刚注册,会走一个兜底逻辑,第二天开始训练,兜底逻辑中AI提供基线的准确性相对较低),提供指标的上下基线,和指标实际值相比较,不在基线内的认为是异常点,根据配置的异常点的比例,判断是否触发阈值。AI预测是指用过去的数据(训练方法与AI检测类似),预测未来的数据,提供一个预测的趋势图,如果预测趋势触发配置的阈值,将产生告警。

  • 异常条件中,固定阈值可配置指标的平均值、累加值、连续、次数、同环比等,AI检测可配置高于或低于正常区间,AI预测可配置高于或低于阈值。AI检测和固定阈值的检测周期为1-30分钟,AI预测为1小时-1周。指标聚合粒度中,AI检测和固定阈值是指1-15分钟的周期内聚合粒度为1分钟,也就是1分钟一个聚合点,16-30分钟聚合粒度为5分钟,也就是5分钟一个聚合点,比如最近17分钟,那会产生3个点,最近10分钟会产生10个点。AI预测是指12小时聚合粒度是30分钟,13-168小时聚合粒度是60分钟。

  • 异常阈值,是指不同阈值对应不同等级,比如配置指标大于阈值异常,那么阈值越高,等级越高。

  • 预览趋势图,是为了配置阈值时使用指标数据进行参考,将近期指标数据展示出。固定阈值中的同环比、AI检测和AI预测同时提供历史数据和评估图;其他只提供历史图。

e9b6fd26fd3742518ba03671854920d1.png

  • 异常高级配置,用于查询延迟异常事件的指标,设置延迟异常事件后,当前时间查询前一段时间的数据,避免由于数据上报延迟,最近一段时间数据都为空导致检测不准确的问题。如果没有数据延迟问题,可不配置此项。还可勾选指标在选定时间内未查询到数据,判定为正常。也就是说在所选范围内若未查到数据,不认为是异常情况,不会产生异常事件和告警。

PromQL语句

aaa3189260ff4a85830fd496096b7239.png

  • 异常条件和阈值直接在查询语句框中进行配置,同时提供AI帮我写,可以点击按钮弹出弹窗输入要编写的语句要求,由AI帮忙生成PQL语句,可以选择一键回填至输入框。

  • 若选择instant方式,还支持持续时间的配置。

  • Labels用于对生成告警的附加标记,您可自定义labels的key和value,value支持用$value的形式自动获取告警实体的相关属性值,例如$hostDetectedName标记为对应操作系统类型;也支持直接填写固定的值。

  • 告警级别在语句下用单选形式选择,默认选择警告级别,可更改至其他等级。

  • 告警名称支持用户自定义,输入告警名称拼接内容,可基于指标维度、当前值、Labels或固定内容进行定义,

    若PQL语句中定义了阈值,会自动在您定义的告警名称后增加阈值相关描述。