跳到主要内容
版本:3.7.0

收敛策略

先决条件

  • 功能菜单:具备收敛略功能菜单
  • 操作权限:具备告警配置的创建、读写、只读权限
  • 数据权限:具备至少一个环境下的资源域
  • 数据前提:配置了告警规则,且有告警生成

概述

收敛策略通过对多源告警进行智能归并、压缩和关联分析,将海量杂乱告警转化为精确定位的问题。该策略基于AI根因分析、拓扑关联等算法,自动识别告警间的内在关联性,将具有相同特征集的告警收敛为统一问题,从根本上解决告警风暴问题,实现从"噪声告警"到"精准问题"的智能化转变。

价值

  • 告警治理智能化

    • 通过AI驱动的根因收敛和拓扑分析,自动识别并合并重复告警
    • 有效降低告警数量90%以上,显著提升告警信噪比
    • 避免告警风暴对运维团队的冲击,减少无效工作量
  • 根因定位精准化

    • 基于拓扑关系的关联分析,快速定位问题根源节点
    • 通过收敛的实体层级区分表象告警与根本原因告警
    • 生成的根因问题提供可视化根因拓扑图,直观展示问题传播路径
  • 运维效率倍增

    • 将运维人员从海量告警筛查中解放出来,专注核心问题处理
    • 缩短故障定位时间,平均修复时间(MTTR)降低60%以上
    • 通过知识库积累,形成越用越智能的良性循环

使用场景

  • 微服务架构下的分布式故障定位 在复杂的微服务调用链中,单个服务故障可能引发级联告警。收敛策略通过拓扑关联分析,自动识别根因服务,将数十个关联告警收敛为单个核心问题。

  • 基础设施监控中的告警风暴抑制 当服务器集群出现异常时,往往产生大量重复告警。收敛策略基于设备拓扑和告警特征,实现智能去重和分组,生成问题,保持问题列表的清晰可用。

  • 多云环境下的统一监控 在混合云、多云场景中,收敛策略突破云平台边界,基于应用和服务的逻辑关系,实现跨云平台的告警统一处理和根因分析。

操作场景

  • 查询:当用户需要在收敛策略列表中查询记录时,可在查询框基于收敛策略名称、启停状态进行过滤。
  • 创建:当用户需要定义收敛策略时,可点击【创建】按钮新建收敛策略。
  • 删除:当某些收敛策略不再适用时,可点击操作列中的【删除】按钮,或者批量选中后点击列表上方【删除】按钮操作。
  • 复制:当用户需要定义收敛策略且可以基于已有的策略修改时,可点击【复制】按钮复制收敛策略。
  • 编辑:当用户需要调整收敛规则时,可找到已创建好的策略,点击【编辑】按钮编辑收敛策略。
  • 启停:当已创建的收敛策略需要生效时可点击启用按钮,不需要生效时可点击停用按钮进行操作。

开始使用

收敛策略列表

  1. 登录Bonree ONE。
  2. 选择智能告警 > 告警配置 > 收敛策略
  3. 支持收敛策略查询、创建、编辑、复制、启用、停用、删除。
  4. 列表提供的字段包括收敛策略名称、类型、最近更新时间、最近更新账号、启停状态、操作列。
  5. 注意AI根因收敛策略是内置的一条策略,不可删除,仅可编辑、启停。并且AI根因收敛策略必须开通AI中级的License才可以开启或者编辑。若AI根因收敛策略开启,其他收敛策略无论是否启停都会失效。

82ebf5f2d7b84b8194904127b80d78db.png

收敛策略详情

  • 包含基本信息、策略配置。
  • 基本信息中需要填写策略名称、启停状态,默认是启用状态。
  • 策略配置包括时间窗口、收敛筛选、收敛条件、告警配置、问题描述配置。
  • 时间窗口是定义该策略中收敛的告警之间时间关系为30分钟,基于间隔30分钟的告警进行收敛。
  • 收敛筛选可以基于告警的字段进行过滤,定义收敛策略生效的告警范围。
  • 收敛条件包括字段相同、字段相似、AI时域收敛,字段相同和相似是指告警的某字段值相同或者相似,AI时域收敛是指告警产生后的状态变化等相关时间节点之间存在相似的时域特性。
  • 高级配置是指可以定义此策略生成的问题的生命周期,也就是关闭的规则,可配置问题自发生开始多久后自动关闭、问题已恢复状态持续多久后自动关闭。

31688745ed374cfdad739a2dddd5242f.png