跳到主要内容
版本:3.7.0

问题通知记录

先决条件

  • 功能菜单:具备问题通知记录功能菜单
  • 操作权限:具备告警页面的创建、读写、只读权限
  • 数据权限:具备至少一个环境下的资源域

概述

问题通知记录是一个集中的、历史化的追踪列表,它专门用于记录和存储由Bonree ONE监控平台生成并发送的问题通知。即经检测规则生成的告警,再经收敛策略收敛成问题后,触发问题响应策略时产生的通知。

问题通知记录就像运维团队的“通信黑匣子”。它虽然不直接处理问题,但通过忠实记录每一次问题通知,为运维流程的透明化、责任化和高效化提供了至关重要的数据支撑,是现代可观测性平台中不可或缺的运维管理功能。

9efc6c82245c4abf97f019ce8e0a8565.png

价值

  • 增强可观测性: 提供了运维活动的可观测性,不仅知道系统出了什么问题,还能清晰地看到“人对问题的响应过程”是否到位,形成了运维的闭环管理。

  • 明确责任界定: 提供了不可篡改的“证据链”,清晰记录了问题信息的流向,有助于在团队协作中明确责任,避免互相推诿。

  • 提升运营效率: 快速查询和验证功能大大减少了在“通知是否发送”这类问题上纠缠的时间,让运维团队能更专注于解决问题本身,从而提升运维效率。

使用场景

  • 问题排查与复盘

    • 当收到问题但处理人员声称“没收到”时,可在此查验通知是否成功发送及发送给了谁,明确是通知配置问题还是人员疏忽问题。
    • 追溯历史问题的发生和通知过程,用于事后复盘。
  • 值班与交接班

    • 新接手的值班人员可以通过通知记录快速了解当前活跃的问题及其通知历史,避免信息遗漏。
  • 配置验证与调试

    • 在调整或新建“问题响应策略”后,可以通过查看通知记录来验证策略是否按预期被触发和执行,是调试配置是否正确的重要手段。
  • 性能与可靠性分析

    • 分析通知渠道的稳定性和延迟。例如,统计短信、邮件的送达成功率和平均送达时间,评估运维通信链路的可靠性。

操作场景

  • 查询:当用户需要在问题通知模板列表中查询通知记录时,可在查询框基于问题ID、通知方式、通知内容、响应策略、通知状态进行过滤。
  • 导出:当用户需要导出问题通知记录时,可批量勾选数据后,点击【导出】按钮导出到本地生成csv格式文件,用于统计分析、事后复盘等。

开始使用

  1. 登录Bonree ONE。

  2. 选择智能告警 > 通知记录 > 问题通知记录

  3. 支持问题通知记录查询、导出。

  4. 列表提供的字段包括问题ID、通知方式、通知内容、通知时间、最近更新时间、接收人/组、触发原因、响应策略、通知状态。

  5. 通知状态包括成功、失败、未知、部分成功。失败原因可能是网络连接失败、代码错误等等,部分成功说明一组接收人中有的成功有的失败;未知是指触发通知了但还没返回通知是否成功的状态,若返回结果,未知会更新为成功或失败的结果。

    若问题触发响应策略产生通知,问题通知记录列表会有一条记录状态为未知;待平台执行成功后,对应通知方式下会收到一条信号,状态更新为成功。若执行较快,可能状态直接就提示成功或失败。