问题列表
先决条件
- 功能菜单:具备问题列表功能菜单
- 操作权限:具备告警页面的读写、只读权限
- 数据权限:具备至少一个环境
概述
- 问题列表作为应急响应体系的核心信息枢纽,实现了对告警数据的智能化聚合与可视化治理。通过预定义的收敛策略,将离散的多源告警自动聚类为具有业务意义的问题单元,形成面向影响分析的统一管理视图。
- 列表以结构化方式清晰呈现问题摘要、处理状态、严重等级、持续时长等关键属性,并在详情中深度融合以下核心要素:关联实体拓扑(如服务/接口依赖关系)、溯源证据链(原始告警与事件明细)、智能分析结果(根因定位与问题回放)、处置过程追溯(全生命周期处理记录)。
- 这种多维信息整合为运维团队构建了从态势感知、根因诊断到协同处置的端到端工作平台,有效提升重大故障的应急响应效率。
价值
- 态势聚合与认知降噪 通过收敛策略将碎片化告警聚合成具有业务语义的问题,过滤冗余噪声,使团队能快速聚焦真正影响业务连续性的核心故障,提升应急决策效率。
- 根因定位与影响分析 集成的问题回放与根因分析功能,结合关联实体拓扑,帮助团队快速构建故障传播链,精准定位异常源头,评估业务影响范围。
- 过程闭环与知识沉淀 完整的处理记录确保问题从发现、分析、处置到复盘的全流程可追溯,推动运维过程标准化,同时为知识库积累典型故障模式与处置方案。

使用场景
-
日常运维监控
值班工程师通过问题列表实时监控系统健康度,根据状态筛选快速认领、分配新增问题
-
故障应急响应
收到故障通报后,团队通过问题列表快速定位关联问题,利用根因分析与实体拓扑进行影响评估与应急决策
-
故障复盘分析
运维团队通过历史问题记录与完整处理日志,复盘故障响应时间线与处置效果,优化收敛策略与应急流程
-
系统健康度评估
通过分析特定服务/模块的问题发生频率、持续时长与解决效率,评估系统稳定性,指导容量规划与架构优化
操作场景
- 查询:当用户需要在问题列表中查询目标问题时,可在查询框基于问题字段、实体属性进行查询,过滤组件还支持记录最近使用,提供快捷过滤条件模板管理。
- 关闭:当用户需要关闭部分待处理、处理中问题时,可以批量复选问题后,点击【关闭】按钮操作。
- 导出:当用户需要将问题列表中的数据导出到本地时,可以批量复选问题后,点击【导出】按钮操作,一次导出为一个csv格式的文件,一次导出最多支持导出100条问题数据。
- 时间框选择:点击右上角时间框,可以进行时间段的快捷选择、自定义,还支持选择最近使用的时间段。
- 接手:当问题处于待处理状态时,需要点击接手变成处理中,说明此时有人正在处理。
- 移除:问题在高风险列表但不需要重点关注时,可点击移除按钮将问题从高风险移除至低风险列表。
- 转派:当问题处于处理中状态但当前用户不继续处理时,可以转派给他人进行处理。
开始使用
问题列表
- 登录Bonree ONE。
- 选择智能告警 > 问题列表。
- 支持问题查询、关闭、导出、接手、移除、转派。
- 列表支持自定义表头,提供默认展示的字段,可根据使用场景定义展示列。

问题详情
-
单击问题某一行,即可进入对应问题的详情。
-
问题详情包含基本信息、根因分析、处理记录。
-
基本信息包含实体列表、告警列表、时序图三个页签,分别展示问题中所有异常实体列表、所有告警明细、告警状态等级变化图。
-
根因分析是指对异常告警实体进行算法收敛后定位最深层次的可能原因的过程,提供收敛的根因拓扑图、问题回放,帮助追溯问题演变过程、快速定位解决异常。只有开启AI根因收敛策略后,才会生成根因问题。
-
处理记录展示从问题产生、触发通知、屏蔽以及状态发生变化的情况记录,直至问题关闭。
