功能简介
现代系统的稳定性管理面临两个核心挑战: 如何更快发现问题 ,以及 如何确保问题被正确的人及时处理 。告警平台正是为解决这两个问题而设计的。
为什么需要智能告警
随着系统规模扩大,单纯依靠人工巡检或简单的监控大盘已难以应对:
- 指标数量多,人工盯屏效率低,异常容易被忽略
- 固定阈值无法适应业务的自然波动,误报频繁导致告警疲劳
- 告警触发后通知链路不清晰,责任人不明确,响应滞后
- 告警信息分散,难以快速定位根因
告警平台将检测、通知、处理整合为一体,帮助团队从被动响应转向主动发现。
智能告警能做什么
覆盖多种异常检测场景
平台提供多种检测方式,满足不同数据类型和监控诉求:
固定阈值 检测 适用于有明确上下限的指标(如 CPU、内存、错误率),规则简单直接,响应及时。
日志检测与事件检测 将告警能力延伸到非结构化日志和业务事件流,无论是错误日志突增还是关键业务事件异常,都能纳入统一监控体系。
AI 自适应检测 自动学习指标的历史规律,建立动态基线,识别真正偏离正常模式的异常,大幅减少因业务波动引起的误报噪音。
AI 预测检测 基于趋势预判,在问题真正发生前提前预警,为容量扩展、故障预防留出充足的处置窗口,将被动响应转变为主动干预。
确保告警送达并被处理
告警触发后能否被正确的人及时看到,直接决定了平均故障恢复时间(MTTR)。平台通过灵活的通知策略保障这一环节:
- 支持多渠道(邮件、钉钉、企业微信等)并行推送,降低漏通知风险
- 可按告警级别或类型将通知分发给不同团队,避免无关人员被频繁打扰
- 升级通知机制确保告警未被及时响应时自动通知上级,形成兜底保障
- 重复提醒功能在告警持续未恢复期间持续跟踪,防止告警被遗忘
支撑告警全生命周期管理
从告警产生到最终关闭,平台提供完整的可见性:告警列表汇聚所有告警,支持多维筛选和状态跟踪;详情页聚合检测数据、状态变化和触发事件,帮助快速定位根因;通知记录提供完整的送达审计,便于复盘和追责。
核心模块
| 模块 | 作用 |
|---|---|
| 告警规则 | 定义检测逻辑和触发条件,支持阈值、日志、事件、AI自适应、AI预测五种类型 |
| 通知策略 | 定义告警触发后的通知渠道、接收人和升级路径 |
| 告警列表 | 汇聚所有告警,提供查看、分析和处理的统一工作台 |
文档索引
| 文档 | 说明 |
|---|---|
| 阈值检测告警规则 | 基于固定阈值对指标数据配置告警规则 |
| 日志告警规则 | 基于日志查询和统计结果配置告警规则 |
| 事件告警规则 | 基于结构化事件数据配置告警规则 |
| AI 自适应告警规则 | 基于 AI 基线检测指标异常偏离 |
| AI 预测告警规则 | 基于 AI 预测提前发现未来风险 |
| 告警列表 | 查看、分析和处理已触发的告警 |
| 通知策略 | 配置告警的通知渠道、接收人和频率 |