跳到主要内容

功能简介

现代系统的稳定性管理面临两个核心挑战: 如何更快发现问题 ,以及 如何确保问题被正确的人及时处理 。告警平台正是为解决这两个问题而设计的。

为什么需要智能告警

随着系统规模扩大,单纯依靠人工巡检或简单的监控大盘已难以应对:

  • 指标数量多,人工盯屏效率低,异常容易被忽略
  • 固定阈值无法适应业务的自然波动,误报频繁导致告警疲劳
  • 告警触发后通知链路不清晰,责任人不明确,响应滞后
  • 告警信息分散,难以快速定位根因

告警平台将检测、通知、处理整合为一体,帮助团队从被动响应转向主动发现。

智能告警能做什么

覆盖多种异常检测场景

平台提供多种检测方式,满足不同数据类型和监控诉求:

固定阈值检测 适用于有明确上下限的指标(如 CPU、内存、错误率),规则简单直接,响应及时。

日志检测与事件检测 将告警能力延伸到非结构化日志和业务事件流,无论是错误日志突增还是关键业务事件异常,都能纳入统一监控体系。

AI 自适应检测 自动学习指标的历史规律,建立动态基线,识别真正偏离正常模式的异常,大幅减少因业务波动引起的误报噪音。

AI 预测检测 基于趋势预判,在问题真正发生前提前预警,为容量扩展、故障预防留出充足的处置窗口,将被动响应转变为主动干预。

确保告警送达并被处理

告警触发后能否被正确的人及时看到,直接决定了平均故障恢复时间(MTTR)。平台通过灵活的通知策略保障这一环节:

  • 支持多渠道(邮件、钉钉、企业微信等)并行推送,降低漏通知风险
  • 可按告警级别或类型将通知分发给不同团队,避免无关人员被频繁打扰
  • 升级通知机制确保告警未被及时响应时自动通知上级,形成兜底保障
  • 重复提醒功能在告警持续未恢复期间持续跟踪,防止告警被遗忘

支撑告警全生命周期管理

从告警产生到最终关闭,平台提供完整的可见性:告警列表汇聚所有告警,支持多维筛选和状态跟踪;详情页聚合检测数据、状态变化和触发事件,帮助快速定位根因;通知记录提供完整的送达审计,便于复盘和追责。

核心模块

模块作用
告警规则定义检测逻辑和触发条件,支持阈值、日志、事件、AI自适应、AI预测五种类型
通知策略定义告警触发后的通知渠道、接收人和升级路径
告警列表汇聚所有告警,提供查看、分析和处理的统一工作台

文档索引

文档说明
阈值检测告警规则基于固定阈值对指标数据配置告警规则
日志告警规则基于日志查询和统计结果配置告警规则
事件告警规则基于结构化事件数据配置告警规则
AI 自适应告警规则基于 AI 基线检测指标异常偏离
AI 预测告警规则基于 AI 预测提前发现未来风险
告警列表查看、分析和处理已触发的告警
通知策略配置告警的通知渠道、接收人和频率