功能简介

现代系统的稳定性管理面临两个核心挑战： 如何更快发现问题 ，以及 如何确保问题被正确的人及时处理 。告警平台正是为解决这两个问题而设计的。

为什么需要智能告警

随着系统规模扩大，单纯依靠人工巡检或简单的监控大盘已难以应对：

告警平台将检测、通知、处理整合为一体，帮助团队从被动响应转向主动发现。

平台提供多种检测方式，满足不同数据类型和监控诉求：

固定阈值检测 适用于有明确上下限的指标（如 CPU、内存、错误率），规则简单直接，响应及时。

日志检测与事件检测 将告警能力延伸到非结构化日志和业务事件流，无论是错误日志突增还是关键业务事件异常，都能纳入统一监控体系。

AI 自适应检测 自动学习指标的历史规律，建立动态基线，识别真正偏离正常模式的异常，大幅减少因业务波动引起的误报噪音。

AI 预测检测 基于趋势预判，在问题真正发生前提前预警，为容量扩展、故障预防留出充足的处置窗口，将被动响应转变为主动干预。

告警触发后能否被正确的人及时看到，直接决定了平均故障恢复时间（MTTR）。平台通过灵活的通知策略保障这一环节：

从告警产生到最终关闭，平台提供完整的可见性：告警列表汇聚所有告警，支持多维筛选和状态跟踪；详情页聚合检测数据、状态变化和触发事件，帮助快速定位根因；通知记录提供完整的送达审计，便于复盘和追责。

模块	作用
告警规则	定义检测逻辑和触发条件，支持阈值、日志、事件、AI自适应、AI预测五种类型
通知策略	定义告警触发后的通知渠道、接收人和升级路径
告警列表	汇聚所有告警，提供查看、分析和处理的统一工作台