Swift AI
Swift AI 是博睿数据提供的一套人工智能算法引擎,可以对运维数据进行高效的异常检测、趋势预测、告警收敛、根因分析以及与 LLM 相结合的多场景智能体。
异常检测
Swift AI 通过对于历史时序数据进行实时训练,可以自动生成满足一定条件的动态基线。 对指标进行异常检测是运维领域非常常见的应用场景,主要是对机器的基础性能指标,包括CPU使用率,内存使用率,磁盘使用率等,或者对某些应用系统的黄金指标,比如成交量,响应时间,响应率等进行异常检测,这些检测方法基本上可以分为以下几类,比如统计学方法、基于机器学习的方法(如聚类、分类、异常值检测等)以及基于深度学习的算法(如自编码器、变分自编码器等)。这些算法可用于检测系统和应用程序中的异常行为,帮助运维人员快速发现和解决问题。
趋势预测
指标趋势预测是一种用于预测数据指标未来走势的方法,可以应用于运维领域的多个场景中。比如通过对设备或系统的运行指标进行趋势预测,可以检测到潜在的故障趋势,提前预测设备或系统可能出现的故障,以便采取相应的维护措施,减少停机时间和成本。再比如通过对系统资源使用量的趋势进行预测,可以预测系统资源的未来需求和使用情况,根据预测结果调整和规划系统的容量,以避免资源瓶颈或过度投资。
告警收敛
告警收敛是一种用于管理和减少告警噪音的技术或方法。当在复杂的 IT 环境中监测到问题时,往往会产生大量的告警,这些告警可能是由不同的组件、系统或传感器触发的。告警收敛的目标是识别和聚合相关的告警,以便运维团队可以更有效地处理和响应这些问题。通过将多个相似或相关的告警合并为一个较为综合的告警,可以减少冗余性和重复性的信息,并提供更清晰、更简洁的视图,以便运维人员更好地理解和解决问题。
根因分析
故障根因分析是指通过分析和排查,相对准确地确定引发系统故障的根本原因的过程。故障根因定位的目标是尽快恢复系统的正常运行,并减少故障对业务和用户的影响。对故障进行根因定位的算法有很多,大体可以分为:
-
基于规则的方法:通过提前设定规则和约束条件,监控系统运行状态,当有违反规则的实例出现时,就可以快速判断故障的根本原因。
-
基于统计分析的方法:通过对系统的各种指标和参数进行收集、存储以及分析,可以得到系统的分布、趋势和周期性等特性,从而找到故障的根本原因。
-
基于机器学习的方法:利用人工智能的技术,如神经网络、决策树、支持向量机等,对历史故障数据进行建模和分析,并根据模型推断出故障的根本原因。
-
基于知识图谱的方法:利用知识图谱的特点,构建故障知识图谱,将各种不同的故障表现和原因记录在知识图谱上,通过对知识图谱的分析和查询,快速确定故障的根本原因。
LLM 智能体
大语言模型目前已经可以很好的处理自然语言的理解和推理工作, 在运维领域中结合 LLM 的技术可以极大提升运维效率。 目前博睿数据提供的 LLM 智能体包括知识问答智能体“小睿助理”, 以及根因分析智能体。
小睿助理可以针对当前 Bonree ONE 的功能进行解释、对当前所在的环境进行智能感知以及帮助用户快速生成 PromQL 表达式; 根因分析智能体可以基于告警事件快速分析与该告警相关的可观测信号,并结合故障排查知识库进行分析和定位,在几分钟之内就给出可能的根因结论。