admin管理员组

文章数量:1446760

Agentic AI在可观测领域的应用潜力与实践路径探讨

前言

从deepseek -> manus general AI agent

  • 模型侧: 模型的训练成本、推理能力
  • 应用侧: Agents带来的end-2-end 解决问题能力的曙光

Why: Agentic AI对于可观测、SRE带来的潜力思考

传统可观测/AIOps都偏向于解决单个场景问题

AIOps三板斧:异常检测--> 告警关联--> 根因诊断

传统可观测和AIOps往往侧重于解决单个场景问题,面对复杂多变的实际情况,显得有些力不从心。

LLM & Agentic AI 带来的反思规划、工具调用、多agent协作等能力日益提升

思考:构建SRE Agent数字分身, 实现对多个场景的串联、 协作, 助力SRE解决“日常琐事”

是否可以利用Agentic AI, 构建SRE数字分身,充分发挥出LLM的规划推理和总结能力, 同时结合AIOps 小模型作为工具来解决确定性的数据分析、RCA分析。 从而来解决日常高重复、高消耗SRE精力的场景和事项。

SRE 在哪些场景和事项上很疲惫?

工作内容分类

时间占比(示例)

工作描述

是否为重复性工作

对 SRE 是消耗还是高价值

系统监控与告警管理

20% - 30%

1. 配置和维护监控工具,确保对系统关键指标(如 CPU 使用率、内存占用、网络流量、请求延迟等)的实时监测。2. 设定合理的告警阈值,及时发现系统异常情况。3. 处理告警信息,判断告警的严重程度并采取相应措施。

部分是,如日常监控和告警处理

既是消耗(日常处理繁琐),也是高价值(及时发现问题保障系统稳定)

故障排查与修复

15% - 25%

1. 当系统出现故障时,迅速定位问题根源,可能涉及到对日志的分析、系统状态的检查等。2. 制定并实施故障修复方案,尽量减少系统停机时间。3. 对故障进行复盘,总结经验教训,提出改进措施以防止类似故障再次发生。

部分是,每次故障虽然情况不同, 但对于精力和经验很依赖

高价值(保障系统可用性,提升系统可靠性)

性能优化

10% - 20%

1. 分析系统性能瓶颈,例如通过性能测试工具找出响应缓慢的接口或模块。2. 优化系统架构、代码逻辑或配置参数,以提高系统的性能和响应速度。3. 评估优化效果,持续进行性能调优工作。

不是,不同阶段优化重点不同

高价值(提升用户体验,增强系统竞争力)

容量规划与资源管理

5% - 15%

1. 根据业务增长趋势和历史数据,预测系统未来的资源需求(如服务器数量、存储容量、带宽等)。2. 合理分配和管理资源,确保系统在满足业务需求的同时避免资源浪费。3. 监控资源使用情况,及时进行资源调整和扩容。

部分是,如定期资源监控

高价值(保障业务发展,控制成本)

自动化脚本开发与维护

10% - 20%

1. 开发自动化脚本,用于系统部署、配置管理、监控数据采集等重复性工作,提高工作效率。2. 对现有自动化脚本进行维护和更新,确保其稳定性和兼容性。3. 推广自动化工具和流程,提高团队整体的自动化水平。

部分是,如脚本维护

高价值(提高效率,减少人为错误)

新功能上线支持

10% - 20%

1. 在新功能开发阶段,参与设计评审,从可靠性角度提出建议和意见。2. 协助开发团队进行新功能的测试,包括性能测试、稳定性测试等。3. 在新功能上线时,提供现场支持,及时处理可能出现的问题。

不是,每次新功能不同

既是消耗(投入时间精力),也是高价值(保障新功能可靠性)

文档编写与知识管理

5% - 10%

1. 编写系统架构文档、操作手册、故障处理流程等技术文档。2. 整理和分享工作中的经验和知识,促进团队成员之间的学习和交流。3. 维护和更新知识库,确保信息的准确性和及时性。

部分是,如文档更新维护

既是消耗(花费时间精力),也是高价值(知识传承,提升团队能力)

与其他团队协作

10% - 20%

1. 与开发团队密切合作,共同解决技术问题,推动项目进展。2. 与运维团队协作,协调系统部署、变更等工作。3. 与业务团队沟通,了解业务需求,提供可靠的技术支持。

不是,每次协作场景和需求不同

高价值(促进团队合作,推动业务发展)

变更值守

5% - 15%

1. 在系统进行变更(如代码部署、配置修改、硬件更换等)期间,全程监控系统状态,密切关注各项关键指标的变化情况。2. 及时响应并处理变更过程中出现的任何异常情况,如告警信息、性能下降等,迅速采取措施进行故障排查和修复,确保变更顺利完成。3. 与变更实施团队保持紧密沟通,及时反馈系统状态和问题,协调各方资源解决变更过程中遇到的技术难题。4. 在变更完成后,对系统进行全面检查和验证,确保变更达到预期效果,且系统运行正常。

部分是,每次变更都可能需要值守,但变更内容和情况不同

既是消耗(值守期间需持续关注,耗费精力),也是高价值(保障变更顺利进行,降低变更对系统稳定性的影响 )

What: 介绍Agentic AI的概念、特点

What is Agentic AI

  • Agentic AI 是一种完全自主性的 AI。这意味着它可以做出决策、采取行动,甚至自行学习以实现特定目标。这有点像拥有一个虚拟助手,它可以思考、推理和适应不断变化的环境,而无需不断的指导。 Agentic AI 分四个关键阶段运行:
    • Perception: It gathers data from the world around it. 感知:它从周围的世界收集数据。
    • Reasoning: It processes this data to understand what’s going on. 推理:它处理这些数据以了解发生了什么。
    • Action: It decides what to do based on its understanding. 行动:它根据自己的理解来决定做什么。
    • Learning: It improves and adapts over time, learning from feedback and experience. 学习:它会随着时间的推移而改进和适应,从反馈和经验中学习。

AI Agent --> Agentic AI的转变

两者的主要区别,主要在于以下几点:

  • AI Agent更侧重于智能实体的基本功能和自主性,而Agentic AI则强调系统在更高层面上的自主决策、自我学习和问题解决能力。
  • Agentic 需要突出学习能力, 可以从反馈和经验中学习
  • AI Agent可以看作是实现Agentic AI的一种技术手段或组件,而Agentic AI则是AI Agent在特定工作流程和目标导向下的一种表现形式。

通信协议: 不同数据源和工具如何统一集成进Agent?

MCP 协议

MCP 是一种开放协议,对于AI应用如何提供context给到LLM, MCP提供了一套标准。 因此可以将 MCP 想象成 AI 应用的 USB-C 端口。正如 USB-C 提供了一种将设备连接到各种外围设备和配件的标准化方式一样,MCP 也提供了一种将 AI 模型连接到不同数据源和工具的标准化方式。

MCP 架构

At its core, MCP follows a client-server architecture where a host application can connect to multiple servers:

MCP 的核心遵循客户端-服务器架构,其中主机应用程序可以连接到多个服务器:

  • MCP Hosts: Programs like Claude Desktop, IDEs, or AI tools that want to access data through MCP MCP 主机:希望通过 MCP 访问数据的 Claude Desktop、IDE 或 AI 工具等程序
  • MCP Clients: Protocol clients that maintain 1:1 connections with servers MCP 客户端:与服务器保持 1:1 连接的协议客户端
  • MCP Servers: Lightweight programs that each expose specific capabilities through the standardized Model Context Protocol MCP 服务器:轻量级程序,每个程序都通过标准化的 Model Context Protocol 公开特定功能
  • Local Data Sources: Your computer’s files, databases, and services that MCP servers can securely access 本地数据源:MCP 服务器可以安全访问的计算机文件、数据库和服务
  • Remote Services: External systems available over the internet (e.g., through APIs) that MCP servers can connect to 远程服务:MCP 服务器可以连接到的 Internet 上可用的外部系统(例如,通过 API)

业界 review:目前都在拿Agents在可观测/SRE等方向做什么及怎么做的?

产业界:Service Now

Paper works:

title

link

类型

code

RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models

.16340

RCA

Exploring LLM-based Agents for Root Cause Analysis

.04123

RCA

mABC: multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture

.12135

RCA

Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis

.08224

RCA

AI Agents for Cloud Reliability: Autonomous Threat Detection and Mitigation Aligned with Site Reliability Engineering Principles

.12165v1

SRE

FlipAI: System of Intelligent Actors: The DevOps chapter

SRE

Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides

.17531

SRE

Flip AI

这个系统旨在通过自动化的方式来模拟传统的“war room”过程,以解决生产环境中的事故调试和根本原因分析问题。具体来说,该系统包括以下几个关键组件:

  1. Director:负责创建一个特定的运行手册来调试事故,并调用多个Actor来执行步骤。Director使用自定义的领域特定语言(DSL)来生成计划。
  2. Actors:是自给自足的模块,每个Actor使用一个或多个Agents来自动化运行手册中的一个步骤。Actors是工作流特定的,类似于API。
  3. Agents:是一组专门为完成特定任务(如日志摘要、生成可观测性平台的查询等)的工具包。Agents是模型与工具之间的接口层,负责利用一组工具来完成特定任务。
  4. CoMELT数据:指的是代码(Code)、指标(Metrics)、事件(Events)、日志(Logs)和跟踪(Traces)的结合。这些数据是系统分析和调试的基础。
  5. Flow-of-Action

智能体分工

  • MainAgent:主控全局流程,从动作集中选择最优动作。
  • ActionAgent:根据流程规则生成候选动作集。
  • JudgeAgent:判断是否已找到根因,避免冗余操作。
  • ObAgent:从历史事件中提取故障类型,辅助缩小搜索范围。
  • CodeAgent:负责SOP代码生成与执行。

How: 如何搭建一套Agentic AI系统

multi-Agents System的交互和架构长什么样?

  1. 整体的交互逻辑

多agents 架构扩展:

具体到每一个Agent A/B/C/D (Supervisor Agent), 也可以采取多种不同策略的agent架构, 甚至上述的整体交互也可以有多种架构:

  • Supervisor :
  • 多层级:
  • network:

多agents 落地中的难点
  • 效率 & 效果的tradeoff
  • 多轮对话的存储、 以及不同agents存储内容的差异
  • ...

本文标签: Agentic AI在可观测领域的应用潜力与实践路径探讨