Agentic AI在可观测领域的应用潜力与实践路径探讨-软件玩家

admin管理员组
文章数量:1446760

Agentic AI在可观测领域的应用潜力与实践路径探讨

前言

从deepseek -> manus general AI agent

模型侧：模型的训练成本、推理能力
应用侧： Agents带来的end-2-end 解决问题能力的曙光

Why: Agentic AI对于可观测、SRE带来的潜力思考

传统可观测/AIOps都偏向于解决单个场景问题

AIOps三板斧：异常检测--> 告警关联--> 根因诊断

传统可观测和AIOps往往侧重于解决单个场景问题，面对复杂多变的实际情况，显得有些力不从心。

LLM & Agentic AI 带来的反思规划、工具调用、多agent协作等能力日益提升

思考：构建SRE Agent数字分身，实现对多个场景的串联、协作，助力SRE解决“日常琐事”

是否可以利用Agentic AI，构建SRE数字分身，充分发挥出LLM的规划推理和总结能力，同时结合AIOps 小模型作为工具来解决确定性的数据分析、RCA分析。从而来解决日常高重复、高消耗SRE精力的场景和事项。

SRE 在哪些场景和事项上很疲惫？

工作内容分类	时间占比（示例）	工作描述	是否为重复性工作	对 SRE 是消耗还是高价值
系统监控与告警管理	20% - 30%	1. 配置和维护监控工具，确保对系统关键指标（如 CPU 使用率、内存占用、网络流量、请求延迟等）的实时监测。2. 设定合理的告警阈值，及时发现系统异常情况。3. 处理告警信息，判断告警的严重程度并采取相应措施。	部分是，如日常监控和告警处理	既是消耗（日常处理繁琐），也是高价值（及时发现问题保障系统稳定）
故障排查与修复	15% - 25%	1. 当系统出现故障时，迅速定位问题根源，可能涉及到对日志的分析、系统状态的检查等。2. 制定并实施故障修复方案，尽量减少系统停机时间。3. 对故障进行复盘，总结经验教训，提出改进措施以防止类似故障再次发生。	部分是，每次故障虽然情况不同，但对于精力和经验很依赖	高价值（保障系统可用性，提升系统可靠性）
性能优化	10% - 20%	1. 分析系统性能瓶颈，例如通过性能测试工具找出响应缓慢的接口或模块。2. 优化系统架构、代码逻辑或配置参数，以提高系统的性能和响应速度。3. 评估优化效果，持续进行性能调优工作。	不是，不同阶段优化重点不同	高价值（提升用户体验，增强系统竞争力）
容量规划与资源管理	5% - 15%	1. 根据业务增长趋势和历史数据，预测系统未来的资源需求（如服务器数量、存储容量、带宽等）。2. 合理分配和管理资源，确保系统在满足业务需求的同时避免资源浪费。3. 监控资源使用情况，及时进行资源调整和扩容。	部分是，如定期资源监控	高价值（保障业务发展，控制成本）
自动化脚本开发与维护	10% - 20%	1. 开发自动化脚本，用于系统部署、配置管理、监控数据采集等重复性工作，提高工作效率。2. 对现有自动化脚本进行维护和更新，确保其稳定性和兼容性。3. 推广自动化工具和流程，提高团队整体的自动化水平。	部分是，如脚本维护	高价值（提高效率，减少人为错误）
新功能上线支持	10% - 20%	1. 在新功能开发阶段，参与设计评审，从可靠性角度提出建议和意见。2. 协助开发团队进行新功能的测试，包括性能测试、稳定性测试等。3. 在新功能上线时，提供现场支持，及时处理可能出现的问题。	不是，每次新功能不同	既是消耗（投入时间精力），也是高价值（保障新功能可靠性）
文档编写与知识管理	5% - 10%	1. 编写系统架构文档、操作手册、故障处理流程等技术文档。2. 整理和分享工作中的经验和知识，促进团队成员之间的学习和交流。3. 维护和更新知识库，确保信息的准确性和及时性。	部分是，如文档更新维护	既是消耗（花费时间精力），也是高价值（知识传承，提升团队能力）
与其他团队协作	10% - 20%	1. 与开发团队密切合作，共同解决技术问题，推动项目进展。2. 与运维团队协作，协调系统部署、变更等工作。3. 与业务团队沟通，了解业务需求，提供可靠的技术支持。	不是，每次协作场景和需求不同	高价值（促进团队合作，推动业务发展）
变更值守	5% - 15%	1. 在系统进行变更（如代码部署、配置修改、硬件更换等）期间，全程监控系统状态，密切关注各项关键指标的变化情况。2. 及时响应并处理变更过程中出现的任何异常情况，如告警信息、性能下降等，迅速采取措施进行故障排查和修复，确保变更顺利完成。3. 与变更实施团队保持紧密沟通，及时反馈系统状态和问题，协调各方资源解决变更过程中遇到的技术难题。4. 在变更完成后，对系统进行全面检查和验证，确保变更达到预期效果，且系统运行正常。	部分是，每次变更都可能需要值守，但变更内容和情况不同	既是消耗（值守期间需持续关注，耗费精力），也是高价值（保障变更顺利进行，降低变更对系统稳定性的影响）

What: 介绍Agentic AI的概念、特点

What is Agentic AI

Agentic AI 是一种完全自主性的 AI。这意味着它可以做出决策、采取行动，甚至自行学习以实现特定目标。这有点像拥有一个虚拟助手，它可以思考、推理和适应不断变化的环境，而无需不断的指导。 Agentic AI 分四个关键阶段运行：
- Perception: It gathers data from the world around it. 感知：它从周围的世界收集数据。
- Reasoning: It processes this data to understand what’s going on. 推理：它处理这些数据以了解发生了什么。
- Action: It decides what to do based on its understanding. 行动：它根据自己的理解来决定做什么。
- Learning: It improves and adapts over time, learning from feedback and experience. 学习：它会随着时间的推移而改进和适应，从反馈和经验中学习。

AI Agent --> Agentic AI的转变

两者的主要区别，主要在于以下几点：

AI Agent更侧重于智能实体的基本功能和自主性，而Agentic AI则强调系统在更高层面上的自主决策、自我学习和问题解决能力。
Agentic 需要突出学习能力，可以从反馈和经验中学习
AI Agent可以看作是实现Agentic AI的一种技术手段或组件，而Agentic AI则是AI Agent在特定工作流程和目标导向下的一种表现形式。

通信协议：不同数据源和工具如何统一集成进Agent?

MCP 协议

MCP 是一种开放协议，对于AI应用如何提供context给到LLM， MCP提供了一套标准。因此可以将 MCP 想象成 AI 应用的 USB-C 端口。正如 USB-C 提供了一种将设备连接到各种外围设备和配件的标准化方式一样，MCP 也提供了一种将 AI 模型连接到不同数据源和工具的标准化方式。

MCP 架构

At its core, MCP follows a client-server architecture where a host application can connect to multiple servers:

MCP 的核心遵循客户端-服务器架构，其中主机应用程序可以连接到多个服务器：

MCP Hosts: Programs like Claude Desktop, IDEs, or AI tools that want to access data through MCP MCP 主机：希望通过 MCP 访问数据的 Claude Desktop、IDE 或 AI 工具等程序
MCP Clients: Protocol clients that maintain 1:1 connections with servers MCP 客户端：与服务器保持 1：1 连接的协议客户端
MCP Servers: Lightweight programs that each expose specific capabilities through the standardized Model Context Protocol MCP 服务器：轻量级程序，每个程序都通过标准化的 Model Context Protocol 公开特定功能
Local Data Sources: Your computer’s files, databases, and services that MCP servers can securely access 本地数据源：MCP 服务器可以安全访问的计算机文件、数据库和服务
Remote Services: External systems available over the internet (e.g., through APIs) that MCP servers can connect to 远程服务：MCP 服务器可以连接到的 Internet 上可用的外部系统（例如，通过 API）

业界 review：目前都在拿Agents在可观测/SRE等方向做什么及怎么做的？

产业界：Service Now

Paper works：

title	link	类型
RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models	.16340	RCA
Exploring LLM-based Agents for Root Cause Analysis	.04123	RCA
mABC: multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture	.12135	RCA
Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis	.08224	RCA
AI Agents for Cloud Reliability: Autonomous Threat Detection and Mitigation Aligned with Site Reliability Engineering Principles	.12165v1	SRE
FlipAI： System of Intelligent Actors: The DevOps chapter		SRE
Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides	.17531	SRE

Flip AI

这个系统旨在通过自动化的方式来模拟传统的“war room”过程，以解决生产环境中的事故调试和根本原因分析问题。具体来说，该系统包括以下几个关键组件：

Director：负责创建一个特定的运行手册来调试事故，并调用多个Actor来执行步骤。Director使用自定义的领域特定语言（DSL）来生成计划。
Actors：是自给自足的模块，每个Actor使用一个或多个Agents来自动化运行手册中的一个步骤。Actors是工作流特定的，类似于API。
Agents：是一组专门为完成特定任务（如日志摘要、生成可观测性平台的查询等）的工具包。Agents是模型与工具之间的接口层，负责利用一组工具来完成特定任务。
CoMELT数据：指的是代码（Code）、指标（Metrics）、事件（Events）、日志（Logs）和跟踪（Traces）的结合。这些数据是系统分析和调试的基础。
Flow-of-Action

智能体分工：

MainAgent：主控全局流程，从动作集中选择最优动作。
ActionAgent：根据流程规则生成候选动作集。
JudgeAgent：判断是否已找到根因，避免冗余操作。
ObAgent：从历史事件中提取故障类型，辅助缩小搜索范围。
CodeAgent：负责SOP代码生成与执行。

How: 如何搭建一套Agentic AI系统

multi-Agents System的交互和架构长什么样？

整体的交互逻辑

多agents 架构扩展：

具体到每一个Agent A/B/C/D （Supervisor Agent），也可以采取多种不同策略的agent架构，甚至上述的整体交互也可以有多种架构：

Supervisor ：

多层级：

network：

多agents 落地中的难点
效率 & 效果的tradeoff
多轮对话的存储、以及不同agents存储内容的差异
...

本文标签： Agentic AI在可观测领域的应用潜力与实践路径探讨
版权声明：本文标题：Agentic AI在可观测领域的应用潜力与实践路径探讨内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748353243a2851337.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

Agentic AI在可观测领域的应用潜力与实践路径探讨

Agentic AI在可观测领域的应用潜力与实践路径探讨

前言

从deepseek -> manus general AI agent

Why: Agentic AI对于可观测、SRE带来的潜力思考

传统可观测/AIOps都偏向于解决单个场景问题

LLM & Agentic AI 带来的反思规划、工具调用、多agent协作等能力日益提升

思考：构建SRE Agent数字分身， 实现对多个场景的串联、 协作， 助力SRE解决“日常琐事”

SRE 在哪些场景和事项上很疲惫？

What: 介绍Agentic AI的概念、特点

What is Agentic AI

AI Agent --> Agentic AI的转变

通信协议： 不同数据源和工具如何统一集成进Agent?

MCP 协议

MCP 架构

业界 review：目前都在拿Agents在可观测/SRE等方向做什么及怎么做的？

产业界：Service Now

Paper works：

Flip AI

How: 如何搭建一套Agentic AI系统

multi-Agents System的交互和架构长什么样？

多agents 架构扩展：

多agents 落地中的难点 效率 & 效果的tradeoff多轮对话的存储、 以及不同agents存储内容的差异...

更多相关文章

Agentic AI在可观测领域的应用潜力与实践路径探讨

发表评论

推荐文章

我“AI”发文——UC Berkeley关于AI安全性的研究进展

Prompt Engineering 是否是一种新的编程语言

Telegram账号被封了怎么办？

维护Ambari知识库再次被夸！继续更新常见问题到Ambari知识库，欢迎关注！

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

热门文章

轻松加载与应用：使用 Torch Hub 驾驭预训练 NLP 模型

Kubernetes v1.33 版本来了！

Roblox发布3D智能基础模型Cube，一句话生成游戏资产

基于 HAI+Flask+Ollama 的城堡探险开发实录：跨越时空的游戏重塑之旅

【English】英语中的单复数详解

99.HarmonyOS NEXT跑马灯组件教程：动画配置与参数详解

【详解】CentOS6Linux系统添加永久静态路由的方法

Calibre

教你如何入门AI Agent，让AI自动创建项目构建项目检查代码

【DEDE搜索】dede搜索页显示搜索结果条数的修改方法

最新文章

LLM学习笔记：如何理解LLM中的Transformer架构

o3 deep research: 智能体的应用和演进

从开发者视角洞见未来，找到自己的破局之道：Deepseek和Manus如何助力破局？

嵌入式Linux：阻塞式IO与非阻塞式IO

STM32如何精准控制步进电机？

How to vary WooCommerce product prices based on order dates

For a menu custom link (without a link) a &quot;#&quot; is appended. Can this just be blank, i.e. NO link?

multisite - Hook into &#39;admin_url&#39; but only on Mysites admin bar menu

Global login to password protected pages

having a page in multi sub-menu and match current-menu-item

ThinkPad 黑侠 E570 GTX 20H5A019CD 参数报价

联想扬天B575el-ETW H参数报价

联想扬天B575el-ETW E2-2000参数报价

索尼VGN-CR322HP参数报价

清华同方S30i-45 黑参数报价

思考：构建SRE Agent数字分身，实现对多个场景的串联、协作，助力SRE解决“日常琐事”

通信协议：不同数据源和工具如何统一集成进Agent?

多agents 落地中的难点
效率 & 效果的tradeoff
多轮对话的存储、以及不同agents存储内容的差异
...

For a menu custom link (without a link) a "#" is appended. Can this just be blank, i.e. NO link?

multisite - Hook into 'admin_url' but only on Mysites admin bar menu