admin管理员组

文章数量:1439848

故障定位提速 10 倍!新能源汽车全球化背后的可观测革命

引言

随着全球汽车市场的日益竞争激烈,新能源汽车积极拓展海外市场。在这一过程中,确保系统的稳定性和业务的连续性成为至关重要的任务。本文将探讨如何通过应用性能监控(APM)和 Prometheus 监控工具的结合,实现全链路精准监控与业务缺口定位,为新能源汽车出海提供有力保障。

一、自建监控的三大视线盲区

新能源汽车某领军品牌早前在使用自建 Skywalking 与 Prometheus 的时候,因监控系统与资源的关联性不强且埋点不灵活,导致用户无法快速识别应用的性能瓶颈,存在以下三大视线盲区。

1.1、链路-资源解耦困境

无论是自建 Skywalking 还是 Prometheus,它们都像是一座“数据孤岛”,无法与 K8s 集群的原生数据(如 Pod、Namespace、Deployment)联动。在这种情况下,当某个微服务出现性能瓶颈的时候,传统的 Skywalking 只能定义到服务名称以及 IP 地址,却无法直接关联到 K8s 的 Pod 资源使用情况(CPU 使用情况、内存饱和度等)。

这会导致即便观察到订单服务的响应延迟,也无法准确判断是节点资源异常还是接口超时所致。运维人员需要在 Skywalking 和 Prometheus 之间来回切换,才能确认这个平均响应时间过长的问题究竟是由代码问题导致的还是资源问题导致的。

1.2、埋点成本激增

自建 Skywalking 版本更新与维护需要客户负责,且在服务扩缩容或升级版本时,手动改代码和探针注入的操作都太过繁琐复杂,会导致新功能上线进度缓慢。

1.png

1.3、指标孤岛效应

用户的业务接入自建 Skywalking 后生成的类似响应时间、吞吐量、错误率等自定义指标,无法与用户自己上报到 Prometheus 的业务自定义指标同时展示在 Grafana 面板上,如果要做统一监控大盘,只能在通过自定义上报的方式,上报一份指标到 Prometheus,再通过 Grafana 面板去展示。

2.png

二、上云后的全景地图

2.1、全息监控矩阵

3.png

自监控上云后,该企业的每个链路调用都能被精准标识和追踪。通过容器环境一键 Operator 的方式,构建了“链路-指标-日志”三位一体的智能监控系统。

举个例子:当用户投诉“预约驾驶界面加载慢“的同时:

  • 异常响应时间>500ms 触发智能告警。
  • 调用链路自动关联 TKE 集群元数据(Namespace/Deployment/Pod)。
  • 10s 内定位“集群 A->Deployment->Pod 内存超限”。
  • 再结合 Prometheus & Grafana 查看相关指标变化。

以下图示仅为表明链路追踪详情与 TKE 集群资源的联动,可协助业务同学精准定位问题:

4.png
5.png

2.2、无嵌入式架构

借助无代码埋点技术,客户的研发团队再也无需在版本迭代的时候手动注入探针。平台的动态部署自动注入机制,支持微服务动态扩缩容与版本升级,实现:

  • 0 代码改造支持主流框架自动接入(Spring Cloud/Dubbo等200+)。
  • 分钟级部署能力使得新功能上线效率提升 67% 。
  • Prometheus 预设面板自动生成专家级预设面板,节省 80% 以上监控配置时间。
  • APM 生成的指标数据写入 Prometheus 。
6.png
7.png
8.png

2.3、AR 式故障诊断

客户的运维 & 研发团队使用可观测平台,建立“告警->诊断->修复”闭环:

  • 收到可观测平台->告警管理系统告警:等待连接数>10个的告警
9.png
  • 自动跳转 APM 链路追踪,分析查看数据库异常分析(例如 java.io.EOFException)
10.png
  • 线程池/连接池/方法执行/GC日志多维分析,30分钟完成故障恢复。

最终,得益于以上这些功能的协同作用,客户在上云后实现了业务性能识别与监控的高效化与精准化。

三、可观测体系的价值转化

3.1

故障定位效率提升

客户自监控上云以来,结合可观测平台各个子产品:告警+APM+Prometheus,从“小时级人工摸排”转变为“5分钟定位10分钟解决"

  • 通过 Prometheus 查询指标数据,当场发现服务器 CPU使用率从 40% -> 90% 的精确时间点,与此同时关注其余指标数据变化:
11.png
  • APM 收到告警信息后,根据告警信息来看业务的错慢, 并调出完整的请求链路:

在发起请求后,是在哪条链路响应延迟的?

数据库慢查询突然增加,是由哪个 SQL 语句导致的?

12.png

依据报错的链路数据来查询日志信息

13.png

最终战绩:

  • 5 分钟锁定肇事根因(APM+Prometheus 双重定位)
  • 30 分钟修复(通过指标告警,APM 链路信息,日志详情分析问题根因,最终修复)

3.2、资源利用率高

此外,可观测平台也助力新能源汽车团队通过监控大屏实时追踪资源使用情况,实现降本增效。

比如之前会出现部分容器高负载运行、部分资源浪费的现象,在使用Prometheus+Grafana,及时通过 PromQL 查询发现资源使用情况:20% 的容器在非高峰时段资源利用率<20% ,从而结合可观测平台的云压测、Grafana 和Prometheus,实现业务资源的弹性扩缩容。

14.png

四、全栈可观测体系的技术创新

通过云上可观测平台各个模块的相互结合,该新能源汽车品牌实现了全链路精准监控与业务缺口定位,显著提升了系统的稳定性和业务的连续性。这一最佳实践不仅为该企业出海提供了有力保障,也为其他企业在全球化扩展过程中提供了宝贵的参考。

4.1、APM 深度诊断三大引擎:

  • 智能采样技术:基于上报量的动态采样策略,全量保存错慢链路。
  • 性能透视镜:支持线程分析/连接池分析/GC 日志分析,提升问题定位效率。
  • 熔断决策机制:建立 CPU/内存熔断机制,最大程度避免业务性能损耗。

4.2、Prometheus 架构演进

  • 多元数据聚合:支持云监控与业务指标全采,完成指标一体化管理。
  • 弹性伸缩仓库:利用Prometheus助力容器集群进行弹性扩缩容,不惧流量暴击。
  • 指标路由矩阵:APM 自定义指标与 Prometheus 实现 10ms 级数据同步。

随着技术的不断发展,腾讯云可观测平台的“观测能力”也将进一步增强,我们将会继续探索更多先进的监控技术和方法,比如 AI 驱动的异常检测、区块链技术在数据安全中的应用等,不断提升系统的智能化水平和业务的竞争力。通过不断创新与完善,助力新能源汽车能够在全球市场中始终保持领先地位,为用户提供更加优质的产品和服务。

结语

该新能源汽车的实践表明,可观测体系不仅仅是技术工具的升级,更是运维的范式革命。通过 APM 与 Prometheus 的深度协同,企业可构建“感知-分析-决策”的智能闭环,为全球化业务提供坚实的数字底座。未来,随着边缘计算与 AI技术的融合,可观测性将向 AIops 演进,持续赋能企业竞争力提升。

联系我们

如有任何疑问,欢迎加入官方技术交流群

关于腾讯云可观测平台

腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。满足您全链路、端到端的统一监控诉求,提高运维排障效率,为业务的健康和稳定保驾护航。功能模块有:

  • Prometheus 监控:开箱即用的 Prometheus 托管服务;
  • 应用性能监控 APM:支持无侵入式探针,零配置获得开箱即用的应用观测能力;
  • 云拨测 CAT:利用分布于全球的监测网络,提供模拟终端用户体验的拨测服务;
  • 前端/终端性能监控 RUM:Web、小程序、iOS、Android 端等大前端质量、性能监控;
  • Grafana 可视化服务:提供免运维、免搭建的 Grafana 托管服务;
  • 云压测 PTS:模拟海量用户的真实业务场景,全方位验证系统可用性和稳定性;
  • ......等等
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-14,如有侵权请联系 cloudcommunity@tencent 删除监控数据系统汽车服务

本文标签: 故障定位提速 10 倍!新能源汽车全球化背后的可观测革命