云原生全栈可观测性面临的最大挑战是数据孤岛与关联缺失。一个完整的云原生系统涉及三个核心层次的观测需求:
- 应用层:微服务的调用链路、业务指标、应用日志,OpenTelemetry可以很好地覆盖
- 容器编排层:Kubernetes的Pod、Node、Deployment等资源运行状态与指标,通常由Prometheus、FluentBit等采集
- 云基础设施层:RDS、Redis、SLB、OSS等云服务的监控数据,一般由云厂商提供
这些不同层次的数据由不同工具采集、存储在各自独立的系统中。当业务出现故障时,开发运维人员需要在多个监控平台间反复切换,手动关联应用性能异常、容器资源瓶颈、云资源故障等信息。这种方式不仅排查效率低下,还容易遗漏关键线索,难以构建端到端的故障因果链路。阿里云云监控2.0通过Umodel统一建模体系来解决这一挑战。