在 Kubernetes 中,leases 资源主要保存在 etcd 中,用于节点心跳检测和 Leader 选举(选主)。如果通过 SPL 根因分析发现 verb=GET、resource=leases 的请求数量异常上升,可能意味着以下几种情况:
- etcd 性能问题:etcd 响应变慢导致 leases 相关请求重试增加,需要检查 etcd 的读写延迟、磁盘 I/O 和内存使用情况。
- 网络延迟:节点与 APIServer 之间的网络延迟增大,导致心跳检测请求堆积。
- 节点或 Pod 数量异常:集群中节点数量突然增加或大量 Pod 重启,产生额外的 leases 操作。
- 组件异常:某些依赖 leases 进行选主的组件(如 controller-manager、scheduler)可能出现异常。
排查时应结合 Prometheus 中 etcd 相关指标、节点状态以及链路追踪中 etcd 操作的耗时数据进行综合分析。