2024年12月11日,OpenAI 出现了影响 ChatGPT、API、Sora、Playground、Labs 等服务的全球故障,持续超过四个小时。根因是新部署的服务产生了大量对 Kubernetes API Server 的请求,导致 API Server 负载急剧升高,最终引发 DNS 解析失败,影响了数据面业务功能。
这一事件的启示在于:APIServer 是 Kubernetes 集群的核心公用基础组件,任何对其产生大量异常请求的操作都可能产生级联故障。因此需要通过 Log/Trace/Metric 建立立体化的可观测覆盖体系,实现对 APIServer 请求量、延迟、错误率的实时监控和快速预警。特别是需要能够快速定位异常请求的来源(哪个 userAgent)、访问的资源(哪个 resource)和操作类型(哪个 verb),从而缩短故障定位时间,降低不可用时长。