OpenAPI 网关监控平台的指标体系由 Metric Name(指标名称)和 Labels(标签)组成,采用 Prefix_MetricName 的命名规范,覆盖四个核心维度:
- 产品维度(namespace_product_gw):指标包括 http_req(QPS)、rt_mean(平均延迟)、success_rate(成功率),标签含 product、region_id。供各云产品团队监控产品整体健康度
- API 维度(namespace_api_gw):指标包括 http_req、http_5xx、slow_http_req、http503_rate,标签含 product、api、version、priority。用于定位具体接口问题和慢调用
- 错误码维度(namespace_error_code_gw):指标包括 http_code、error_code,标签含 product、api、error_code。用于错误分布分析和故障定位
- 租户维度(namespace_tenant_gw):指标包括 api_req_limiting_rate(限流比例),标签含 uid、gc_level。用于大客户限流监控和容量规划
指标数据存储在 SLS MetricStore 中,兼容 Prometheus 协议,通过 Grafana 对接实现 PromQL 自助查询和告警配置。生产环境生成 50 万+ 时序指标,更新频率为 20 秒到 1 分钟。