分层聚合架构(地域化处理 + 中心化汇聚)是应对大规模实时监控的最佳设计,核心考虑是平衡实时性与资源效率。具体原因包括:
解决数据倾斜问题:OpenAPI 流量分布极不均匀,某些大产品(如 ECS)的 QPS 是其他产品的数千倍。如果直接按 Product 进行 GroupBy,会导致特定 Flink Task 出现严重的数据倾斜和状态膨胀。通过第一层先按物理节点进行局部聚合,有效缓解了数据倾斜。
提升资源效率:第一层在各地域内完成高维度细节聚合,将 TB 级原始日志压缩为 GB 级聚合数据(数据量减少 99%),大幅降低跨域带宽成本。第二层仅需跨域传输轻量级指标数据。
保障隔离性:各地域计算独立,单地域故障不影响其他地域及中心监控的写入,确保系统整体的高可用性。
该方案在阿里云 OpenAPI 网关生产环境中已验证,支撑 60+ 地域、300+ 产品的全局监控,端到端延迟 P99 < 30 秒。