新SQL引擎专门针对高基数聚合场景进行了计算引擎优化,分别对数值型和字符型两种高基数聚合场景进行了验证。在数值型高基数聚合场景中,测试200亿规模数据其中包含768万个distinct值,老引擎耗时17.7秒,新引擎仅需1.8秒,性能提升接近10倍。在字符型高基数聚合场景中,测试20亿规模数据每个RequestId都不相同(平均长度24个字符),老引擎耗时接近40秒,新引擎耗时12秒。通过设置合适的并行度,字符型高基数聚合的延时可进一步减少到6.2秒。这些优化使得在海量数据中对高基数维度进行group by聚合分析变得高效可行,特别适合用户行为分析、日志分析等需要大量distinct值统计的场景。
加载中...