TTFT 是 Time To First Token 的缩写,即首字延迟,指从发起请求到模型返回第一个 Token 的时间。在 Hermes 的可观测方案中,每个 chat span 都会记录 gen_ai.response.time_to_first_token 这一指标。TTFT 之所以对性能分析至关重要,是因为用户感知到的延迟往往有两种完全不同的成因:一种是首字迟迟未返回,即模型推理启动阶段耗时过长;另一种是首字很快但整体生成过程缓慢。如果不区分这两者,性能问题就只能停留在模糊层面。有了 TTFT 指标,运维人员可以精确判断延迟发生在哪个阶段,从而采取不同的优化策略。特别是在 streaming 场景下,TTFT 直接决定了用户的首次感知体验。
加载中...