Logtail 在不同版本中对 \0 空字符的处理策略有显著差异:
旧版本(如 1.1.1): 由于 C++ 中 \0 常被视为字符串结束符,Logtail 在读取日志时会自动丢弃 \0 字符。这种行为在遇到稀疏文件时,恰好能"无意中"跳过空洞区域,实现正常采集效果。
新版本(如 1.8.6): 为了解决部分客户日志中包含合法 \0 字符的需求,Logtail 改为通过长度来判断字符串是否结束,不再忽略 \0。这意味着稀疏文件中的所有 \0 都会被当作有效日志内容采集上传。
在稀疏文件场景下,新版本会将大量 \0 聚合成超长行(因为 \0 中没有 \n 换行符),触发 512KB 的单行日志长度上限截断告警。虽然 \0 的压缩率极高使传输流量增幅有限,但解压后的原始流量和索引开销会急剧膨胀。