# CnOps 社区 > 专注于云原生可观测性领域的技术社区,分享 Prometheus、Grafana、OpenTelemetry、日志监控等最佳实践。 可观测中文社区聚集运维专家、开发者和爱好者,共同探讨、学习和分享可观测最佳实践与最新技术。我们提供技术文章、视频课程、开源项目介绍和常见问答,帮助开发者构建完善的可观测体系。 **Markdown 导出**: 所有文章和课程支持纯 Markdown 格式导出,通过 `/api/md/articles/{id}` 和 `/api/md/courses/{id}` 获取。 ## 核心页面 - [首页](https://cnops.com.cn): 社区入口,展示最新内容和推荐资源 - [实践文章](https://cnops.com.cn/articles): 云原生可观测领域的技术文章和最佳实践 - [视频课程](https://cnops.com.cn/courses): 从入门到精通的可观测技术视频教程 - [开源项目](https://cnops.com.cn/projects): 可观测领域核心开源项目介绍 - [常见问答](https://cnops.com.cn/faq): 可观测技术相关的常见问题解答 - [开发者工具](https://cnops.com.cn/tools): 开发者实用工具集合 ## 开源项目 - [Prometheus](https://cnops.com.cn/projects/prometheus): 开源的系统时序数据监控和告警工具包,专注于可靠性和可扩展性,采用拉取模式收集时序数据,支持强大的查询语言 PromQL。 - [Grafana](https://cnops.com.cn/projects/grafana): 开源的数据可视化和监控平台,支持多种数据源。提供丰富的图表类型和仪表盘功能,是可观测领域最流行的可视化工具。 - [Jaeger](https://cnops.com.cn/projects/jaeger): 开源的端到端分布式链路追踪系统,用于监控和排查基于微服务架构的分布式系统。支持 OpenTracing 和 OpenTelemetry 标准。 - [OpenTelemetry](https://cnops.com.cn/projects/opentelemetry): 云原生可观测领域的事实标准,提供统一的 API、SDK 和工具集,用于生成、收集和导出遥测数据(指标、日志和链路追踪)。 - [ChaosBlade](https://cnops.com.cn/projects/chaosblade): ChaosBlade 是阿里巴巴 2019 年开源的混沌工程工具集,用于在生产 / 预发环境模拟各类系统故障,验证分布式系统的高可用与容错能力。 - [LoongCollector](https://cnops.com.cn/projects/loongcollector): 高性能、轻量级的可观测数据采集器,专为云原生环境设计。支持日志、指标、链路追踪等多种数据类型的采集与处理,具备低资源占用、高吞吐量等特点。 ## 技术文章 (支持 Markdown 导出) - [云拨测:当“正常变更”摧毁全球网络,谁来守护业务可用性?](https://cnops.com.cn/articles/kw94y8j5mttl2shtp20zbpqg) | [Markdown](https://cnops.com.cn/api/md/articles/kw94y8j5mttl2shtp20zbpqg): 云拨测通过全球分布式节点模拟真实用户访问,独立验证服务可用性。在X厂商因配置变更导致全球瘫痪事件中,云拨测可第一时间发现5xx错误与响应波动,精准定位为边... - [基于Logtail的阿里云EMR日志分析链路演进](https://cnops.com.cn/articles/eab0fr8snuwztyawrz4nn9vp) | [Markdown](https://cnops.com.cn/api/md/articles/eab0fr8snuwztyawrz4nn9vp): 本文介绍EMR平台通过Logtail的processor_fields_with_condition插件,在客户端侧实现日志实时分析与事件生成,将原始日志... - [加工进化论:SPL 一键加速日志转指标](https://cnops.com.cn/articles/r2y3u7gb9z3ira0okx9c5nbl) | [Markdown](https://cnops.com.cn/api/md/articles/r2y3u7gb9z3ira0okx9c5nbl): 加工进化论:SPL 一键加速日志转指标(对外) 背景 背景 日志服务的SPL(Search Processing Language)自问世以来,凭借其卓越... - [日志采集Agent性能大比拼——LoongCollector 性能深度测评](https://cnops.com.cn/articles/uc65ehu21ii5uo01nf87ecfe) | [Markdown](https://cnops.com.cn/api/md/articles/uc65ehu21ii5uo01nf87ecfe): 日志采集Agent性能大比拼——LoongCollector 性能深度测评 背景 在数字化转型加速的今天,日志数据已成为企业运维、安全分析和业务决策的核心... - [云栖实录:重构可观测 - 打造大模型驱动的云监控 2.0 与 AIOps 新范式](https://cnops.com.cn/articles/hmbqr6kt74bygwegns4ywca3) | [Markdown](https://cnops.com.cn/api/md/articles/hmbqr6kt74bygwegns4ywca3): 云监控2.0以大模型驱动AIOps新范式,通过统一数据平台解决可观测性孤岛与算力黑洞,依托UModel构建实体关系拓扑,实现跨域智能分析。结合自然语言交互... - [原生 VS 无侵入,Spring AI 可观测性重磅升级](https://cnops.com.cn/articles/yaregi2fyu7iqqpciz8ltxjk) | [Markdown](https://cnops.com.cn/api/md/articles/yaregi2fyu7iqqpciz8ltxjk): 本文探讨AI Agent从Demo到生产的落地挑战,以Spring AI Alibaba为例,对比框架原生与无侵入探针两种可观测性方案。后者通过Loong... - [日志采集失败的6大经典雷区:从本地管理反模式到LoongCollector标准实践](https://cnops.com.cn/articles/l7fvzl87xjzcm6fcfutthuxk) | [Markdown](https://cnops.com.cn/api/md/articles/l7fvzl87xjzcm6fcfutthuxk): 本文总结了日志管理中的六大反模式,如copy truncate轮转、NAS存储、多进程写入等,易导致日志丢失或重复。建议采用标准轮转、本地磁盘、单线程追加... - [AWS可观测搬站,使用SLS实现架构统一,成本降87%](https://cnops.com.cn/articles/vhbbq2ocnqbbsdq5sd8b0hy4) | [Markdown](https://cnops.com.cn/api/md/articles/vhbbq2ocnqbbsdq5sd8b0hy4): 本文聚焦 AWS 搬站场景,针对企业多云日志分散、分析链路复杂、AWS 原生方案成本高昂痛点,介绍阿里云 SLS 一体化解决方案。通过双机制高效导入 AW... - [云监控2.0日志审计:面向实体的全链路审计与风险溯源](https://cnops.com.cn/articles/c95d4cz2ierxd6jqxg7du3o9) | [Markdown](https://cnops.com.cn/api/md/articles/c95d4cz2ierxd6jqxg7du3o9): 日志审计2.0通过UModel统一建模,打通云产品、主机与容器层的审计数据,实现AK操作、网络流量、容器进程等全链路溯源。结合内置告警与拓扑关联分析,将碎... - [树莓派上玩转iLogtail:构建/采集/分析NAS日志](https://cnops.com.cn/articles/yi7lx68ijd8zaf3ysnw4r7ff) | [Markdown](https://cnops.com.cn/api/md/articles/yi7lx68ijd8zaf3ysnw4r7ff): 本文以树莓派4B为例,验证iLogtail在ARM架构与低功耗设备上的兼容性。通过编译、安装到采集NAS日志并构建分析大盘,完整演示了端到端流程。实测显示... - [破浪前行:iLogtail十年老架构如何浴火重生](https://cnops.com.cn/articles/tw7wyf2ec7qdpb4ici4a57qn) | [Markdown](https://cnops.com.cn/api/md/articles/tw7wyf2ec7qdpb4ici4a57qn): 本文系统阐述了iLogtail从单一日志采集器向现代化可观测数据采集平台的架构演进过程。通过数据模型通用化、插件抽象与流水线重构,解决了旧架构耦合严重、扩... - [告别手动埋点!Android无侵入式数据采集方案深度解析](https://cnops.com.cn/articles/mvmfc3nvc3zzdmjvcaj7v5qs) | [Markdown](https://cnops.com.cn/api/md/articles/mvmfc3nvc3zzdmjvcaj7v5qs): 本文介绍了Android无侵入式数据采集方案,基于Gradle插件与ASM字节码技术,在编译期自动注入监控逻辑,实现对用户行为、网络请求、性能及崩溃的全面... - [容器可观测新视角: SysOM延时抖动监控助力定位业务抖动原因](https://cnops.com.cn/articles/kr4vyq9lhycsxre138g8cazd) | [Markdown](https://cnops.com.cn/api/md/articles/kr4vyq9lhycsxre138g8cazd): 容器可观测新视角: SysOM延时抖动监控助力定位业务抖动原因 背景 在云原生场景中,为了最大化资源利用率,越来越多的集群采用资源超卖策略和混合部署方式。... - [当 AI Agent 接管手机:移动端如何进行观测](https://cnops.com.cn/articles/ayse17z0dr94up7a4cvi4fhz) | [Markdown](https://cnops.com.cn/api/md/articles/ayse17z0dr94up7a4cvi4fhz): 本文分析AI Agent操作手机的三大技术路径:AccessibilityService、INJECT_EVENTS和adb shell input,提出... - [极速导入,便捷无忧!LoongCollector 一次性文件采集能力上线](https://cnops.com.cn/articles/j6qinw8n53gqqildkglmgufe) | [Markdown](https://cnops.com.cn/api/md/articles/j6qinw8n53gqqildkglmgufe): 本文介绍LoongCollector的一次性文件采集功能,支持历史日志迁移与断网补采。通过OneTime配置实现快照式采集,结合checkpoint与限流... - [从 AWS OpenSearch 到阿里云 SLS:极致弹性、更低成本、生态兼容](https://cnops.com.cn/articles/qrbn4tt2b1mu6ssoc6s3jdjs) | [Markdown](https://cnops.com.cn/api/md/articles/qrbn4tt2b1mu6ssoc6s3jdjs): SLS通过兼容Elasticsearch协议,支持从OpenSearch无缝导入数据,实现日志的统一采集、加工、查询与告警。相比多组件拼装方案,SLS提供... - [突破极限: 高负载场景下的单机300M多行正则日志采集不是梦](https://cnops.com.cn/articles/uiqaug9i5fetue51c82cxg9w) | [Markdown](https://cnops.com.cn/api/md/articles/uiqaug9i5fetue51c82cxg9w): 本文针对高负载下iLogtail多行日志采集性能瓶颈,通过将boost::regex_match优化为前缀匹配的boost::regex_search,使... - [告别高昂出站费用:LoongCollector + CDN 打造跨云低成本数据实时采集链路](https://cnops.com.cn/articles/fi75djuj3kabepj8rvfpx33i) | [Markdown](https://cnops.com.cn/api/md/articles/fi75djuj3kabepj8rvfpx33i): 告别高昂出站费用:LoongCollector + CDN 打造跨云低成本可观测数据实时采集链路 背景 在多云战略日益普及的今天,企业往往需要在不同云平台... - [点亮 Android 崩溃“黑匣子”:揭秘虚拟机与 Native 层的统一追踪机制](https://cnops.com.cn/articles/xnz69yg95m36fpeaaz44r711) | [Markdown](https://cnops.com.cn/api/md/articles/xnz69yg95m36fpeaaz44r711): 本文系统解析Android崩溃采集原理,结合Java异常处理器与Native信号捕获技术,通过Breakpad生成Minidump并辅以符号化还原,解决堆... - [跟着 iLogtail 学习高质量软件建设](https://cnops.com.cn/articles/kcn0ey07g0105lvk240eucsw) | [Markdown](https://cnops.com.cn/api/md/articles/kcn0ey07g0105lvk240eucsw): 面对业务迭代快、环境多样、部署规模大等挑战,团队坚持“质量第一”,通过强化设计、规范流程、技术提效与机制保障,构建涵盖研发、测试、发布、运维全链路的SRE... ## 视频课程 (支持 Markdown 导出) - [UModel 最佳实践 Vol.1 UModel 数据建模全景解读](https://cnops.com.cn/courses/oso2sm9cihhl1mlos5dub1z6) | [Markdown](https://cnops.com.cn/api/md/courses/oso2sm9cihhl1mlos5dub1z6): 从零构建对 UModel 的系统认知,全面解析其在数据体系中的定位、组成与关键能力。 - [Umodel 最佳实践 Vol.2 Umodel 多维探索机制设计与实践](https://cnops.com.cn/courses/y1dtussrl792hfuanvwb63u2) | [Markdown](https://cnops.com.cn/api/md/courses/y1dtussrl792hfuanvwb63u2): 系统讲解 UModel 三大核心浏览组件的定位与实战应用:通过 UModel Explorer 实现模型结构的全局可视化,掌握整体依赖与变更脉络;借助 E... - [Umodel 最佳实践 Vol.3 从定位到关联:构建数据发现与链路分析的全链路能力](https://cnops.com.cn/courses/lvek34wvjjq7w38bsgmcf7cf) | [Markdown](https://cnops.com.cn/api/md/courses/lvek34wvjjq7w38bsgmcf7cf): 聚焦 UModel 核心查询能力,系统讲解通过元数据查询与实体检索快速定位字段来源、模型定义与业务上下文;借助图查询能力可视化展现模型间依赖关系,揭示调用... - [Umodel 最佳实践 Vol.4 UModel API集成与运维自愈机制](https://cnops.com.cn/courses/o63pg4de749as7i75se8zd7i) | [Markdown](https://cnops.com.cn/api/md/courses/o63pg4de749as7i75se8zd7i): 深入解析 UModel 的 PaaS API 设计理念与集成实践路径;同时系统梳理高频使用问题与典型报错场景,提升用户独立运维与快速恢复能力。从“如何接”... - [云监控2.0 Vol.2-应用性能监控能力介绍与演示](https://cnops.com.cn/courses/cl4v8wuclbe7pnz6vnq7podg) | [Markdown](https://cnops.com.cn/api/md/courses/cl4v8wuclbe7pnz6vnq7podg): 全面解读基于OpenTelemetry实现代码级追踪、服务拓扑与异常捕获,快速定位微服务/Serverless架构下的性能瓶颈与故障根因。 - [云监控2.0 Vol.3 - 用户体验监控能力介绍与演示](https://cnops.com.cn/courses/z3jbglqo4x1gp26i1hxpip4m) | [Markdown](https://cnops.com.cn/api/md/courses/z3jbglqo4x1gp26i1hxpip4m): 以用户为中心,采集页面加载性能、JavaScript错误、API成功率及会话回放等前端数据,将技术指标与关键业务转化漏斗打通,驱动体验优化与商业增长。 - [云监控2.0 Vol.4 - 网络分析与监控能力介绍与演示](https://cnops.com.cn/courses/ucvtgxvsukmu6ztid2mhb9ng) | [Markdown](https://cnops.com.cn/api/md/courses/ucvtgxvsukmu6ztid2mhb9ng): 深入网络可观测,覆盖VPC内部通信、公网拨测、CDN加速及边缘节点,实时识别延迟抖动、丢包、DNS异常与路由问题,确保应用依赖链路的稳定与高效。 - [云监控2.0 Vol.5 - 云产品与多云可观测能力介绍与演示](https://cnops.com.cn/courses/zgm5f6rn7gmdw7qmwhdas5e7) | [Markdown](https://cnops.com.cn/api/md/courses/zgm5f6rn7gmdw7qmwhdas5e7): 聚焦主流云厂商IaaS/PaaS服务的监控整合,通过标准化采集与统一视图,实现跨账号、跨区域的云资源的健康度、性能与成本一体化管理,有效消除多云环境下的监... - [云监控2.0 全景综述:可观测范式升级与智能运维蓝图](https://cnops.com.cn/courses/e7ftq3ha4ztf53ha7om3dllq) | [Markdown](https://cnops.com.cn/api/md/courses/e7ftq3ha4ztf53ha7om3dllq): 剖析云监控2.0的核心理念:从被动告警走向主动洞察。聚焦“统一数据底座 + 场景化分析 + AI驱动闭环”,建立覆盖基础设施、应用、AI、用户与网络的全栈... - [如何根据业务特征,进行调整应用监控采样率](https://cnops.com.cn/courses/fmuhycf873wpcy8a5vg6a3l4) | [Markdown](https://cnops.com.cn/api/md/courses/fmuhycf873wpcy8a5vg6a3l4): 应用实时监控服务 ARMS 最佳实践 Vol.8:如何根据业务特征,调整应用监控采样率 - [如何监控部署在云服务器 ECS 上的 Go 应用](https://cnops.com.cn/courses/xacbuld6aepdvwih2yxgxtqf) | [Markdown](https://cnops.com.cn/api/md/courses/xacbuld6aepdvwih2yxgxtqf): 应用实时监控服务 ARMS-最佳实践 Vol.4-如何监控部署在云服务器 ECS 上的 Go 应用 - [如何监控部署在云服务器 ECS 上的 Java 应用](https://cnops.com.cn/courses/lda5e81bg4ix9ya89alg7g0b) | [Markdown](https://cnops.com.cn/api/md/courses/lda5e81bg4ix9ya89alg7g0b): 应用实时监控服务 ARMS-最佳实践 Vol.2-如何监控部署在云服务器 ECS 上的 Java 应用 - [如何监控部署在容器服务 ACK 上的 Go 应用](https://cnops.com.cn/courses/q7oypvql1mmmdns8m93aua8i) | [Markdown](https://cnops.com.cn/api/md/courses/q7oypvql1mmmdns8m93aua8i): 应用实时监控服务 ARMS-最佳实践 Vol.3-如何监控部署在容器服务 ACK 上的 Go 应用 - [如何监控部署在容器服务 ACK 上的 Java 应用](https://cnops.com.cn/courses/ii0z03c1v9yxh44b1p4btyqp) | [Markdown](https://cnops.com.cn/api/md/courses/ii0z03c1v9yxh44b1p4btyqp): 应用实时监控服务 ARMS-最佳实践 Vol.1-如何监控部署在容器服务 ACK 上的 Java 应用 - [调用链关联分析(日志、剖析、指标)](https://cnops.com.cn/courses/nwhqyyghv1ee04nto7fb2m9z) | [Markdown](https://cnops.com.cn/api/md/courses/nwhqyyghv1ee04nto7fb2m9z): 应用实时监控服务 ARMS 最佳实践 Vol.7:调用链关联分析(日志、剖析、指标) ## 常见问答 - [跨云专线方案在可观测数据采集场景中有哪些局限性?](https://cnops.com.cn/faq/b9ocnpp4b3draog2dmmeixqu): 跨云专线方案通过云服务提供商的专线服务(如 AWS Direct Connect、阿里云高速通道等)建立跨云专用网络连接,为数据传输提供稳定、低延迟的专属通道。 - [ LoongCollector + CDN 方案的整体架构是什么?](https://cnops.com.cn/faq/d245wnqi3sxsfwrq6v4mxw1h): 该方案通过引入 CDN 作为数据传输中转层,在不改变目标存储平台(SLS)接入方式的前提下,利用 CDN 的价格优势与全球节点能力,优化跨云数据传输的成本... - [纯公网方案在跨云数据采集中存在哪些主要痛点?](https://cnops.com.cn/faq/eej4eya7mdfc7592qzgy51sz): 纯公网方案在数据规模较大或对数据实时性有较高要求的场景下,性价比明显不足。 - [LoongCollector 是什么,它与同类开源采集器相比有哪些核心优势?](https://cnops.com.cn/faq/fc1d25cxgkpd5003h4jy2w5m): LoongCollector 是新一代统一可观测数据采集器,定位为企业级高性能数据采集基础设施组件。 - [什么是跨云可观测数据采集,企业为何需要统一采集平台?](https://cnops.com.cn/faq/iu9zyelmbkqucw9vfg4k4kvz): 跨云可观测数据采集的核心挑战在于数据传输成本、网络质量稳定性与架构复杂度三者之间的平衡。企业在实施统一可观测性战略时,往往面临高昂的跨云出站流量费用以及公... - [ 使用 SLS 传输加速方案会带来哪些额外成本与风险?](https://cnops.com.cn/faq/p0yu1llbrq7cc0yhbd65ssv8): SLS 传输加速是在纯公网方案基础上引入 DCDN(全站加速)能力的增强方案 - [跨云数据传输的主要成本构成是什么?](https://cnops.com.cn/faq/ph5guutucjkuizg5zhvutgyy): 许多企业在设计跨云采集方案时,往往仅关注目标平台的存储与分析成本,而忽视了源平台出站流量费用对总体成本的显著影响。 - [CloudFront 与 EC2 直接公网出站的成本差异有多大?](https://cnops.com.cn/faq/zz2xhm5ult813hrelvqgw6d7): 对于大规模日志采集场景,出站流量成本是影响方案可行性的关键因素。 ## Optional - [搜索](https://cnops.com.cn/search): 站内内容搜索 - [Sitemap](https://cnops.com.cn/sitemap.xml): XML 格式网站地图 --- *本文件遵循 [llms.txt](https://llmstxt.org) 标准,为 AI/LLM 提供结构化内容索引。*