OpenTelemetry-js Fetch 自动插桩中的内存泄漏问题分析

2025-06-27 20:08:53作者：庞眉杨Will

问题背景

在 Web 开发中，使用 Fetch API 进行数据请求是常见操作。OpenTelemetry-js 提供了自动插桩功能来监控这些请求，但在处理流式响应时存在严重的内存泄漏问题。当开发者使用无限流式 Fetch 请求时，会导致浏览器内存不断增长，最终导致标签页崩溃。

问题根源分析

问题的核心在于 OpenTelemetry-js 的 fetch 插桩实现中对响应对象的处理方式。具体来说，代码中创建了两个响应克隆：

resClone：用于读取响应体数据
resClone4Hook：用于传递给 endSpanOnSuccess 钩子函数

关键问题在于 resClone4Hook 的响应体从未被读取，导致浏览器必须保留完整的响应数据在内存中。对于无限流式响应，这会形成内存泄漏，因为：

原始响应流被用户代码消费
resClone 的响应体被读取后可以释放
但 resClone4Hook 的响应体始终未被消费，浏览器无法释放其占用的内存

技术细节深入

Fetch API 响应体的特性

Fetch API 的设计中，响应体(Response.body)只能被读取一次。这是 Web 平台的固有设计选择，旨在优化内存使用。当开发者使用流式读取时，浏览器可以边接收数据边处理，而不需要缓冲整个响应。

OpenTelemetry 的实现问题

OpenTelemetry 的当前实现通过克隆响应对象来保留响应体数据，这实际上违背了 Fetch API 的设计初衷。具体表现为：

强制浏览器缓冲整个响应体
对于大文件或无限流式响应，内存使用会线性增长
内存泄漏发生在浏览器内部，难以通过常规的 JavaScript 内存分析工具检测

解决方案探讨

短期修复方案

最直接的解决方案是移除不必要的响应克隆。由于 endSpanOnSuccess 钩子函数实际上并不需要使用响应体数据，可以改为传递原始响应对象。

长期架构考虑

从架构角度看，需要重新审视自动插桩与流式响应的兼容性问题：

流式响应与监控的冲突：长时间运行的流式请求会保持监控跨度打开，可能影响跟踪系统
性能权衡：自动插桩不应强制改变应用的内存使用模式
配置灵活性：需要提供更细粒度的控制选项来处理特殊用例

最佳实践建议

对于开发者而言，在使用 OpenTelemetry-js 的 fetch 插桩时应注意：

避免在自动插桩环境下使用无限流式请求
对于大文件下载，考虑分块处理或使用其他传输方式
监控应用的内存使用情况，特别是长时间运行的标签页

总结

OpenTelemetry-js 的 fetch 自动插桩功能在处理流式响应时存在内存泄漏问题，这是由于实现中不必要的响应克隆导致的。理解这一问题的技术背景和解决方案，有助于开发者更好地使用监控工具，同时避免潜在的性能问题。未来版本的改进应该更加尊重 Web 平台的设计哲学，在提供监控功能的同时不影响应用的正常内存管理。

opentelemetry-js

OpenTelemetry JavaScript Client

项目地址：https://gitcode.com/gh_mirrors/op/opentelemetry-js

登录后查看全文