AWS SDK C++ 中 S3 文件上传时的双重读取问题解析

2025-07-05 11:55:34作者：丁柯新Fawn

在 AWS SDK C++ 项目中，开发者在使用 S3 服务上传文件时可能会遇到一个性能问题：文件内容会被读取两次。这个问题源于 SDK 对校验和(checksum)处理的默认行为，即使开发者明确设置了不进行校验和计算。

问题本质

当开发者使用 AWS SDK C++ 的 S3 客户端上传文件时，即使将校验和算法显式设置为 NOT_SET，SDK 仍会将其重写为 MD5 算法。这导致 SDK 在发送请求前必须计算文件的 MD5 校验和，从而需要完整读取一次文件内容。而在实际发送请求时，文件又会被再次读取。

这种双重读取行为对于大文件上传尤其不利，会显著增加上传时间并消耗更多系统资源。

在 HTTP 协议中，Content-MD5 头字段用于提供消息体的 MD5 摘要，接收方可以用它来验证数据的完整性。AWS S3 服务长期以来都支持这一机制。

AWS SDK C++ 在 1.9.x 版本中引入了对 S3 额外校验算法的支持。作为这一变化的一部分，校验和成为上传操作中的必选项。当开发者设置 ChecksumAlgorithm::NOT_SET 时，这并不意味着禁用校验和，而是指示 SDK 回退到默认的 MD5 校验和。

SDK 内部的处理逻辑如下：

这个过程中，步骤3需要完整读取文件内容，而步骤5又需要再次读取相同内容。

AWS 团队已经意识到这个问题，并在考虑如何改进。可能的解决方案包括：

值得注意的是，对于新引入的校验算法（如 CRC32、SHA1 等），SDK 已经实现了流式处理，校验和会在文件上传过程中计算并作为 trailer 发送，避免了双重读取问题。

在当前版本中，开发者可以采取以下措施：

这个问题展示了在维护向后兼容性的同时引入新功能所面临的挑战。AWS SDK C++ 团队需要在保持现有行为的同时，为开发者提供更灵活的控制选项。

登录后查看全文