在sh库中处理二进制数据的正确方式

2025-05-30 15:54:09作者：晏闻田Solitary

Python process launching

项目地址：https://gitcode.com/gh_mirrors/sh/sh

背景介绍

Python的sh库是一个强大的子进程调用工具，它提供了类似Shell命令的调用方式。从2.0.0版本开始，sh库默认将所有命令输出作为字符串返回。这在大多数文本处理场景下非常方便，但当我们需要处理二进制数据时，就需要特别注意。

二进制数据处理方案

使用BytesIO缓冲区

处理二进制数据最推荐的方式是使用BytesIO缓冲区。这种方法既符合Python的惯用法，又能保持代码的简洁性：

from io import BytesIO
from sh import cat

# 创建二进制缓冲区
binary_buffer = BytesIO()

# 将命令输出重定向到缓冲区
cat("binary_file.bin", _out=binary_buffer)

# 重置缓冲区指针并读取内容
binary_buffer.seek(0)
binary_data = binary_buffer.read()

这种方法的优点包括：

内存效率高，适合处理大文件
符合Python标准库的惯用法
代码清晰易读

编码转换方案

虽然不推荐，但在某些特殊情况下，也可以通过编码转换来处理二进制数据：

from sh import command

# 使用surrogateescape错误处理机制
output = command("binary_program", _decode_errors="surrogateescape")
binary_data = output.encode(errors="surrogateescape")

这种方法利用了Python的surrogateescape错误处理机制，可以无损地往返转换二进制数据。但相比BytesIO方案，这种方法：

代码更复杂
需要理解编码错误处理机制
性能可能较差

为什么不添加_stdout_bytes参数

项目维护者认为：

BytesIO方案已经足够简洁
保持API的简洁性比添加特殊参数更重要
二进制处理不是最常见的使用场景

最佳实践建议

对于小量二进制数据，可以直接使用BytesIO方案
对于大文件处理，考虑结合使用管道和分块读取
避免在二进制数据处理中使用字符串转换方案，除非有特殊需求
始终记得重置缓冲区指针(.seek(0))后再读取数据

通过遵循这些实践，可以确保在sh库中高效、安全地处理二进制数据。

Python process launching

项目地址：https://gitcode.com/gh_mirrors/sh/sh

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

flutter_flutter

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started