Pytest 中处理非 UTF-8 编码文件的异常问题分析

2025-05-18 14:57:48作者：范靓好Udolf

在 Python 测试框架 Pytest 的使用过程中，开发者可能会遇到一个与文件编码相关的错误："UnicodeDecodeError: 'utf-8' codec can't decode byte"。这个问题通常发生在 Pytest 尝试读取或处理包含非 UTF-8 编码字符的源代码文件时。

问题现象

当测试用例执行失败时，Pytest 会尝试收集失败的详细信息，包括源代码上下文。在这个过程中，如果测试文件或其导入的模块使用了非 UTF-8 编码（如 Windows 系统上常见的 ANSI 编码），就可能触发编码错误。错误信息通常显示为：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc2 in position 393: invalid continuation byte

这个问题的根本原因在于 Python 3 默认使用 UTF-8 编码来读取文件，而 Pytest 在生成错误报告时需要读取源代码文件来显示上下文信息。当遇到以下情况时就会触发此错误：

最彻底的解决方案是将所有源代码文件转换为 UTF-8 编码。大多数现代代码编辑器都支持批量转换文件编码的功能。

在某些情况下，移除 --log-level 参数可以避免这个问题，因为日志系统可能会尝试读取文件内容进行格式化输出。

有开发者报告，改变运行 Pytest 的工作目录可以解决此问题。特别是在 Django 项目中，从项目目录外运行测试可能更稳定。

确保代码编辑器使用 UTF-8 编码保存文件。不同编辑器可能有不同的默认编码设置，需要特别注意。

Python 3 的 open() 函数默认使用 'utf-8' 编码，而 Pytest 在生成错误报告时会通过 linecache 模块读取源代码文件。当文件实际编码与预期不符时，就会抛出解码错误。

这个问题凸显了在跨平台、跨团队开发中统一编码标准的重要性。UTF-8 已成为事实上的标准编码，能够支持绝大多数语言的字符表示。

通过采取这些措施，可以有效避免因编码问题导致的测试异常，提高开发效率和代码质量。

登录后查看全文