MetaGPT中ActionNode对中文支持的优化实践

2025-05-01 08:39:52作者：余洋婵Anita

在MetaGPT项目开发过程中，我们发现ActionNode模块在处理中文内容时存在编码转换问题。当使用JSON格式输出时，中文字符会被自动转换为Unicode转义序列，这不仅影响了输出的可读性，还可能影响大语言模型对中文内容的理解和处理。

问题背景

MetaGPT是一个基于大语言模型的智能体开发框架，其中的ActionNode模块负责将结构化数据转换为不同格式的输出。在默认实现中，当选择JSON格式输出时，系统会调用Python标准库的json.dumps()方法进行序列化。该方法默认启用了ensure_ascii参数，导致所有非ASCII字符（包括中文）都会被转换为Unicode转义序列。

技术分析

Python的json模块设计初衷是为了确保数据的跨平台兼容性。ensure_ascii参数默认为True时，会将所有非ASCII字符转换为\uxxxx形式的Unicode转义序列。例如：

中文字符"你好"会被转换为"\u4f60\u597d"
这种转换虽然保证了数据的可传输性，但牺牲了可读性

对于中文用户和中文场景下的LLM应用，这种转换带来了两个主要问题：

开发者调试时难以直接阅读和理解转换后的内容
大语言模型在处理Unicode转义序列时，可能产生不一致的输出结果

解决方案

通过将json.dumps()的ensure_ascii参数设置为False，我们可以保留中文字符的原始形式。修改后的代码逻辑如下：

def compile_to(self, i: Dict, schema, kv_sep) -> str:
    if schema == "json":
        return json.dumps(i, indent=4, ensure_ascii=False)
    elif schema == "markdown":
        return dict_to_markdown(i, kv_sep=kv_sep)
    else:
        return str(i)