EmbedChain项目中JSON解析异常问题分析与解决方案

2025-05-06 18:06:03作者：傅爽业Veleda

问题背景

在EmbedChain项目开发过程中，当使用Qwen模型（阿里巴巴云提供的AI模型）处理记忆更新功能时，发现了一个JSON解析异常问题。核心错误表现为json.decoder.JSONDecodeError，具体发生在尝试解析AI模型返回的JSON内容时。

问题分析

深入分析后发现，问题的根源在于AI模型的输出格式与预期不符。虽然开发者明确指定了响应格式为JSON对象（response_format={"type": "json_object"}），但Qwen模型返回的内容却采用了Markdown代码块的形式：

{
    "memory": [
        {
            "id": "(UUID)",
            "text": "I'm visiting Paris",
            "event": "ADD"
        }
    ]
}

这种格式虽然对人类阅读友好，但直接使用Python标准库的json.loads()函数解析时会失败，因为该函数期望接收纯JSON字符串，而不是包含Markdown标记的内容。

影响范围

该问题主要影响两个关键功能点：

记忆更新功能中解析新记忆数据的部分
记忆检索功能中处理返回结果的环节

解决方案

针对这一问题，社区贡献者提出了一个稳健的解决方案，通过正则表达式预处理AI返回的内容：

import re

search_result = re.search("(```json)((.*\n)+)(```)", new_memories_with_actions)
if search_result:
    new_memories_with_actions = search_result.group(2).strip()

这个解决方案的核心思路是：

使用正则表达式匹配Markdown代码块模式
提取代码块中的纯JSON内容
去除前后空白字符
最后再进行JSON解析

技术要点

正则表达式设计：模式(```json)((.*\n)+)(```)能够准确匹配以json开头和结尾的代码块
容错处理：即使AI返回纯JSON（没有代码块标记），也不会影响正常解析流程
字符串处理：使用strip()确保去除可能的空白字符干扰

最佳实践建议

模型适配：当使用非OpenAI官方模型时，应特别注意输出格式的差异
输入输出验证：在处理AI模型返回内容时，增加格式验证层
日志记录：记录原始响应内容，便于调试类似问题
单元测试：针对不同格式的响应编写测试用例

总结

这个问题的解决展示了在AI集成开发中处理不同模型输出差异的重要性。通过增加预处理层，我们既保持了与现有代码的兼容性，又增强了对不同AI模型输出的适应性。这种解决方案不仅适用于EmbedChain项目，也可以为其他需要处理AI生成JSON内容的项目提供参考。

embedchain

Universal memory layer for AI Agents

项目地址：https://gitcode.com/GitHub_Trending/em/embedchain

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

439

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。