GLM-4微调数据格式问题解析与解决方案

2025-06-03 15:41:47作者：翟江哲Frasier

问题背景

在使用GLM-4进行模型微调时，许多开发者遇到了数据读取错误的问题。特别是当使用jsonl格式的训练数据时，系统会报出"JSON parse error: Column() changed from object to string in row 0"的错误提示。这个问题看似简单，但实际上涉及到了数据格式的严格要求和底层解析机制。

数据格式要求

GLM-4微调要求的数据格式遵循OpenAI的标准对话格式，具体结构如下：

{
  "messages": [
    {"role": "user", "content": "用户输入内容"},
    {"role": "assistant", "content": "模型输出内容"}
  ]
}

每个对话样本应该是一个独立的JSON对象，多个样本之间用换行符分隔，这就是所谓的jsonl(JSON Lines)格式。

常见错误原因分析

文件编码问题：jsonl文件必须使用UTF-8编码，其他编码可能导致解析失败。
格式不规范：
- 缺少必要的字段(如messages、role、content)
- 字段类型不正确(如content应该是字符串类型)
- JSON对象之间没有用换行符分隔
特殊字符问题：内容中包含未转义的特殊字符可能导致解析错误。
BOM头问题：某些编辑器会在文件开头添加BOM头，影响解析。

解决方案

验证JSON格式：
- 使用在线JSON验证工具检查每个样本的格式
- 确保每个JSON对象是有效的、完整的
检查文件编码：
- 使用文本编辑器确认文件编码为UTF-8无BOM
- 必要时重新保存文件
规范化数据格式：
- 确保每个样本独占一行
- 检查role字段只能是"user"或"assistant"
- content字段必须是字符串类型

使用Python验证：

import json
with open('train.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        try:
            json.loads(line)
        except json.JSONDecodeError as e:
            print(f"Invalid JSON: {e}")