Serde JSON 枚举反序列化问题解析与解决方案

2025-06-08 08:51:02作者：袁立春Spencer

问题背景

在使用 Rust 的 serde_json 库进行 JSON 反序列化时，开发者经常会遇到需要处理多种可能数据类型的场景。一个典型情况是某个字段可能接受字符串或字符串数组两种形式。本文将通过一个实际案例，分析这类问题的原因及解决方案。

问题复现

考虑以下 Rust 数据结构定义：

use serde::{Deserialize, Serialize};

#[derive(Clone, Debug, Deserialize, Serialize)]
pub enum StringOrStringArray {
    String(String),
    StringArray(Vec<String>),
}

#[derive(Clone, Debug, Deserialize, Serialize)]
pub struct ContainerType {
    foo: u64,
    bar: StringOrStringArray
}

当 JSON 数据中的 bar 字段为字符串时，反序列化工作正常。但当 bar 是数组时，会出现错误："invalid type: sequence, expected string or map"。

原因分析

这个问题的根源在于 serde 默认的枚举反序列化行为。默认情况下，serde 期望枚举值以特定的方式表示：

对于单元变体（不带数据的变体），期望是字符串
对于新类型变体（如 String(String)），期望是字符串或包含单个键值对的对象
对于结构体变体，期望是对象

这种默认行为不适用于我们需要直接区分基础类型（如字符串和数组）的场景。

解决方案

通过添加 #[serde(untagged)] 属性，可以改变枚举的反序列化行为：

#[derive(Clone, Debug, Deserialize, Serialize)]
#[serde(untagged)]
pub enum StringOrStringArray {
    String(String),
    StringArray(Vec<String>),
}

untagged 属性告诉 serde 不要使用额外的标签来区分枚举变体，而是直接尝试按顺序匹配每个变体的类型。当遇到字符串时，会匹配 String 变体；当遇到数组时，会匹配 StringArray 变体。

深入理解 untagged 枚举

untagged 枚举是处理多态 JSON 字段的强大工具。它的工作原理是：

反序列化时，按声明顺序尝试每个变体
使用第一个成功反序列化的变体
如果所有变体都失败，则返回错误

这种机制使得我们可以优雅地处理 JSON 中的类型多态性，而无需在 JSON 中添加额外的类型标识字段。

实际应用建议

在实际开发中，使用 untagged 枚举时需要注意：

变体顺序很重要 - 应该将最具体的类型放在前面
变体类型应该有足够的区分度，避免模糊匹配
考虑添加 #[serde(deny_unknown_fields)] 来捕获意外的输入
对于复杂的多态场景，可能需要结合使用 #[serde(tag = "type")] 等其他属性

性能考量

虽然 untagged 枚举提供了灵活性，但它会按顺序尝试每个变体，这在变体数量多或反序列化操作频繁时可能影响性能。对于性能敏感的场景，可以考虑：

尽量减少变体数量
将最常出现的变体放在前面
在可能的情况下，重构 JSON 结构使其更一致

总结

通过使用 #[serde(untagged)] 属性，我们可以优雅地处理 JSON 字段的多态性。这种技术不仅适用于字符串和数组的区分，还可以应用于更广泛的类型多态场景。理解 serde 的各种属性及其行为，能够帮助开发者更高效地处理复杂的序列化和反序列化需求。

json

Strongly typed JSON library for Rust

项目地址：https://gitcode.com/gh_mirrors/jso/json

登录后查看全文