Tract项目处理Keras多模态模型中的Concat层问题分析

2025-07-01 00:04:59作者：魏献源Searcher

问题背景

在使用Tract项目处理Keras模型转换时，当模型包含多模态输入和Concat层时，可能会遇到维度统一性问题。本文以一个实际案例为基础，分析问题原因并提供解决方案。

问题现象

用户尝试将一个包含CNN分支和MLP分支的多模态Keras模型转换为ONNX格式，并在Tract中加载优化。模型结构包含：

一个处理图像数据的CNN分支（输入形状为[?,63,63,3]）
一个处理元数据的MLP分支（输入形状为[?,25]）
两个分支在Flatten后通过Concat层合并

虽然ONNX模型检查通过且能在ONNX Runtime中正常运行，但在Tract中执行into_optimized()时会报错，提示无法统一两个不同的符号维度（Sym(unk__64)和Sym(unk__65)）。

技术分析

Tract的严格维度检查机制

Tract采用了比大多数训练框架更严格的维度检查机制。它使用"符号"和符号表达式来描述张量维度中的未知部分，并要求这些符号在整个模型中保持逻辑一致性。

在用户案例中，ONNX模型为两个输入定义了不同的动态维度参数：

元数据输入：dim_param为"unk__64"
图像输入：dim_param为"unk__65"

虽然这些维度在实际运行时可能相同（如batch size），但Tract要求显式声明这种关系。

多模态模型的特殊挑战

多模态模型的输入通常具有：

不同的数据类型和形状
共享的batch维度
在模型内部某处合并（如Concat层）

Tract需要明确知道这些共享维度的关系才能正确优化模型。

解决方案

显式指定输入维度关系

可以通过以下方式使Tract正确处理模型：

let model = tract_onnx::onnx().model_for_path("acai_h.onnx").unwrap();
let b = model.sym("b"); // 定义共享的batch符号
let model = model
    .with_input_fact(0, f32::fact(&[b.to_dim(), 25.to_dim()]).into())
    .unwrap()
    .with_input_fact(
        1,
        f32::fact(&[b.to_dim(), 63.to_dim(), 63.to_dim(), 3.to_dim()]).into(),
    )
    .unwrap()
    .with_output_fact(0, Default::default())
    .unwrap()
    .into_optimized()
    .unwrap();