在dora-rs项目中实现Arrow数据类型的通用转换方案

2025-07-04 05:48:57作者：乔或婵

DORA (Dataflow-Oriented Robotic Architecture) is middleware designed to streamline and simplify the creation of AI-based robotic applications. It offers low latency, composable, and distributed dataflow capabilities. Applications are modeled as directed graphs, also referred to as pipelines.

项目地址：https://gitcode.com/GitHub_Trending/do/dora

背景介绍

在数据处理和分析领域，Apache Arrow已经成为一种广泛使用的内存数据格式标准。dora-rs项目作为一个数据处理框架，在处理Arrow格式数据时面临一个常见挑战：需要为每种不同的Arrow数据类型编写重复的转换代码，这不仅增加了开发者的工作量，也降低了代码的可维护性。

问题分析

当前dora-rerun模块中存在大量重复的代码模式，例如处理Float32、Float64、Int32和Int64等不同数值类型时，虽然逻辑结构完全相同，却需要为每种类型单独编写几乎相同的代码块。这种重复不仅增加了代码量，也使得后续维护和扩展变得困难。

解决方案设计

1. 辅助函数抽象

我们可以通过创建一系列辅助函数来抽象出公共的处理逻辑。例如，针对Float32类型可以定义如下处理函数：

fn process_float32(data: &dyn Array, id: &str, rec: &mut Recorder) -> Result<()> {
    let buffer: &Float32Array = data.as_any().downcast_ref().context("series is not float32")?;
    let series: Vec<_> = buffer.values().to_vec();
    for (i, value) in series.iter().enumerate() {
        rec.log(format!("{}_{}", id, i), &rerun::Scalar::new(*value as f64))
            .wrap_err("could not log series")?;
    }
    Ok(())
}

类似地，可以为其他数据类型创建对应的处理函数，保持一致的接口但内部处理特定类型的数据。

2. 过程宏实现自动分发

为了进一步简化使用，我们可以设计一个过程宏来自动生成类型匹配的分发逻辑：

#[proc_macro]
pub fn generate_match_arms(_input: TokenStream) -> TokenStream {
    let arms = vec![
        quote! { DataType::Float32 => process_float32(data, id, rec), },
        quote! { DataType::Float64 => process_float64(data, id, rec), },
        quote! { DataType::Int32 => process_int32(data, id, rec), },
        quote! { DataType::Int64 => process_int64(data, id, rec), },
    ];

    let expanded = quote! {
        match data_type {
            #(#arms)*
            _ => unimplemented!("Unsupported data type"),
        }
    };

    TokenStream::from(expanded)
}