在Phi-3CookBook项目中使用ONNX/C实现Phi 3.5 Vision多图像处理

2025-06-25 18:52:05作者：伍希望

This is a Phi-3 book for getting started with Phi-3. Phi-3, a family of open AI models developed by Microsoft. Phi-3 models are the most capable and cost-effective small language models (SLMs) available, outperforming models of the same size and next size up across a variety of language, reasoning, coding, and math benchmarks.

项目地址：https://gitcode.com/GitHub_Trending/ph/Phi-3CookBook

背景介绍

Phi 3.5 Vision是微软推出的一个强大的多模态模型，能够同时处理文本和图像输入。在实际应用中，开发者经常需要比较多个图像或视频帧的内容差异。然而，在使用ONNX运行时和C#进行开发时，处理多图像输入存在一些技术挑战。

当前技术限制

通过ONNX运行时在C#环境中使用Phi 3.5 Vision模型时，目前存在一个重要的技术限制：无法像Python/Hugging Face那样直接输入多个图像进行批量处理。这是由于ONNX运行时的当前实现不支持这种多图像输入方式。

解决方案

虽然存在上述限制，但我们仍然可以通过以下方法实现多图像处理：

1. 顺序处理方案

最直接的解决方案是采用顺序处理的方式，逐个加载和处理每张图像。这种方法虽然效率不如批量处理，但能够确保功能实现。

// 示例代码：顺序处理多张图像
using var session = new InferenceSession(modelPath);
string[] imagePaths = { "image1.jpg", "image2.jpg" };

foreach (var imagePath in imagePaths)
{
    var inputTensor = LoadImageAsTensor(imagePath);
    var inputs = new List<NamedOnnxValue>
    {
        NamedOnnxValue.CreateFromTensor("input", inputTensor)
    };

    using var results = session.Run(inputs);
    // 处理结果...
}

2. 图像预处理函数

实现一个高效的图像预处理函数至关重要，它将图像转换为模型可接受的张量格式：

static DenseTensor<float> LoadImageAsTensor(string imagePath)
{
    using var bitmap = new Bitmap(imagePath);
    var tensor = new DenseTensor<float>(new[] { 1, 3, bitmap.Height, bitmap.Width });

    for (int y = 0; y < bitmap.Height; y++)
    {
        for (int x = 0; x < bitmap.Width; x++)
        {
            var color = bitmap.GetPixel(x, y);
            tensor[0, 0, y, x] = color.R / 255.0f;
            tensor[0, 1, y, x] = color.G / 255.0f;
            tensor[0, 2, y, x] = color.B / 255.0f;
        }
    }
    return tensor;
}

多模态输入处理

在实际应用中，我们经常需要同时处理图像和文本输入。以下是实现多模态输入的方法：

var inputs = new List<NamedOnnxValue>
{
    NamedOnnxValue.CreateFromTensor("image_input", imageTensor),
    NamedOnnxValue.CreateFromTensor("text_input", textTensor)
};

文本张量的生成可以采用简单的词向量转换方法，或者根据模型要求实现更复杂的文本编码方式。