MidScene项目中使用阿里云通义千问VL模型的技术实践

2025-05-27 15:29:52作者：江焘钦

Let AI be your browser operator.

项目地址：https://gitcode.com/GitHub_Trending/mid/midscene

问题背景

在使用MidScene项目的yaml-scripts-demo示例时，开发者遇到了模型服务配置问题。虽然已经设置了OPENAI_API_KEY环境变量，但系统仍然报错提示找不到AI模型服务配置。经过排查发现，当尝试使用阿里云的通义千问VL模型(Qwen-2.5-VL增强版本qwen-vl-max-latest)时，系统错误地尝试连接OpenAI的API服务。

错误分析

控制台显示的错误信息表明系统正在尝试访问OpenAI的API服务，而不是预期的阿里云服务。这导致了403错误，提示"Country, region, or territory not supported"，表明请求被OpenAI服务拒绝。

解决方案

要正确配置MidScene项目使用阿里云通义千问VL模型，需要设置以下环境变量：

MIDSCENE_MODEL_NAME="qwen-vl-max-latest" - 指定使用的模型名称
MIDSCENE_USE_QWEN_VL=1 - 显式启用通义千问VL模型支持
OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" - 将API端点指向阿里云服务

技术原理

MidScene项目在设计时采用了模块化的模型服务架构，支持多种AI模型提供商。当使用非OpenAI的模型服务时，需要明确指定：

模型类型：通过MIDSCENE_USE_QWEN_VL标志启用特定模型支持
服务端点：覆盖默认的OpenAI API地址
模型版本：指定具体的模型名称

这种设计提供了灵活性，但同时也要求开发者正确配置相关参数才能使用非默认的模型服务。

最佳实践

对于使用MidScene项目的开发者，建议：

仔细阅读模型选择文档，了解支持的不同模型选项
使用环境变量管理敏感信息和配置
在切换模型提供商时，检查所有相关配置项
遇到问题时，首先验证环境变量是否被正确加载

总结

MidScene项目支持多种AI模型服务，但需要正确的配置才能发挥其多模型支持的优势。通过合理设置环境变量，开发者可以灵活选择最适合项目需求的AI模型服务，包括阿里云的通义千问VL模型等国内优质AI服务。

Let AI be your browser operator.

项目地址：https://gitcode.com/GitHub_Trending/mid/midscene

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。