MTEB项目中的可选依赖优化方案

2025-07-01 11:26:55作者：柏廷章Berta

背景介绍

MTEB（Massive Text Embedding Benchmark）是一个用于评估文本嵌入模型性能的基准测试框架。随着项目的发展，特别是将MIEB（多模态嵌入基准）合并到主分支后，项目的依赖项数量显著增加。这给用户带来了不必要的安装负担，特别是对于那些不需要使用全部功能的用户。

依赖项分析

当前MTEB项目的主要依赖项包括：

核心必需依赖：
- datasets（>=2.19.0,<3.0.0）
- numpy（>=1.0.0,<3.0.0）
- scikit-learn（>=1.0.2）
- scipy（用于STS和摘要任务中的pearsonr、spearmanr计算）
- torch（>1.0.0）
- tqdm（>1.0.0）
- pytrec-eval-terrier（>=0.5.6）
- pydantic（>=2.0.0）
- typing_extensions（用于Pydantic的TypedDict验证）
潜在可选依赖：
- torchvision（MIEB所需）
- sentence_transformers（>=3.0.0）
- requests（>=2.26.0）
- rich（可通过#1046移除）
其他依赖：
- polars（>=0.20.22）
- eval_type_backport（具体用途待确认）

优化方案

针对上述依赖分析，项目团队提出了以下优化方案：

MIEB相关依赖作为可选安装：
- 创建mteb[mieb]可选安装组，包含torchvision和其他MIEB模型相关依赖
- torchvision版本与torch对齐，建议设置为">0.2.1"
其他可选依赖处理：
- 保留sentence_transformers为必需依赖，因其改动涉及大量代码重构
- requests可考虑设为可选，因其主要用于模型部分
- rich依赖可通过#1046完全移除
未来优化方向：
- 持续评估各依赖项的必要性
- 考虑为不同功能模块创建更多可选安装组
- 监控依赖版本兼容性问题

技术实现细节

在技术实现上，Python项目可以通过setup.py或pyproject.toml中的extras_require来定义可选依赖组。例如：

extras_require = {
    'mieb': ["torchvision>0.2.1", ...],
    # 可添加更多可选组
}

用户可以通过以下方式安装带有可选功能的包：

pip install mteb[mieb]

总结

通过将非核心功能相关的依赖项设为可选，MTEB项目能够：

减少基础安装的依赖项数量
降低用户安装负担
提高项目的灵活性
保持核心功能的稳定性

这种优化方式在大型Python项目中是常见的最佳实践，特别是当项目功能模块不断增加时。它不仅改善了用户体验，也使得项目维护更加清晰和模块化。

mteb

MTEB: Massive Text Embedding Benchmark

项目地址：https://gitcode.com/gh_mirrors/mt/mteb

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781