MTEB项目1.38.30版本发布:修复SNL数据集问题并新增多语言嵌入模型
MTEB(Massive Text Embedding Benchmark)是一个用于评估大规模文本嵌入模型的基准测试框架。该项目旨在为研究人员和开发者提供一个标准化的评估平台,帮助他们比较不同文本嵌入模型在各种自然语言处理任务中的性能表现。通过MTEB,用户可以全面了解模型在检索、分类、聚类等不同场景下的表现。
本次发布的1.38.30版本主要包含两个重要更新:修复了SNL数据集不可用的问题,并新增了三个多语言嵌入模型。
SNL数据集修复
在本次更新中,开发团队重新上传了之前不可用的SNL数据集,解决了issue #2477中报告的问题。SNL数据集是MTEB基准测试中的重要组成部分,用于评估模型在特定领域的表现。此前由于某些技术原因,这些数据集暂时无法访问,影响了部分测试的进行。
开发团队不仅修复了数据集的可用性问题,还对相关测试代码进行了清理,移除了之前为临时解决问题而添加的异常处理代码。这一修复确保了基准测试的完整性和可靠性,使研究人员能够继续使用这些数据集进行模型评估。
新增多语言嵌入模型
本次更新引入了三个来自HIT-TMG的KaLM-embedding多语言模型:
- KaLM-embedding-multilingual-mini-instruct-v1
- KaLM_embedding_multilingual_mini_instruct_v1_5
这些模型的特点是支持指令式嵌入(instruct embedding),即可以根据不同的指令提示生成有针对性的嵌入表示。开发团队为这些模型实现了专门的指令包装器(InstructSentenceTransformerWrapper),支持通过提示字典(prompts_dict)来指定不同的指令格式。
在实现过程中,团队特别关注了指令格式的标准化问题,确保不同模型和任务之间指令格式的一致性。这对于保证评估结果的公平性和可比性至关重要。
其他改进
除了上述主要更新外,本次发布还包括以下改进:
- 更新了任务和基准测试表格,确保文档与代码实现保持同步
- 为GitHub issue模板添加了更详细的描述,帮助用户更清晰地报告问题
- 修复了一些代码格式问题,提高了代码的可读性和可维护性
技术意义
MTEB 1.38.30版本的发布对于文本嵌入领域的研究具有重要意义:
- 数据集完整性的恢复确保了基准测试的全面性和可靠性
- 新增的多语言指令式嵌入模型扩展了评估范围,反映了当前嵌入模型发展的最新趋势
- 指令格式的标准化工作为未来更多指令式嵌入模型的评估奠定了基础
这些改进使MTEB能够更好地服务于文本嵌入领域的研究人员和开发者,帮助他们开发出更强大、更通用的文本表示模型。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0153- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112