SimCSE项目中BERT模型STS任务复现问题解析

2025-06-20 08:08:48作者：平淮齐Percy

问题背景

在自然语言处理领域，SimCSE项目因其简单而有效的句子嵌入方法而广受关注。近期有开发者在尝试复现SimCSE论文中BERT-base-uncased模型在STS(Semantic Textual Similarity)任务上的基准结果时，发现实际测试结果与论文报告存在显著差异。

现象描述

开发者使用avg_first_last池化策略测试bert-base-uncased模型时，获得的STS平均得分为60.73，明显高于论文报告的56.70。这一差异引起了复现者的困惑，因为其他设置(如SimCSE监督模型)能够正常复现论文结果。

技术分析

经过深入排查，发现问题根源在于代码库中first-last平均池化策略的实现逻辑变更。具体来说：

原始实现使用的是静态词嵌入层(第一层)和最后一层的简单平均
当前代码库变更为使用第一层上下文嵌入和最后一层嵌入的平均

这一看似微小的实现差异实际上对模型性能产生了显著影响。上下文嵌入相比静态词嵌入能够捕捉更多语义信息，因此提升了模型在STS任务上的表现。

解决方案

对于需要严格复现论文结果的场景，建议：

回滚到使用静态词嵌入层的实现方式
在评估预训练BERT/RoBERTa等使用first-last平均池化的模型时，注意这一实现差异

实践建议

在对比不同模型或方法时，确保评估设置完全一致
关注代码库更新日志，特别是涉及核心算法变更的部分
对于关键实验，建议记录具体的代码版本和实现细节

总结

这一案例展示了深度学习研究中实现细节对结果可复现性的重要影响。SimCSE团队已更新项目文档说明这一差异，为后续研究者提供了重要参考。这也提醒我们，在复现论文结果时，不仅要关注模型架构和超参数，还需要注意各种实现细节可能带来的影响。

SimCSE

[EMNLP 2021] SimCSE: Simple Contrastive Learning of Sentence Embeddings https://arxiv.org/abs/2104.08821

项目地址：https://gitcode.com/gh_mirrors/si/SimCSE

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。