Keras 3中的相似性损失函数：CircleLoss的实现与思考

2025-04-30 07:15:11作者：裘晴惠Vivianne

Keras 3 是一个深度学习框架，支持 JAX、TensorFlow 和 PyTorch 多后端。轻松构建和训练图像识别、自然语言处理、音频处理等模型。加速开发流程，利用易于调试的运行时环境。实现最先进的性能，某些情况下比其他框架快 20% 至 350%。兼容从笔记本到大规模 GPU 或 TPU 集群的训练。已有近三百万开发者，包括初创企业和全球企业，信赖并使用 Keras 3。通过 `pip install keras` 即可安装，选择所需后端，开始您的高效深度学习之旅！

项目地址：https://gitcode.com/gh_mirrors/ker/keras

在深度学习领域，相似性学习（Similarity Learning）是一个重要的研究方向，它专注于学习如何度量数据样本之间的相似性。最近，Keras社区中关于在Keras 3中实现相似性损失函数的讨论引起了广泛关注，特别是关于CircleLoss的实现方案。

相似性损失函数与传统分类损失函数不同，它直接优化样本在嵌入空间中的距离关系。这类损失函数通常用于人脸识别、图像检索、推荐系统等需要度量相似度的任务。CircleLoss作为一种较新的相似性损失函数，通过自适应调整梯度，能够更有效地优化正负样本对。

在Keras 3中实现CircleLoss时，开发者提出了三种不同的技术方案：

第一种方案是直接继承Keras现有的LossFunctionWrapper。这是最直接的方式，损失函数只接收y_true和y_pred两个参数，计算局限在单个批次内。这种方式实现简单，适合大多数标准训练场景，但无法支持跨批次的正负样本挖掘。

第二种方案是引入新的MetricLossFunctionWrapper。这种设计参考了TensorFlow Similarity库中的实现，允许损失函数接收四个参数（查询嵌入、查询标签、键嵌入、键标签）。当后两个参数未提供时，默认使用前两个参数。这种方式既保持了与标准训练配置的兼容性，又为高级训练设置提供了灵活性。

第三种方案是修改损失函数本身，使其能够接收四个参数。这种方法与第二种方案类似，但不需要额外的Wrapper类。函数内部通过判断参数是否为None来自动处理标准训练和跨批次训练两种情况。

从工程实现的角度来看，第一种方案最为简单直接，适合作为Keras核心功能的初始实现。而第二和第三种方案则提供了更大的灵活性，特别是对于需要跨批次训练的高级应用场景。开发者最终选择了第一种方案作为初始实现，这既保证了功能的稳定性，也为未来的扩展留下了空间。

相似性损失函数的加入将大大增强Keras在度量学习任务中的能力。对于研究人员和工程师来说，这意味着可以在Keras框架下更方便地实现各种基于相似性的学习算法，而无需依赖额外的库。这也体现了Keras作为深度学习框架的持续演进和扩展能力。

随着CircleLoss的实现，未来可能会有更多类型的相似性损失函数被引入Keras生态系统，进一步丰富其在各种机器学习任务中的应用场景。

keras

项目地址：https://gitcode.com/gh_mirrors/ker/keras

登录后查看全文