Visual-RFT项目中分类模型置信度输出的技术探讨

2025-07-10 09:54:17作者：谭伦延

在Visual-RFT项目中，分类模型的置信度输出是一个值得深入探讨的技术话题。与检测模型不同，标准的分类模型训练流程通常不强制要求输出置信度分数，但这并不意味着无法实现这一功能。

分类模型置信度的实现方式

分类模型本质上已经包含了置信度信息，只是通常只输出最终的分类结果。实际上，在softmax层输出的概率分布就可以视为各类别的置信度分数。要实现置信度输出功能，开发者需要：

修改模型输出层，使其不仅输出预测类别，同时保留各类别的概率值
调整训练数据格式，要求模型在训练时学习输出这些概率信息

奖励函数的调整策略

当分类结果带有置信度信息后，奖励函数(Reward Function)的计算可以更加精细化。传统的准确率奖励(accuracy_reward)仅考虑预测是否正确，而改进后的版本可以考虑：

正确分类且高置信度的样本应获得更高奖励
正确分类但低置信度的样本奖励应适当降低
错误分类但低置信度的样本惩罚可以减轻
错误分类却高置信度的样本应受到更严厉惩罚

这种改进能使模型在学习过程中不仅关注分类准确性，还会主动优化其置信度校准，使预测结果更加可靠。

实际应用中的注意事项

实现这一改进时需要注意：

置信度校准问题：确保模型输出的置信度与实际准确率相符
奖励平衡：避免模型为了追求高置信度而变得过于保守
训练稳定性：引入连续值奖励可能增加训练难度，需要适当调整学习率等参数

通过合理实现分类模型的置信度输出并相应调整奖励机制，可以显著提升Visual-RFT项目中分类任务模型的性能和可靠性。

Visual-RFT

Official repository of 'Visual-RFT: Visual Reinforcement Fine-Tuning' & 'Visual-ARFT: Visual Agentic Reinforcement Fine-Tuning'’

项目地址：https://gitcode.com/gh_mirrors/vi/Visual-RFT

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271