Visual-RFT项目在Flower102数据集上的复现经验与技术分析

2025-07-10 06:48:03作者：虞亚竹Luna

Official repository of ’Visual-RFT: Visual Reinforcement Fine-Tuning’

项目地址：https://gitcode.com/gh_mirrors/vi/Visual-RFT

背景介绍

Visual-RFT是一个基于视觉语言模型的强化学习框架，旨在通过少量样本(few-shot)学习提升模型在视觉分类任务中的表现。该项目采用了Qwen2-VL-2B-Instruct等大型视觉语言模型作为基础，通过GRPO(Group Relative Policy Optimization)算法进行微调。

复现过程中的关键发现

初始复现结果差异

在Flower102数据集(包含102类花卉)的4-shot设置下，初始复现结果(准确率8.93%)与论文报告结果存在显著差距。经过排查发现，问题主要出在提示词(prompt)设计上。

提示词优化方案

原始提示词可能未能有效引导模型输出结构化结果。改进后的提示词明确要求模型：

在标签中输出推理过程
在标签中输出最终答案
严格遵循指定格式

优化后的提示词显著提升了模型表现，准确率达到69.27%，与预期结果相符。

技术实现要点

训练配置

项目采用分布式训练框架，关键参数包括：

基础模型：Qwen2-VL-2B-Instruct
批处理大小：1(per device)
梯度累积步数：2
训练轮次：8
优化算法：GRPO
硬件加速：BF16混合精度训练

数据处理

使用4-shot学习设置
最大像素数限制为401408
每轮生成8个样本增强数据多样性

经验总结

提示工程的重要性：在视觉语言模型中，提示词设计对模型表现有决定性影响，需要明确输出格式要求。
分布式训练技巧：项目采用torchrun进行多节点分布式训练，需要注意主节点地址和端口配置。
调试建议：开启DEBUG_MODE可以观察模型在强化学习过程中的rollout情况，有助于问题诊断。
性能优化：使用flash_attention_2实现注意力机制，能显著提升训练效率。

应用价值

该技术方案特别适合小样本视觉分类场景，如：

植物种类识别
医学影像分析
工业质检等专业领域

通过合理的提示工程和强化学习微调，可以在保持预训练模型通用能力的同时，显著提升其在特定领域的表现。

后续研究方向

探索更多样化的提示词模板对模型性能的影响
研究不同few-shot设置下的表现变化规律
优化GRPO算法在视觉任务中的超参数配置

Official repository of ’Visual-RFT: Visual Reinforcement Fine-Tuning’

项目地址：https://gitcode.com/gh_mirrors/vi/Visual-RFT

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system