HELM项目中RAFT评估方法的技术解析

2025-07-03 13:03:24作者：虞亚竹Luna

在自然语言处理领域，评估大型语言模型(LLM)的性能是一个关键环节。斯坦福CRFM团队开发的HELM项目提供了一套全面的评估框架，其中对RAFT基准的评估方法值得深入探讨。

评估数据集构建

HELM项目在RAFT评估中采用了50个公开标注样本的巧妙划分方案。技术团队将这些样本分为两部分：

10个样本作为上下文学习示例(in-context learning examples)
40个样本作为实际评估用例

这种划分比例(1:4)既保证了模型有足够的示范样本学习任务要求，又提供了充足的测试数据来验证模型性能。值得注意的是，评估过程中会进行多轮测试(3次不同试验)，每次使用不同的上下文学习样本组合，以增强结果的可靠性。

数据增强技术

为提高评估的鲁棒性，HELM团队在每次试验中还应用了多种数据增强技术：

方言扰动(dialect perturbations)：模拟不同地区的语言变体
其他文本变换方法

这种多维度测试方法能够更全面地评估模型在实际应用场景中的表现，而非仅仅测试模型在理想数据上的性能。

概率生成方法对比

与原始RAFT论文采用的基于token概率的方法不同，HELM项目采用了更直接的提示工程方法：

原始RAFT方法特点：

使用GPT-3的davinci引擎
获取前100个最可能的下一个token
对类别首token概率进行归一化处理
对B77数据集添加数字前缀解决标签冲突

HELM项目创新方法：

直接生成完整标签名称
通过精心设计的提示模板引导模型输出
结合任务说明和上下文学习示例
更接近实际应用场景的评估方式

提示工程实践

HELM项目中的典型提示结构包含以下要素：

任务描述：明确标注要求和标准
类别定义：详细说明每个标签的含义
示例样本：提供多个标注示范
待标注样本：最后放置需要模型处理的输入

这种结构化的提示设计既保证了评估的规范性，又能充分考察模型的上下文学习能力。从技术角度看，这种方法比单纯依赖token概率更能反映模型在实际应用中的表现。

技术价值与启示

HELM项目的RAFT评估方法体现了几个重要技术理念：

评估应尽可能模拟真实应用场景
数据划分和增强对可靠评估至关重要
提示工程是评估大型语言模型的关键技术
多轮测试可以提高结果的可信度

这些方法论不仅适用于RAFT基准评估，对于其他NLP任务的评估体系设计也具有参考价值。特别是在评估大型语言模型时，如何设计既严格又贴近实际使用的评估方案，HELM项目提供了很好的实践范例。

helm

Holistic Evaluation of Language Models (HELM), a framework to increase the transparency of language models (https://arxiv.org/abs/2211.09110).

项目地址：https://gitcode.com/gh_mirrors/helm2/helm

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

135

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

554

110