lm-evaluation-harness项目中max_new_tokens参数设置的最佳实践

2025-05-26 21:22:57作者：丁柯新Fawn

在lm-evaluation-harness项目中使用语言模型进行文本生成时，合理控制生成token数量是一个常见需求。本文深入探讨了如何正确设置max_new_tokens参数以避免常见错误。

问题背景

当使用语言模型执行只需要少量输出token的任务时（如生成数字），模型有时会过度生成大量无关内容。这不仅影响评估效率，还会导致不必要的计算资源消耗。项目开发者需要一种方法来严格限制生成token数量。

常见错误配置

许多开发者会尝试在generation_kwargs中直接设置max_new_tokens参数，但这会导致以下问题：

使用HuggingFace模型时会产生警告信息，提示max_new_tokens和max_length参数冲突
使用vLLM后端时直接报错，因为vLLM不支持max_new_tokens参数

正确配置方法

经过项目维护者的确认，正确的做法是使用max_gen_toks参数而非max_new_tokens。这个参数是lm-evaluation-harness项目专门设计的，能够跨不同后端（包括HuggingFace和vLLM）一致地工作。

示例配置如下：

generation_kwargs:
  max_gen_toks: 5
  do_sample: false
  temperature: 0.0

技术原理

max_gen_toks参数在项目内部会被统一转换为各个后端支持的参数格式：

对于HuggingFace后端，会转换为max_new_tokens
对于vLLM后端，会转换为max_tokens

这种抽象层设计使得用户无需关心底层实现细节，只需使用统一的接口即可。

最佳实践建议

对于需要严格控制输出长度的任务，优先使用max_gen_toks而非max_new_tokens
结合stop tokens使用可以更精确控制生成内容
对于数字生成等简单任务，建议设置较小的max_gen_toks值（如5-10）
在评估前应测试不同参数配置对模型输出的影响

通过遵循这些最佳实践，开发者可以更高效地使用lm-evaluation-harness项目进行模型评估，避免不必要的计算开销和潜在错误。

lm-evaluation-harness

A framework for few-shot evaluation of autoregressive language models.

项目地址：https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

kernel