Gorilla项目中Java/JavaScript测试用例指令优化分析

2025-05-19 04:56:52作者：裘晴惠Vivianne

在Gorilla项目的Berkeley函数调用排行榜(BFCL)数据集测试过程中，我们发现Java和JavaScript测试用例的指令设计存在一个关键问题：指令表述方式影响了函数调用模型的输出效果。

问题本质

当前测试用例中的用户提示(prompt)多采用"如何初始化"(How can I initialize)这类询问式表述，这导致函数调用模型倾向于生成解释性内容而非直接构造函数调用。这种表述方式与函数调用任务的核心目标存在偏差。

典型案例分析

以GIS几何呈现初始化场景为例：

原始提示询问"如何在用户界面中初始化GIS几何呈现"
模型响应生成的是包含代码示例的解释性文本
期望行为是直接输出函数调用语句

这种差异源于自然语言处理模型对指令意图的解读方式。询问式提示会被理解为请求说明，而指令式提示则被理解为请求执行。

技术解决方案

我们建议对所有测试用例提示进行标准化改造：

将询问式表述改为指令式表述
使用"帮助我"(Help me)等明确动词开头
保持参数描述的精确性不变

改造示例：

原句："如何初始化GIS几何呈现..."
改句："帮助我初始化GIS几何呈现..."

实现价值

这种优化将带来三方面提升：

提高模型输出的准确性
增强测试用例的针对性
改善排行榜评估的公平性

工程实践建议

在实际应用中，开发者应注意：

设计提示时明确区分"解释请求"和"执行请求"
对于函数调用任务，优先使用指令式表述
在测试集中保持表述风格的一致性

这种优化不仅适用于Gorilla项目，对于所有基于提示工程的函数调用系统都具有参考价值。通过精细化的提示设计，可以显著提升模型在特定任务上的表现。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781