Gorilla项目中的BFCL数据集格式问题分析与解决方案

2025-05-19 07:13:14作者：董灵辛Dennis

在开源项目Gorilla的Berkeley Function Call Leaderboard（BFCL）数据集中，研究人员发现了一些关于并行多任务测试用例的格式问题。这些问题主要涉及字符串类型处理、函数命名规范和多语言支持等方面，这些问题可能会影响模型评估的准确性和公平性。

首先，关于字符串参数的处理方式。数据集中的某些测试用例错误地将字符串类型参数视为字符串数组。实际上，当参数类型为字符串时，可能的答案应该是一个字符串列表，而模型响应应该是该列表中的一个条目。这种混淆可能导致正确的模型响应被错误地判定为失败。

其次，在函数命名规范方面，数据集对字符串值中的标点符号进行了特殊处理。为了增强评估的鲁棒性和准确性，系统会自动移除包括逗号、句点、斜杠、连字符、下划线、星号和脱字符等在内的一组标点符号。这种处理方式使得像"x**2"和"x^2"这样的表达式被视为等效，两者都可以作为标准答案。然而，这也可能导致原始lambda函数名称被错误地拒绝。

最后，在多语言支持方面，当用户输入非英语内容（如中文位置信息）时，数据集目前只接受翻译后的英文版本作为标准答案。这种做法显然不够完善，应该同时包含原始语言版本和翻译版本作为可能的答案选项，以确保不同语言输入的公平评估。

针对这些问题，项目团队已经制定了相应的改进计划。对于字符串参数的处理将进行规范化调整，确保类型判断的准确性；函数命名规范将保持现有的标点符号处理逻辑，但会优化对原始函数名的兼容性；多语言支持方面将增加原始语言版本作为有效答案选项。这些改进将显著提升数据集的质量和评估的公平性，为函数调用模型的研发提供更可靠的基准测试环境。

登录后查看全文