Gorilla项目中函数调用数据集的常见问题分析与修正建议

2025-05-19 18:15:23作者：尤辰城Agatha

Gorilla: Training and Evaluating LLMs for Function Calls (Tool Calls)

项目地址：https://gitcode.com/gh_mirrors/go/gorilla

在大型语言模型应用开发中，高质量的基准数据集对于评估模型性能至关重要。本文针对Gorilla项目函数调用数据集中的若干典型问题进行分析，这些问题主要涉及参数类型规范、函数调用逻辑一致性以及提示词设计等方面。

参数类型规范性问题

在函数调用数据集中，参数类型的规范定义与实际标注存在多处不一致现象。典型案例包括：

数组类型参数处理不当
- 在法院案例查询函数中，case_number参数被定义为字符串数组类型，但标注数据却直接使用了字符串列表形式（如["67813"]而非[["67813"]]）
- 文件监视队列处理函数中，同样存在数组参数未按规范嵌套的问题
字典类型参数误用
- Three.js着色器配置函数中，property参数要求字典类型，但标注数据使用了字符串变量名
- 这种处理方式虽然可以解释为变量引用，但与参数类型定义存在语义偏差

函数调用逻辑缺陷

数据集中的部分样本存在明显的逻辑不一致问题：

数值转换错误
- 在多币种兑换案例中，标注结果错误地将5000 JPY拆分为不同金额进行转换（300 JPY→EUR，2000 JPY→AUD），而非题目要求的全额转换
参数引用错误
- TypeScript声明标志检查函数中，左侧参数名称标注为parameterObjects，与题目描述的parameterObject不符
未指定参数的默认值使用
- 自由落体速度计算函数中，标注数据直接给出了具体参数值（时间5秒、重力9.81等），而题目并未提供这些参数

提示词设计问题

数据集中的提示词设计存在可能误导模型的模式：

多步骤引导式提问
- 大量问题采用"First...Then..."的分步引导结构
- 这种设计可能诱导模型产生多轮函数调用，而非预期的并行调用
模糊的结束标记
- 部分问题以"One at a time?"结尾，给模型执行策略带来歧义

改进建议

基于以上分析，建议从以下方面进行数据集优化：

严格类型校验机制
- 建立自动化校验流程，确保所有标注数据与参数类型定义完全匹配
- 对数组类型参数采用统一的多层嵌套表示法
逻辑一致性检查
- 实现题目与标注结果的交叉验证
- 对数值转换类问题建立输入输出守恒检查
提示词规范化
- 采用扁平化的问题表述方式
- 明确区分单次调用和并行调用的测试场景

这些改进将显著提升数据集的可靠性和评估有效性，为语言模型的函数调用能力提供更准确的测试基准。

Gorilla: Training and Evaluating LLMs for Function Calls (Tool Calls)

项目地址：https://gitcode.com/gh_mirrors/go/gorilla

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架