Gorilla项目评测指标更新：无关性检测指标解析

2025-05-19 17:42:05作者：丁柯新Fawn

在最新更新的Gorilla项目评测指标体系中，开发者需要注意一个重要变化：无关性检测(Irrelevance Detection)指标的计算方式。这个指标是评估AI模型在处理无关查询时表现的关键参数。

Gorilla项目采用了两类测试集来评估模型的无关性检测能力：

静态测试集(irrelevance_non_live)：包含预先设计好的无关查询样本
动态测试集(irrelevance_live)：模拟真实场景中的动态无关查询

最终的无关性检测得分是这两个测试集准确率的简单平均值。这种设计既考虑了模型在受控环境下的表现，也评估了其在真实场景中的适应能力。

从技术实现角度看，Gorilla的评测框架会分别执行两类测试：

对于静态测试集，模型需要处理预设的无关查询
对于动态测试集，模型需要识别实时生成的无关查询

评测结果显示，当前模型的无关性检测能力普遍在50-70%的准确率范围内，这表明识别无关查询仍然是AI模型面临的技术挑战之一。相比之下，模型在相关查询处理上的表现通常能达到90%以上的准确率。

开发者在使用Gorilla CLI工具进行本地测试时，会看到两个独立的无关性检测分数输出，这有助于针对性地优化模型在不同场景下的表现。项目团队建议开发者同时关注这两个指标，以获得对模型能力的全面评估。

值得注意的是，Gorilla项目团队近期移除了"Multi Turn Composite"这一综合评估指标，这使得无关性检测指标在模型整体评估中的权重发生了变化。开发者需要相应调整模型优化的侧重点。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

140

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

555

111

Gorilla项目评测指标更新：无关性检测指标解析

相关内容推荐

项目优选