EasyEdit项目中的WISE序列编辑结果分析与复现指南

2025-07-03 09:14:27作者：管翌锬

序列编辑评估指标解析

在EasyEdit项目的WISE模块中，序列编辑评估是一个关键环节。评估指标主要分为三类：编辑成功率（rewrite_acc）、局部性（locality）和泛化性（portability）。这些指标共同构成了对模型编辑效果的全面评价体系。

编辑成功率衡量的是模型对目标知识修改的准确程度，理想情况下应接近1.0。局部性指标评估编辑操作是否会影响模型的其他知识，而泛化性则测试编辑后的知识在不同表达方式下的稳定性。

实验结果差异分析

实验发现，单次编辑（T=1）的评估结果与论文报告存在差异。这可能源于以下原因：

评估样本量的不同：论文结果基于约1000条样本的平均值，而个人实验可能使用较少样本
参数回滚机制：论文实验每次编辑后都会回滚模型参数，确保每次编辑的独立性
评估指标的全面性：完整评估应包含多个维度的指标，而不仅仅是rewrite_acc

序列编辑评估实现方法

要实现完整的序列编辑评估，建议采用以下步骤：

数据分片处理：将大规模样本集分成多个小文件（如100个文件，每个含10条样本）
多次独立运行：对每个分片文件单独运行编辑评估脚本
结果汇总分析：计算所有运行结果的平均值，得到最终评估指标

关键指标计算方法

在WISE论文中，主要报告了三个核心指标：

编辑成功率（Metrics Rel.）：对应rewrite_acc的平均值
局部性指标（Loc.）：基于特定设计的评估方法，不同于常规locality指标
泛化性指标（Gen.）：对应rephrase_acc的平均值

需要注意的是，portability指标在WISE论文中并未报告，这是评估体系中的一个独立维度。

实践建议与注意事项

对于ZSRE数据集，建议使用专门的WISE编辑脚本而非通用知识编辑脚本
Counterfact数据集因其特性可能不适合序列编辑评估
评估时应确保包含所有相关指标，特别是fluency等易被忽略的维度
结果解读需考虑实验设置差异，特别是样本量和参数回滚机制的影响

通过系统性地遵循上述方法和注意事项，研究人员可以更准确地复现和验证WISE的序列编辑结果，为知识编辑领域的研究提供可靠的基础。

EasyEdit

An Easy-to-use Knowledge Editing Framework for LLMs.

项目地址：https://gitcode.com/gh_mirrors/ea/EasyEdit

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

208

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。