探索透明化的模型解释:OpenXAI——你的AI可解释性评估利器
OpenXAI 是首个轻量级的通用库,专注于系统性地评估基于特征解释方法的模型解释质量。这个开源项目支持新数据集(合成与现实世界)和解释方法的开发,强调在可复现、透明的评价中推动AI可解释性研究的进步。
OpenXAI 提供了丰富多样的高风险数据集、模型以及评估指标,并通过简单易用的API接口,使研究人员和实践者只需几行代码即可进行解释方法的基准测试和比较。
更新动态
OpenXAI 独特特性
- 跨领域的XAI研究: 包含7种最先进的特征归因方法以及22个量化性能的指标。此外,提供了灵活的合成数据生成器,可以生成各种规模、复杂度和维度的数据集,以构造地面真实解释。
- 数据功能: 提供广泛的数据函数,包括数据评估器、有意义的数据分割、解释方法和评价指标。
- 排行榜: 提供第一个公共的AI解释排行榜,促进透明度,让用户轻松比较多个解释方法的表现。
- 开源倡议: 开源项目,易于扩展。
安装
使用 pip 可以轻松安装 OpenXAI 到本地环境:
pip install -e .
OpenXAI 设计理念
OpenXAI 是一个开放源代码生态系统,包括为XAI准备的数据集、状态-of-the-art的解释方法实现、评价指标、排行榜和文档,旨在推动解释方法的透明和比较。它能够用来基准测试新的解释方法,并将其整合到框架和排行榜中。通过系统化且高效地评估现有和新的解释方法,OpenXAI 能够指导并加速AI可解释性领域的研究进展。
OpenXAI 数据加载器
OpenXAI 提供 DataLoader 类,用于加载内置或自定义的数据集,确保它们对XAI就绪。具体来说,该类接受现有的OpenXAI数据集名称或.csv文件名作为输入,输出可供训练模型的训练集,生成模型局部解释的测试集,以及如果有的话,地面真实解释。如果数据集已经预设了训练和测试切分,它将从这些切分加载。否则,它会随机将整个数据集分为70%的训练集和30%的测试集。用户还可以自定义训练/测试拆分的比例。
以下示例说明如何导入 DataLoader 类并加载现有的OpenXAI数据集:
from openxai.dataloader import return_loaders
loader_train, loader_test = return_loaders(data_name='german', download=True)
# 获取测试数据集中一个输入实例
inputs, labels = iter(loader_test).next()
OpenXAI 预训练模型
我们还预训练了两类预测模型(例如,不同复杂程度的深度神经网络和逻辑回归模型),并将它们集成到OpenXAI框架内,以便用于基准测试解释方法。以下代码片段展示了如何使用我们的 LoadModel 类加载OpenXAI的预训练模型:
from openxai import LoadModel
model = LoadModel(data_name= 'german', ml_model='ann', pretrained=True)
向OpenXAI框架添加更多预训练模型很简单,只需上传关于模型架构和参数详细信息的特定模板文件。用户也可以填写简单的表单,提供有关模型架构和参数的详细信息,请求将自定义预训练模型集成到OpenXAI框架中。
OpenXAI 解释器
所有包含在OpenXAI中的解释方法都可通过 Explainer 类直接访问,用户只需要指定方法名称,就可以调用相应的方法生成解释。用户可以通过扩展 Explainer 类并在 get_explanations 函数中包含他们的方法代码,轻松将自己的自定义解释方法集成到OpenXAI框架中。
from openxai import Explainer
exp_method = Explainer(method= 'lime',model=model, dataset_tensor=inputs)
explanations= exp_method.get_explanation(inputs, labels)
用户可以通过填写表格,提供他们方法的GitHub链接和方法概述,请求将自定义方法纳入OpenXAI库。
OpenXAI 评估
使用评估指标进行基准测试非常简单。以下代码片段描述了如何调用RIS指标。用户可以通过填写表格,提供其指标的GitHub链接和指标概述,轻松将自定义评估指标纳入OpenXAI。请注意,代码应以接受数据实例、相应模型预测、它们的解释、OpenXAI的模型对象作为输入并返回数值分数的函数形式提供。
from openxai import Evaluator
metric_evaluator = Evaluator(input_dict, inputs, labels, model, exp_method)
score = metric_evaluator.evaluate(metric='RIS')
OpenXAI 指标
OpenXAI 包括用于计算地面真实解释(即逻辑回归模型系数)与由先进方法生成的解释一致性的多种指标,如:
- 功能一致性(FA)
- 排序一致性(RA)
- 符号一致性(SA)
- 签名排序一致性(SRA)
- 排序相关性(RC)
- 对比排序一致性(PRA)
还有用于衡量预测一致性、稳定性和公平性的其他指标。
OpenXAI 排行榜
每个解释方法在OpenXAI中都是一个基准,我们提供了详细的排行榜,展示每个指标上的性能比较。
OpenXAI 以其全面的功能和易用性,正在引领AI可解释性的新篇章。无论你是研究人员还是实践者,OpenXAI都能成为你在探索模型解释领域的重要工具。立即加入,一起迈向更透明的AI未来!
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00