探索透明化的模型解释:OpenXAI——你的AI可解释性评估利器
OpenXAI 是首个轻量级的通用库,专注于系统性地评估基于特征解释方法的模型解释质量。这个开源项目支持新数据集(合成与现实世界)和解释方法的开发,强调在可复现、透明的评价中推动AI可解释性研究的进步。
OpenXAI 提供了丰富多样的高风险数据集、模型以及评估指标,并通过简单易用的API接口,使研究人员和实践者只需几行代码即可进行解释方法的基准测试和比较。
更新动态
OpenXAI 独特特性
- 跨领域的XAI研究: 包含7种最先进的特征归因方法以及22个量化性能的指标。此外,提供了灵活的合成数据生成器,可以生成各种规模、复杂度和维度的数据集,以构造地面真实解释。
- 数据功能: 提供广泛的数据函数,包括数据评估器、有意义的数据分割、解释方法和评价指标。
- 排行榜: 提供第一个公共的AI解释排行榜,促进透明度,让用户轻松比较多个解释方法的表现。
- 开源倡议: 开源项目,易于扩展。
安装
使用 pip 可以轻松安装 OpenXAI 到本地环境:
pip install -e .
OpenXAI 设计理念
OpenXAI 是一个开放源代码生态系统,包括为XAI准备的数据集、状态-of-the-art的解释方法实现、评价指标、排行榜和文档,旨在推动解释方法的透明和比较。它能够用来基准测试新的解释方法,并将其整合到框架和排行榜中。通过系统化且高效地评估现有和新的解释方法,OpenXAI 能够指导并加速AI可解释性领域的研究进展。
OpenXAI 数据加载器
OpenXAI 提供 DataLoader 类,用于加载内置或自定义的数据集,确保它们对XAI就绪。具体来说,该类接受现有的OpenXAI数据集名称或.csv文件名作为输入,输出可供训练模型的训练集,生成模型局部解释的测试集,以及如果有的话,地面真实解释。如果数据集已经预设了训练和测试切分,它将从这些切分加载。否则,它会随机将整个数据集分为70%的训练集和30%的测试集。用户还可以自定义训练/测试拆分的比例。
以下示例说明如何导入 DataLoader 类并加载现有的OpenXAI数据集:
from openxai.dataloader import return_loaders
loader_train, loader_test = return_loaders(data_name='german', download=True)
# 获取测试数据集中一个输入实例
inputs, labels = iter(loader_test).next()
OpenXAI 预训练模型
我们还预训练了两类预测模型(例如,不同复杂程度的深度神经网络和逻辑回归模型),并将它们集成到OpenXAI框架内,以便用于基准测试解释方法。以下代码片段展示了如何使用我们的 LoadModel 类加载OpenXAI的预训练模型:
from openxai import LoadModel
model = LoadModel(data_name= 'german', ml_model='ann', pretrained=True)
向OpenXAI框架添加更多预训练模型很简单,只需上传关于模型架构和参数详细信息的特定模板文件。用户也可以填写简单的表单,提供有关模型架构和参数的详细信息,请求将自定义预训练模型集成到OpenXAI框架中。
OpenXAI 解释器
所有包含在OpenXAI中的解释方法都可通过 Explainer 类直接访问,用户只需要指定方法名称,就可以调用相应的方法生成解释。用户可以通过扩展 Explainer 类并在 get_explanations 函数中包含他们的方法代码,轻松将自己的自定义解释方法集成到OpenXAI框架中。
from openxai import Explainer
exp_method = Explainer(method= 'lime',model=model, dataset_tensor=inputs)
explanations= exp_method.get_explanation(inputs, labels)
用户可以通过填写表格,提供他们方法的GitHub链接和方法概述,请求将自定义方法纳入OpenXAI库。
OpenXAI 评估
使用评估指标进行基准测试非常简单。以下代码片段描述了如何调用RIS指标。用户可以通过填写表格,提供其指标的GitHub链接和指标概述,轻松将自定义评估指标纳入OpenXAI。请注意,代码应以接受数据实例、相应模型预测、它们的解释、OpenXAI的模型对象作为输入并返回数值分数的函数形式提供。
from openxai import Evaluator
metric_evaluator = Evaluator(input_dict, inputs, labels, model, exp_method)
score = metric_evaluator.evaluate(metric='RIS')
OpenXAI 指标
OpenXAI 包括用于计算地面真实解释(即逻辑回归模型系数)与由先进方法生成的解释一致性的多种指标,如:
- 功能一致性(FA)
- 排序一致性(RA)
- 符号一致性(SA)
- 签名排序一致性(SRA)
- 排序相关性(RC)
- 对比排序一致性(PRA)
还有用于衡量预测一致性、稳定性和公平性的其他指标。
OpenXAI 排行榜
每个解释方法在OpenXAI中都是一个基准,我们提供了详细的排行榜,展示每个指标上的性能比较。
OpenXAI 以其全面的功能和易用性,正在引领AI可解释性的新篇章。无论你是研究人员还是实践者,OpenXAI都能成为你在探索模型解释领域的重要工具。立即加入,一起迈向更透明的AI未来!
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0199
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0130
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python08
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07