AutoArena 开源项目最佳实践教程

2025-05-18 00:21:02作者：昌雅子Ethen

1. 项目介绍

AutoArena 是一个开源项目，旨在通过自动化的逐对比较来评估大型语言模型（LLM）的输出。它允许用户创建排行榜，对不同的 LLM 输出、RAG（ Retrieval Augmented Generation）设置和提示进行排序。AutoArena 利用多个小型模型组成评审团（称为 PoLL：Panel of LLM Evaluators），以提高评估准确性，并且比单个前沿模型更快、成本更低。

2. 项目快速启动

要快速启动 AutoArena，请按照以下步骤操作：

首先，确保你已经安装了 Python。然后，通过 PyPI 安装 AutoArena：

pip install autoarena

接下来，运行以下命令启动 AutoArena 服务：

python -m autoarena

服务启动后，在浏览器中访问 localhost:8899。此时，你可以通过 AutoArena 的用户界面进行操作。

3. 应用案例和最佳实践

创建项目

在 AutoArena 用户界面中，首先创建一个新项目。

上传模型响应

准备一个 CSV 文件，其中包含 prompt 和 response 列。prompt 是模型的输入，response 是模型的输出。将此 CSV 文件上传到 AutoArena 中。

配置自动化评审

在 UI 中配置自动化评审。注意，大多数评审器需要凭证，例如在运行 AutoArena 的环境中设置 X_API_KEY。

自动化评估

上传第二个模型的响应后，使用之前配置的评审器自动启动评估任务。评审器将比较两个模型对相同提示的响应，以决定哪个模型的响应更佳。

数据格式

AutoArena 需要两个信息来测试模型：输入提示和相应的模型响应。确保数据格式正确无误。

数据存储

数据将被存储在 ./data/<project>.sqlite 文件中，位于你调用 AutoArena 的目录下。

4. 典型生态项目

AutoArena 可以与多种类型的开源项目配合使用，例如：

大型语言模型比较工具
LLM 和 RAG 系统的基准测试框架
提示工程和优化的辅助工具

通过集成这些生态项目，开发者和研究人员可以更有效地评估和比较不同的模型配置，从而提高他们的研究和开发效率。

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。