QwenLong-L1 的安装和配置教程

2025-05-28 01:35:33作者：伍希望

项目基础介绍

QwenLong-L1 是一个基于强化学习框架的长文本上下文推理模型。该项目的目标是帮助大型语言模型（LRMs）从短文本上下文的熟练应用过渡到对长文本上下文的稳健泛化。QwenLong-L1 通过渐进式上下文扩展、课程引导的强化学习阶段以及困难感知的回顾性采样机制，提高了模型在长上下文中的推理能力。

项目主要使用 Python 编程语言实现。

关键技术和框架

强化学习（RL）: 用于训练模型以实现更好的长文本上下文推理。
混合奖励函数: 结合基于规则和基于模型的二元结果奖励，平衡精确度和召回率。
GRPO 和 DAPO 算法: 这些是近期提出的强化学习算法，用于优化模型的政策。
Transformers: 使用 🤗 Transformers 库加载和运行模型。

安装和配置准备工作

在开始安装前，请确保你的系统中已经安装了以下环境和依赖项：

Python 3.10
conda (推荐使用 Anaconda)
Git

安装步骤

克隆项目仓库到本地环境

git clone https://github.com/Tongyi-Zhiwen/QwenLong-L1.git
cd QwenLong-L1

创建项目所需的 conda 环境

conda create -n qwenlongl1 python==3.10
conda activate qwenlongl1

安装项目依赖

pip3 install -r requirements.txt

安装 verl

cd verl
pip3 install -e ./

安装 vLLM

pip3 install vllm==0.7.3

安装 flash-attn

pip3 install flash-attn --no-build-isolation

完成以上步骤后，你的环境就配置好了，你可以开始使用 QwenLong-L1 模型进行文本推理等任务。

注意：具体的使用方法和示例代码，请参考项目仓库中的 README.md 文件。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

QwenLong-L1 的安装和配置教程

项目基础介绍

关键技术和框架

安装和配置准备工作

安装步骤

热门内容推荐

最新内容推荐

项目优选

QwenLong-L1 的安装和配置教程

项目基础介绍

关键技术和框架

安装和配置准备工作

安装步骤

相关内容推荐

热门内容推荐

最新内容推荐

项目优选