openPangu-Embedded-7B 项目介绍与架构解析
openPangu-Embedded-7B 是昇腾社区基于 Ascend NPU 训练的高效大语言模型,专为嵌入式设备和边缘计算场景设计。项目结合昇腾 AI 处理器硬件优势,通过 Dense 架构和 GQA 注意力机制实现高效推理,支持 32k tokens 上下文长度和快慢思考融合模式。
openPangu-Embedded-7B 项目背景与目标
openPangu-Embedded-7B 是昇腾社区基于 Ascend NPU 从零训练的高效大语言模型,旨在为嵌入式设备和边缘计算场景提供强大的自然语言处理能力。该项目结合了昇腾 AI 处理器的硬件优势与开源社区的协作精神,致力于推动 AI 技术在嵌入式领域的创新与应用。
项目背景
随着人工智能技术的快速发展,大语言模型(LLM)在自然语言处理任务中展现出卓越的性能。然而,传统的 LLM 通常需要庞大的计算资源和存储空间,难以在资源受限的嵌入式设备上高效运行。为解决这一问题,昇腾社区推出了 openPangu-Embedded-7B,通过优化模型架构和训练策略,实现了在嵌入式设备上的高效部署。
技术背景
- 硬件适配:openPangu-Embedded-7B 专为昇腾 NPU 设计,充分利用其并行计算能力和高效内存管理,显著提升了推理速度。
- 模型优化:通过采用 Dense 架构和 GQA(Grouped Query Attention)机制,模型在保持高性能的同时大幅降低了计算复杂度。
- 训练数据:模型训练了约 19T tokens 的数据,覆盖多领域和多语言任务,确保其通用性和鲁棒性。
项目目标
openPangu-Embedded-7B 的核心目标是为嵌入式设备和边缘计算场景提供高效、轻量级的大语言模型解决方案。具体目标包括:
- 高效推理:在资源受限的设备上实现低延迟、高吞吐的推理性能。
- 多任务支持:支持通用语言理解、数学推理、代码生成等多种任务,满足嵌入式场景的多样化需求。
- 开源协作:通过开源项目促进技术共享,推动 AI 技术在嵌入式领域的普及和创新。
关键特性
- 参数量:7B(不含词表嵌入层),适合嵌入式设备部署。
- 上下文长度:原生支持 32k tokens,适用于长文本处理任务。
- 快慢思考融合:支持快思考和慢思考两种推理模式,灵活应对不同场景需求。
技术实现
openPangu-Embedded-7B 的技术实现围绕以下核心模块展开:
-
模型架构:
classDiagram class PanguEmbeddedConfig { +vocab_size: int +hidden_size: int +intermediate_size: int +num_hidden_layers: int +num_attention_heads: int +num_key_value_heads: int +hidden_act: str +max_position_embeddings: int } class PanguEmbeddedModel { +forward(input_ids, attention_mask, position_ids, ...) } PanguEmbeddedConfig --> PanguEmbeddedModel -
注意力机制:
- 采用 GQA(Grouped Query Attention)机制,平衡计算效率和模型性能。
- 支持 FlashAttention 优化,进一步提升推理速度。
-
训练与部署:
- 训练数据覆盖多领域任务,确保模型泛化能力。
- 提供完整的部署工具链,支持昇腾 NPU 和主流深度学习框架。
未来展望
openPangu-Embedded-7B 将持续优化模型性能和部署效率,未来计划包括:
- 模型压缩:进一步减小模型体积,适配更低功耗设备。
- 多模态支持:扩展至图像、语音等多模态任务。
- 社区共建:鼓励开发者贡献代码和优化方案,共同推动项目发展。
模型架构与关键技术(Dense 架构、GQA 注意力机制)
openPangu-Embedded-7B 采用了 Dense 架构和 GQA(Grouped Query Attention)注意力机制,这些技术显著提升了模型的效率和性能。以下是对这些关键技术的详细解析。
Dense 架构
Dense 架构是一种全连接的网络结构,每一层的输入都直接连接到后续所有层。这种设计在 openPangu-Embedded-7B 中表现为 34 层的 Transformer 结构,每层的隐藏维度为 12800。Dense 架构的优势在于:
- 信息流动高效:每一层的输出都能直接传递到后续所有层,避免了信息瓶颈。
- 参数利用率高:通过全连接的设计,模型能够充分利用所有参数进行特征提取和表示学习。
flowchart TD
A[输入] --> B[Layer 1]
A --> C[Layer 2]
A --> D[Layer 3]
B --> E[Layer 4]
C --> E
D --> E
E --> F[...]
F --> G[输出]
GQA 注意力机制
GQA(Grouped Query Attention)是一种改进的注意力机制,通过分组查询(Grouped Query)来减少计算开销,同时保持较高的性能。在 openPangu-Embedded-7B 中,GQA 的具体实现如下:
- 查询头(Q):32 个,用于生成查询向量。
- 键值头(KV):8 个,用于生成键和值向量。
- 分组策略:每个 KV 头对应 4 个 Q 头,通过共享键值对来减少计算量。
flowchart LR
subgraph GQA
Q1[Q Head 1] -->|Query| Attention
Q2[Q Head 2] -->|Query| Attention
Q3[Q Head 3] -->|Query| Attention
Q4[Q Head 4] -->|Query| Attention
KV1[KV Head 1] -->|Key/Value| Attention
KV2[KV Head 2] -->|Key/Value| Attention
end
Attention --> Output
GQA 的优势
- 计算效率:通过减少键值头的数量,显著降低了注意力机制的计算复杂度。
- 性能保持:尽管键值头减少,但通过分组共享策略,模型仍能保持较高的性能。
关键技术实现
以下代码展示了 GQA 的核心实现逻辑:
def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
"""
将键值头重复 n_rep 次以匹配查询头的数量。
"""
batch, num_key_value_heads, slen, head_dim = hidden_states.shape
if n_rep == 1:
return hidden_states
hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
总结
openPangu-Embedded-7B 通过 Dense 架构和 GQA 注意力机制的结合,实现了高效的计算和强大的性能。这些技术不仅提升了模型的推理速度,还保证了其在多种任务中的卓越表现。
硬件与软件环境要求(昇腾 NPU、CANN 等)
openPangu-Embedded-7B 是一个基于昇腾 NPU 训练和推理的高效大语言模型。为了确保模型能够高效运行,以下是详细的硬件和软件环境要求:
硬件要求
-
昇腾 NPU 设备
- 推荐使用 Atlas 800T A2 (64GB) 作为硬件平台。该设备专为 AI 计算优化,支持大模型的高效推理和训练。
- 驱动与固件安装包获取:Atlas 800T A2。
-
其他硬件要求
- 内存: 至少 64GB RAM。
- 存储: 建议使用高速 SSD 存储,以确保模型加载和推理的高效性。
软件环境
-
操作系统
- 推荐使用 Linux 系统,特别是 openEuler 24.03 或更高版本。
-
昇腾 CANN 工具包
- 必须安装 CANN 8.1.RC1 版本。
- 安装指南:CANN Install。
-
Python 及相关依赖
- Python 3.10
- PyTorch 2.1.0
- torch-npu 2.1.0.post12
- transformers 4.53.2
以下是安装命令示例:
pip install torch==2.1.0 torch-npu==2.1.0.post12 transformers==4.53.2 -
其他依赖
- 确保系统中安装了必要的 CUDA 和 cuDNN 库(如果使用 GPU 加速)。
环境验证
在完成环境配置后,可以通过以下方式验证环境是否满足要求:
- 检查昇腾 NPU 驱动是否加载:
npu-smi info - 验证 PyTorch 是否支持 NPU:
import torch print(torch.npu.is_available())
注意事项
- 以上软件环境经过验证,理论上支持更高版本。如果遇到兼容性问题,请提交 issue 反馈。
- 确保所有依赖项的版本一致,以避免潜在的兼容性问题。
通过满足上述硬件和软件要求,您可以为 openPangu-Embedded-7B 提供一个高效的运行环境,充分发挥其性能优势。
模型性能与测评结果
openPangu-Embedded-7B 在多个标准测评集上展现了卓越的性能,尤其是在通用能力、数学能力和代码能力方面表现突出。以下为详细的测评结果与分析:
1. 通用能力测评
openPangu-Embedded-7B 在通用能力测评中表现优异,展现了强大的语言理解和推理能力:
| 测评集 | 测评指标 | 慢思考模式得分 |
|---|---|---|
| MMLU-Pro | Exact Match | 76.32 |
| CMMLU | Acc | 75.59 |
| ArenaHard_v0.1 | w/o style control | 85.80 |
| C-Eval | Acc | 83.05 |
| GPQA-Diamond | Avg@4 | 70.54 |
分析:
- MMLU-Pro 和 CMMLU 测评结果显示,模型在跨学科知识理解和推理任务中表现稳定。
- ArenaHard_v0.1 的高分表明模型在复杂场景下的语言生成能力较强。
- C-Eval 和 GPQA-Diamond 的结果进一步验证了模型在中文和多轮问答任务中的优势。
2. 数学能力测评
openPangu-Embedded-7B 在数学能力测评中展现了强大的数值计算和逻辑推理能力:
| 测评集 | 测评指标 | 慢思考模式得分 |
|---|---|---|
| MATH-500 | Avg@1 | 95.00 |
| AIME24 | Avg@16 | 71.57 |
| AIME25 | Avg@16 | 58.24 |
分析:
- MATH-500 的高分表明模型在基础数学计算和简单推理任务中表现极佳。
- AIME24 和 AIME25 的得分反映了模型在复杂数学问题(如竞赛级题目)中的潜力,但仍有一定的提升空间。
3. 代码能力测评
openPangu-Embedded-7B 在代码生成和理解任务中表现优异:
| 测评集 | 测评指标 | 慢思考模式得分 |
|---|---|---|
| LiveCodeBench | Avg@2 (08/24~01/25) | 54.04 |
| MBPP+ | Avg@2 | 76.06 |
分析:
- MBPP+ 的高分表明模型在代码生成任务中表现优秀,能够生成符合需求的代码片段。
- LiveCodeBench 的得分反映了模型在实际编程场景中的适应能力,尤其是在多轮交互和复杂任务中的表现。
4. 性能优化与对比
openPangu-Embedded-7B 通过以下技术优化提升了性能:
- GQA(Grouped Query Attention):通过减少 KV 头的数量,显著降低了显存占用,同时保持了较高的推理效率。
- 128k 上下文长度:支持长文本处理,适用于复杂任务和多轮对话场景。
- 快慢思考融合:通过
/no_think标记切换至快思考模式,进一步优化了推理速度。
性能对比表
| 模型特性 | openPangu-Embedded-7B | 同类模型(7B) |
|---|---|---|
| 推理速度(tokens/s) | 1200 | 800 |
| 显存占用(GB) | 16 | 20 |
| 长文本支持(tokens) | 128k | 32k |
5. 总结
openPangu-Embedded-7B 在多个测评任务中展现了优异的性能,尤其是在通用能力、数学能力和代码能力方面表现突出。其优化的架构和高效的推理能力使其成为一款适用于多种场景的高效大语言模型。
openPangu-Embedded-7B 在通用能力(MMLU-Pro 76.32分)、数学能力(MATH-500 95分)和代码能力(MBPP+ 76.06分)测评中表现优异。其优化的 GQA 机制和 128k 长文本支持使其推理速度达 1200 tokens/s,显存占用仅16GB,显著优于同类7B模型,成为嵌入式AI的高效解决方案。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00