活字通用大模型使用指南

2024-09-21 06:22:42作者：邵娇湘

1. 项目介绍

活字通用大模型（Huozi）是由哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）开发的一个稀疏混合专家模型。该模型支持32K上下文，具有丰富的中、英文知识和强大的数学推理、代码生成能力。活字3.0相较于旧版活字，在指令遵循能力和安全性方面有了显著提升。

主要特点：

稀疏混合专家模型：支持32K上下文，能够处理长文本。
多语言支持：丰富的中、英文知识。
强大的推理能力：在数学推理和代码生成任务上表现出色。
指令遵循能力：较旧版活字有显著提升。

2. 项目快速启动

环境准备

首先，确保你已经安装了Python和必要的依赖库。你可以使用以下命令安装所需的Python包：

pip install torch transformers

模型下载

你可以从Hugging Face ModelScope下载活字3.0模型：

git clone https://github.com/HIT-SCIR/huozi.git
cd huozi

快速启动代码

以下是一个使用活字3.0进行推理的示例代码：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "HIT-SCIR/huozi3"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

text = """<|beginofutterance|>系统 你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户 请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手 """

inputs = tokenizer(text, return_tensors="pt").to(0)
outputs = model.generate(
    **inputs,
    eos_token_id=57001,
    temperature=0.8,
    top_p=0.9,
    max_new_tokens=2048
)

print(tokenizer.decode(outputs[0], skip_special_tokens=False))

3. 应用案例和最佳实践

应用案例

活字3.0可以广泛应用于以下场景：

智能助手：提供强大的指令遵循能力和多语言支持。
代码生成：自动生成高质量的代码片段。
数学推理：解决复杂的数学问题。

最佳实践

多轮对话：利用活字3.0的32K上下文支持，实现多轮对话的流畅交互。
指令微调：根据特定任务对模型进行微调，以提高指令遵循能力。

4. 典型生态项目

Transformers

活字3.0支持Transformers框架，可以轻松集成到现有的NLP项目中。

vLLM

通过vLLM实现推理加速，提高模型响应速度。

llama.cpp

支持量化推理，减少显存占用，适用于资源受限的环境。

AutoAWQ

提供AWQ格式的模型权重，适用于AutoAWQ等推理框架。

通过以上模块的介绍和示例代码，你可以快速上手并应用活字通用大模型。

热门内容推荐

1 开源项目 developer-roadmap 使用教程 2 Vue.js 教程与指南 3 探索Vue 2的持久魅力：一个开源项目的深度解析 4 开源项目教程：awesome-selfhosted 5 开源项目 `awesome-selfhosted` 使用教程 6 TensorFlow 开源项目指南 7 TensorFlow 开源项目教程 8 TensorFlow：开启机器学习新纪元 9 Linux 内核项目使用教程 10 推荐项目：探索 Linux 内核的奥秘

最新内容推荐

《Arduino-heatpumpir：打造自己的空调遥控器》探索数据库加速：Silo系统的安装与使用指南《SIFTGPU：在GPU上实现尺度不变特征变换的安装与使用教程》探索Pandana：强大的Python网络分析库安装与使用指南探索开源漫画阅读器ComicFlow：安装与使用教程《Manta安装与使用详解：轻松掌握结构变异分析工具》《ArduinoUnit测试框架使用指南》深入探索ns-3-dev：开源网络模拟器的安装与使用指南《MapMap视频映射软件的安装与使用指南》《lest测试框架的安装与使用教程》

项目优选

收起

Python-100-Days

Python - 100天从新手到大师

国产编程语言蓝皮书

《国产编程语言蓝皮书》-编委会工作区

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

HarmonyOS-Examples

本仓将收集和展示仓颉鸿蒙应用示例代码，欢迎大家投稿，在仓颉鸿蒙社区展现你的妙趣设计！

为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

Advanced-Java是一个Java进阶教程，适合用于学习Java高级特性和编程技巧。特点：内容深入、实例丰富、适合进阶学习。

前端智能化场景解决方案UI库，轻松构建你的AI应用，我们将持续完善更新，欢迎你的使用与建议。官网地址：https://matechat.gitcode.com

HarmonyOS-Cangjie-Cases

参考 HarmonyOS-Cases/Cases，提供仓颉开发鸿蒙 NEXT 应用的案例集