万卷1.0多模态语料库使用教程

2026-01-30 05:05:21作者：毕习沙Eudora

项目地址：https://gitcode.com/gh_mirrors/wa/WanJuan1.0

1. 项目介绍

万卷1.0是一个开源的多模态语料库，由文本、图像-文本和视频数据组成，总数据量超过2TB。该语料库基于大型模型数据联盟构建的语料库，经过细致的清洗、去重和价值对齐，形成了具有多模态融合、精细化处理、价值对齐、易用性及高效性等特点的万卷1.0版本。它涵盖了科技、文学、媒体、教育和法律等多个领域的多模态数据，旨在提升知识内容、逻辑推理和泛化能力。

2. 项目快速启动

安装和配置

首先，确保您已经安装了Python环境。然后，您可以通过以下命令克隆项目：

git clone https://github.com/opendatalab/WanJuan1.0.git
cd WanJuan1.0

项目中的数据以jsonl格式存储，包含了文档的唯一标识符和内容。对于文本数据集，您可以使用以下代码示例来读取数据：

import json

# 读取jsonl文件
with open('data/text_dataset.jsonl', 'r', encoding='utf-8') as file:
    for line in file:
        data = json.loads(line)
        print(data['id'], data['content'])

对于图像-文本数据集，结构稍有不同，包含了图像的URL列表和文本内容。以下是一个读取图像-文本数据集的代码示例：

import json

# 读取jsonl文件
with open('data/image_text_dataset.jsonl', 'r', encoding='utf-8') as file:
    for line in file:
        data = json.loads(line)
        print(data['id'], data['img_list'], data['content'])

数据使用

您可以根据自己的需求，使用上述代码读取数据，并进行进一步的处理和分析。

3. 应用案例和最佳实践

万卷1.0已经应用于多个大型模型，如Intern Multimodal和Intern Puyu的训练中。通过使用这个高质量语料库，这些模型在语义理解、知识问答、视觉理解和视觉问答等生成任务中表现出了卓越的性能。

多模态语义理解：结合文本和图像数据，模型可以更好地理解上下文和场景。
知识问答：利用文本数据中的丰富信息，模型能够回答各种知识性问题。
视觉问答：将图像和文本数据结合，模型能够对图像中的内容提出问题并回答。

4. 典型生态项目

万卷1.0不仅是一个独立的数据集，它也参与了更广泛的生态系统项目，包括：

Intern Multimodal：一个开源的多模态大型语言模型。
Intern Puyu：另一个基于万卷1.0的大型模型，专注于文本生成任务。

这些项目利用万卷1.0的数据集来提升模型的能力，并在不同的应用场景中取得了显著的成果。

项目地址：https://gitcode.com/gh_mirrors/wa/WanJuan1.0

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。