Data-Juicer v1.2.2 发布：增强数据质量评估与合成能力

2026-02-04 04:37:06作者：胡唯隽

Data processing for and with foundation models! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷

项目地址：https://gitcode.com/gh_mirrors/da/data-juicer

Data-Juicer 是一个专注于数据预处理和增强的开源工具，旨在帮助开发者和研究人员更高效地处理和优化数据集，特别是在自然语言处理和计算机视觉领域。该项目提供了丰富的操作符（OPs）来清洗、过滤和增强数据，以提升模型训练的效果。

最新发布的 Data-Juicer v1.2.2 版本带来了一系列重要更新，主要集中在数据质量评估、测试覆盖率的提升以及创新的数据合成方法。这些改进不仅增强了工具的稳定性和可靠性，还为数据预处理流程带来了新的可能性。

核心功能增强

数据质量评估过滤器

新版本引入了两个关键的数据质量评估过滤器：

llm_quality_score_filter：基于大语言模型（LLM）对样本质量进行评分，保留高质量样本。该过滤器支持API调用和本地VLLM调用两种方式，为用户提供了灵活的部署选择。
llm_difficulty_score_filter：同样基于LLM，但专注于评估样本的难度水平，保留更具挑战性的样本。这种过滤器特别适用于需要构建更具挑战性训练集的场景。

这些过滤器的引入使得数据筛选过程更加智能化和自动化，减少了人工标注的工作量，同时提高了数据筛选的准确性。

测试与稳定性改进

为了提高代码质量和可靠性，v1.2.2版本增加了对分析模块和工具模块的单元测试，显著提升了测试覆盖率。这些测试包括：

分析模块的全面测试（#604）
工具模块的扩展测试（#616）

此外，团队还修复了UTF-8解码错误等稳定性问题（#618），确保工具在不同环境和数据集上的稳定运行。

创新数据合成方法

本次版本最引人注目的创新是提出了一种全新的数据合成方法，该方法鼓励大语言模型自我生成具有挑战性的认知问题。这种方法具有以下显著优势：

数据效率高：仅需400个样本就能实现显著效果提升
跨模态泛化能力强：适用于多种数据类型和任务
效果显著：在MathVision基准测试上实现了16%的性能提升

这项创新被详细记录在技术论文《MindGym: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions》中，为数据增强领域提供了新的思路和方法。

其他改进

更新了LLaVa预训练配方配置（#610）
完善了文档和新闻更新，特别是关于MindGYM的相关内容（#615）
增加了API服务的文档说明，支持通过json.dumps进行参数传递，使任意注册函数和类的API调用成为可能（#613）

Data-Juicer v1.2.2的这些改进和创新，为数据预处理和增强领域带来了新的工具和方法，特别是在利用大语言模型进行数据质量评估和合成方面取得了重要进展。这些功能将帮助研究人员和开发者构建更高质量的数据集，从而训练出性能更优的模型。

Data processing for and with foundation models! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷

项目地址：https://gitcode.com/gh_mirrors/da/data-juicer

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter