LCQMC数据集（lcqmc）介绍

2026-01-31 04:02:38作者：柏廷章Berta

LCQMC数据集lcqmc介绍

LCQMC数据集是哈尔滨工业大学构建的中文问题语义匹配数据集，旨在评估模型判断两个问题是否具有相同语义的能力。该数据集源自中文问答社区，涵盖科技、教育、娱乐等多个领域，包含约10000对问题，每对问题均已人工标注为相同语义（1）或不同语义（0）。LCQMC广泛应用于文本匹配、语义相似度计算和自然语言理解等领域，为研究人员和开发者提供了高质量的评估工具。使用本数据集时，请遵守相关法律法规并尊重版权，助力自然语言处理研究取得更多突破。

项目地址：https://gitcode.com/Universal-Tool/b2e57

LCQMC数据集是由哈尔滨工业大学在自然语言处理国际顶级会议COLING2018上构建的问题语义匹配数据集。该数据集主要应用于文本匹配领域，旨在帮助研究人员和开发者训练和评估模型在判断两个问题是否具有相同语义方面的性能。

数据集特点：

来源：LCQMC数据集源于中文问答社区，涵盖了多种类型的问题，如科技、教育、娱乐等。
规模：数据集包含约10000对问题，每对问题包含两个句子，分别代表问题的两个候选答案。
标注：数据集已进行人工标注，标注结果分为两类：相同语义（标签为1）和不同语义（标签为0）。
应用：LCQMC数据集可应用于文本匹配、语义相似度计算、自然语言理解等领域。

使用说明：

请确保遵守相关法律法规，合法使用本数据集。
请尊重数据集版权，未经允许不得用于商业目的。
如有任何问题，请参考相关文献或向原作者咨询。

感谢您使用LCQMC数据集，祝您在自然语言处理领域取得更多成果！

LCQMC数据集lcqmc介绍

LCQMC数据集是哈尔滨工业大学构建的中文问题语义匹配数据集，旨在评估模型判断两个问题是否具有相同语义的能力。该数据集源自中文问答社区，涵盖科技、教育、娱乐等多个领域，包含约10000对问题，每对问题均已人工标注为相同语义（1）或不同语义（0）。LCQMC广泛应用于文本匹配、语义相似度计算和自然语言理解等领域，为研究人员和开发者提供了高质量的评估工具。使用本数据集时，请遵守相关法律法规并尊重版权，助力自然语言处理研究取得更多突破。

项目地址：https://gitcode.com/Universal-Tool/b2e57

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统