【亲测免费】中文人名语料库（Chinese-Names-Corpus）

2026-01-30 05:16:29作者：幸俭卉

中文人名语料库Chinese-Names-Corpus

中文人名语料库（Chinese-Names-Corpus）是一个专注于中文姓名数据的开源项目，旨在为中文分词和人名实体识别提供丰富的资源。该库包含了超过120万条常见中文人名、25万条古代人名、1000多个中文姓氏以及5000多个中文称呼，数据来源广泛且经过严格清洗。无论是进行自然语言处理研究，还是开发人名生成工具，该语料库都能提供可靠的支持。项目强调开源精神，鼓励合理使用，禁止商业滥用，致力于为学术和技术社区提供高质量的姓名数据资源。

项目地址：https://gitcode.com/Universal-Tool/7fb63

简介

中文人名语料库（Chinese-Names-Corpus）是由业余项目“萌名NameMoe”产生的副产品，旨在为中文分词和人名实体识别提供丰富的数据资源。本库包含了大量中文姓名、姓氏、名字、称呼，以及日本人名和翻译人名等，是人名生成和自然语言处理领域的重要资料。

数据详情

中文常见人名（Chinese_Names_Corpus）

数据大小：120万
语料来源：从亿级人名语料中提取
数据清洗：已清洗，但可能仍有少量badcase

中文古代人名（Ancient_Names_Corpus）

数据大小：25万
语料来源：多个人名词典汇总
数据清洗：已清洗

中文姓氏（Chinese_Family_Name）

数据大小：1千
语料来源：从亿人名语料中提取
数据清洗：已清洗

中文称呼（Chinese_Relationship）

数据大小：5千
语料来源：称呼词根

使用说明

本语料库可用于中文分词、人名识别等自然语言处理任务。在使用过程中，请遵守以下规定：

请勿将本库打包上传其他网站挣积分。
如果已上传，请配合删除，谢谢！

感谢您的理解与支持，希望本资源能为您的相关研究带来帮助。

中文人名语料库Chinese-Names-Corpus

中文人名语料库（Chinese-Names-Corpus）是一个专注于中文姓名数据的开源项目，旨在为中文分词和人名实体识别提供丰富的资源。该库包含了超过120万条常见中文人名、25万条古代人名、1000多个中文姓氏以及5000多个中文称呼，数据来源广泛且经过严格清洗。无论是进行自然语言处理研究，还是开发人名生成工具，该语料库都能提供可靠的支持。项目强调开源精神，鼓励合理使用，禁止商业滥用，致力于为学术和技术社区提供高质量的姓名数据资源。

项目地址：https://gitcode.com/Universal-Tool/7fb63

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库