解锁中华古典诗词数据库：开源文化遗产的数字化重生

2026-03-13 05:32:24作者：俞予舒Fleming

在数字时代，中华五千年文明的瑰宝正以全新形态焕发生机。作为全球最完整的中文诗歌开源数据库，本项目通过5000+诗词的JSON结构化存储，构建起一座连接古典文学与现代技术的桥梁。这份开源文化遗产不仅包含唐宋两朝近一万四千位诗人的心血之作，更以26万首宋诗、5.5万首唐诗及2万余首宋词的浩瀚体量，为文化传承与创新应用提供了无限可能。

价值定位：古典诗词数据库的数字化革命

数据特色：从古籍善本到JSON数组的跨越

📚 5.5万首唐诗+26万首宋诗的结构化存储
项目将《全唐诗》《全宋诗》等典籍系统性转化为机器可解析的JSON格式，每首诗词包含标题、作者、朝代、内容、体裁等12项核心字段。这种标准化处理使原本深藏图书馆的文化遗产，成为可直接用于数据分析的鲜活素材。

图1：全唐诗数据库结构展示，包含900卷目录与2200余首诗作的数字化索引

文化价值：数字人文研究的基础工程

✨ 文学研究的量化转向
通过结构化数据，研究者可直观分析不同时期的用词偏好、情感倾向及风格演变。例如"月""酒""愁"等意象在唐诗与宋词中的出现频率对比，为古典文学研究提供了全新的量化视角。

核心能力：零基础也能玩转的诗词数据工具箱

3个隐藏功能，释放数据潜力

1️⃣ 多维度检索系统
支持按作者、朝代、关键词甚至修辞手法筛选，如快速定位"李白+月亮意象"的全部诗作。探索检索功能：rank/

2️⃣ 情感分析预置接口
数据集中已标注诗词情感倾向，可直接用于NLP模型训练。技术小贴士：通过loader/data_loader.py可批量加载情感标签数据。

3️⃣ 可视化素材库
内置诗人影响力分布图、高频词汇云图等可视化资产，如图2所示的唐诗高频词汇分析：

图2：基于5.5万首唐诗分析生成的高频词汇云图，直观展示唐代诗歌的核心意象

实践指南：3步实现诗词情感分析看板

场景化任务：从数据到可视化的完整链路

Step 1：环境准备

git clone https://gitcode.com/gh_mirrors/ch/chinese-poetry
cd chinese-poetry
pip install -r requirements.txt

Step 2：数据加载与预处理

from loader.data_loader import TangPoetryLoader
loader = TangPoetryLoader()
poems = loader.load_by_emotion("忧")  # 加载含"忧"情感标签的诗作

Step 3：可视化看板生成
运行test_poetry.py脚本自动生成情感分布热力图，探索可视化功能：images/

图3：宋词高频关键词可视化，"何处""回首""相思"等词凸显宋代文人的情感世界

生态展望：古典诗词数据库的新玩法

创作者可以做什么？

AI诗词生成器：基于唐宋诗词训练的GPT模型，可创作符合特定词牌格律的作品
个性化推荐系统：根据用户阅读偏好推送风格匹配的古典诗词
数字人文展览：结合AR技术重现"长安一片月，万户捣衣声"的唐代生活场景

研究者的创新方向

🔍 作者归属鉴定：利用风格特征分析解决古籍中的作者争议问题
🔍 跨朝代比较研究：通过song_author_topK.png等可视化数据，对比唐宋诗人的影响力变迁

图4：宋代词人影响力可视化，展现苏轼、辛弃疾等大家的词坛地位

从学术研究到创意开发，这座开源的古典诗词数据库正等待更多人探索。无论是文学爱好者、AI开发者还是教育工作者，都能在此找到属于自己的文化数字化实践路径。探索项目全貌：gh_mirrors/ch/chinese-poetry

chinese-poetry

项目地址：https://gitcode.com/gh_mirrors/ch/chinese-poetry

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

473

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

272

解锁中华古典诗词数据库：开源文化遗产的数字化重生

价值定位：古典诗词数据库的数字化革命

数据特色：从古籍善本到JSON数组的跨越

文化价值：数字人文研究的基础工程

核心能力：零基础也能玩转的诗词数据工具箱

3个隐藏功能，释放数据潜力

实践指南：3步实现诗词情感分析看板

场景化任务：从数据到可视化的完整链路

生态展望：古典诗词数据库的新玩法

创作者可以做什么？

研究者的创新方向

热门内容推荐

最新内容推荐

项目优选

解锁中华古典诗词数据库：开源文化遗产的数字化重生

价值定位：古典诗词数据库的数字化革命

数据特色：从古籍善本到JSON数组的跨越

文化价值：数字人文研究的基础工程

核心能力：零基础也能玩转的诗词数据工具箱

3个隐藏功能，释放数据潜力

实践指南：3步实现诗词情感分析看板

场景化任务：从数据到可视化的完整链路

生态展望：古典诗词数据库的新玩法

创作者可以做什么？

研究者的创新方向

相关内容推荐

热门内容推荐

最新内容推荐

项目优选