解锁中华古典诗词数据库:开源文化遗产的数字化重生
在数字时代,中华五千年文明的瑰宝正以全新形态焕发生机。作为全球最完整的中文诗歌开源数据库,本项目通过5000+诗词的JSON结构化存储,构建起一座连接古典文学与现代技术的桥梁。这份开源文化遗产不仅包含唐宋两朝近一万四千位诗人的心血之作,更以26万首宋诗、5.5万首唐诗及2万余首宋词的浩瀚体量,为文化传承与创新应用提供了无限可能。
价值定位:古典诗词数据库的数字化革命
数据特色:从古籍善本到JSON数组的跨越
📚 5.5万首唐诗+26万首宋诗的结构化存储
项目将《全唐诗》《全宋诗》等典籍系统性转化为机器可解析的JSON格式,每首诗词包含标题、作者、朝代、内容、体裁等12项核心字段。这种标准化处理使原本深藏图书馆的文化遗产,成为可直接用于数据分析的鲜活素材。

图1:全唐诗数据库结构展示,包含900卷目录与2200余首诗作的数字化索引
文化价值:数字人文研究的基础工程
✨ 文学研究的量化转向
通过结构化数据,研究者可直观分析不同时期的用词偏好、情感倾向及风格演变。例如"月""酒""愁"等意象在唐诗与宋词中的出现频率对比,为古典文学研究提供了全新的量化视角。
核心能力:零基础也能玩转的诗词数据工具箱
3个隐藏功能,释放数据潜力
1️⃣ 多维度检索系统
支持按作者、朝代、关键词甚至修辞手法筛选,如快速定位"李白+月亮意象"的全部诗作。探索检索功能:rank/
2️⃣ 情感分析预置接口
数据集中已标注诗词情感倾向,可直接用于NLP模型训练。技术小贴士:通过loader/data_loader.py可批量加载情感标签数据。
3️⃣ 可视化素材库
内置诗人影响力分布图、高频词汇云图等可视化资产,如图2所示的唐诗高频词汇分析:

图2:基于5.5万首唐诗分析生成的高频词汇云图,直观展示唐代诗歌的核心意象
实践指南:3步实现诗词情感分析看板
场景化任务:从数据到可视化的完整链路
Step 1:环境准备
git clone https://gitcode.com/gh_mirrors/ch/chinese-poetry
cd chinese-poetry
pip install -r requirements.txt
Step 2:数据加载与预处理
from loader.data_loader import TangPoetryLoader
loader = TangPoetryLoader()
poems = loader.load_by_emotion("忧") # 加载含"忧"情感标签的诗作
Step 3:可视化看板生成
运行test_poetry.py脚本自动生成情感分布热力图,探索可视化功能:images/

图3:宋词高频关键词可视化,"何处""回首""相思"等词凸显宋代文人的情感世界
生态展望:古典诗词数据库的新玩法
创作者可以做什么?
- AI诗词生成器:基于唐宋诗词训练的GPT模型,可创作符合特定词牌格律的作品
- 个性化推荐系统:根据用户阅读偏好推送风格匹配的古典诗词
- 数字人文展览:结合AR技术重现"长安一片月,万户捣衣声"的唐代生活场景
研究者的创新方向
🔍 作者归属鉴定:利用风格特征分析解决古籍中的作者争议问题
🔍 跨朝代比较研究:通过song_author_topK.png等可视化数据,对比唐宋诗人的影响力变迁

图4:宋代词人影响力可视化,展现苏轼、辛弃疾等大家的词坛地位
从学术研究到创意开发,这座开源的古典诗词数据库正等待更多人探索。无论是文学爱好者、AI开发者还是教育工作者,都能在此找到属于自己的文化数字化实践路径。探索项目全貌:gh_mirrors/ch/chinese-poetry
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust099- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00