中华新华字典数据库：从零开始的汉语语言资源应用指南

2026-04-23 10:44:50作者：牧宁李

中华新华字典数据库是一个开源的汉语语言资源库，包含汉字、词语、成语和歇后语等丰富数据，采用JSON标准化格式存储，支持多场景应用开发。该项目完全免费开放，提供16,142个汉字、264,434个词语、31,648个成语和14,032条歇后语，适合教育工具开发、自然语言处理研究和文化分析等领域。

项目核心价值解析

数据资源概览

数据类型	文件名	条目数量	主要应用场景
汉字	data/word.json	16,142个	汉字教学、字形研究
词语	data/ci.json	264,434个	词汇分析、语言模型训练
成语	data/idiom.json	31,648条	成语学习、文化研究
歇后语	data/xiehouyu.json	14,032条	民俗文化分析、创意写作

核心优势

标准化数据格式：所有资源均采用JSON格式存储，便于跨平台读取和处理
零成本使用：开源协议允许商业和非商业用途，无需授权费用
多场景适用性：满足教育、科研、商业应用等不同领域需求
持续维护更新：项目定期更新数据，不断提升资源质量

环境配置与数据获取

快速安装指南

通过以下命令获取项目代码：

git clone https://gitcode.com/gh_mirrors/ch/chinese-xinhua

目录结构解析

项目主要包含三个核心目录：

data/：存储所有JSON格式的数据文件
scripts/：包含数据处理和转换的Python脚本
archived/：存放历史数据备份

数据结构详解

汉字数据结构

data/word.json中的每个条目包含：

{
  "word": "字",
  "pinyin": "zì",
  "radical": "宀",
  "stroke_count": 6,
  "explanation": "用来记录语言的符号"
}

成语数据结构

data/idiom.json中的典型条目：

{
  "word": "胸有成竹",
  "pinyin": "xiōng yǒu chéng zhú",
  "explanation": "比喻做事之前已有全面考虑",
  "derivation": "宋·苏轼《文与可画筼筜谷偃竹记》",
  "example": "他对这次比赛胸有成竹，一定能取得好成绩"
}

基础应用案例

1. 成语查询工具

import json

def search_idiom(keyword):
    """根据关键词查找成语"""
    with open('data/idiom.json', 'r', encoding='utf-8') as f:
        idioms = json.load(f)
    
    results = [idiom for idiom in idioms if keyword in idiom['word']]
    return results

# 使用示例
found = search_idiom("龙")
print(f"找到{len(found)}个包含'龙'的成语")
for item in found[:5]:  # 打印前5个结果
    print(f"{item['word']} - {item['explanation']}")

2. 歇后语随机获取

import json
import random

def get_random_xiehouyu():
    """随机获取一条歇后语"""
    with open('data/xiehouyu.json', 'r', encoding='utf-8') as f:
        xiehouyu_list = json.load(f)
    
    return random.choice(xiehouyu_list)

# 使用示例
random_item = get_random_xiehouyu()
print(f"歇后语：{random_item['riddle']} —— {random_item['answer']}")

高级功能拓展

数据转换为CSV格式

import json
import csv

def json_to_csv(json_file, csv_file):
    """将JSON数据转换为CSV格式"""
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    # 获取所有字段名
    fieldnames = data[0].keys() if data else []
    
    with open(csv_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(data)

# 使用示例：将成语数据转换为CSV
json_to_csv('data/idiom.json', 'idiom.csv')

批量查询汉字信息

import json

class ChineseCharacterDB:
    def __init__(self, json_path='data/word.json'):
        with open(json_path, 'r', encoding='utf-8') as f:
            self.characters = {item['word']: item for item in json.load(f)}
    
    def get_character_info(self, char):
        """获取单个汉字信息"""
        return self.characters.get(char, None)
    
    def batch_query(self, chars):
        """批量查询多个汉字信息"""
        return [self.get_character_info(char) for char in chars]

# 使用示例
db = ChineseCharacterDB()
chars = ['中', '华', '新', '华', '字', '典']
results = db.batch_query(chars)
for res in results:
    if res:
        print(f"{res['word']} [{res['pinyin']}]: {res['explanation'][:30]}...")

常见问题解决

数据加载问题

问题：加载大型JSON文件时内存占用过高
解决：使用流式读取方式处理大文件：

import json

def stream_load_json(file_path):
    """流式加载大型JSON文件"""
    with open(file_path, 'r', encoding='utf-8') as f:
        # 假设JSON文件是数组格式
        data = json.load(f)
        for item in data:
            yield item

# 使用生成器逐个处理条目
for item in stream_load_json('data/ci.json'):
    # 处理单个词语条目
    pass

数据查询效率

问题：频繁查询时响应速度慢
解决：构建内存索引提高查询效率：

import json
from collections import defaultdict

class IdiomIndex:
    def __init__(self, json_path='data/idiom.json'):
        self.index = defaultdict(list)
        self._build_index(json_path)
    
    def _build_index(self, json_path):
        """构建汉字到成语的索引"""
        with open(json_path, 'r', encoding='utf-8') as f:
            idioms = json.load(f)
        
        for idiom in idioms:
            for char in idiom['word']:
                self.index[char].append(idiom)
    
    def find_by_character(self, char):
        """根据单个汉字查找相关成语"""
        return self.index.get(char, [])

# 构建索引（一次性操作）
index = IdiomIndex()
# 快速查询包含"龙"的成语
dragon_idioms = index.find_by_character("龙")