BERT-NER 项目使用教程

2026-01-16 10:06:43作者：冯梦姬Eddie

1. 项目的目录结构及介绍

BERT-NER/
├── data/
│   ├── conll2003/
│   │   ├── test.txt
│   │   ├── train.txt
│   │   └── valid.txt
├── models/
│   ├── bert_config.json
│   ├── pytorch_model.bin
│   └── vocab.txt
├── src/
│   ├── main.py
│   ├── config.py
│   ├── data_loader.py
│   ├── model.py
│   ├── trainer.py
│   └── utils.py
├── README.md
├── requirements.txt
└── setup.py

目录结构介绍

data/: 包含用于训练和测试的数据集，如 CoNLL-2003 数据集。
models/: 包含预训练的 BERT 模型文件，包括配置文件、权重文件和词汇表。
src/: 包含项目的主要源代码文件。
- main.py: 项目的启动文件。
- config.py: 项目的配置文件。
- data_loader.py: 数据加载器，用于加载和预处理数据。
- model.py: 定义了用于 NER 任务的模型。
- trainer.py: 训练器，用于训练模型。
- utils.py: 包含一些实用工具函数。
README.md: 项目说明文档。
requirements.txt: 项目依赖的 Python 包列表。
setup.py: 用于安装项目的脚本。

2. 项目的启动文件介绍

`main.py`

main.py 是项目的启动文件，负责初始化配置、加载数据、训练模型和评估模型。以下是主要功能模块：

import argparse
from src.config import Config
from src.data_loader import DataLoader
from src.model import BertNER
from src.trainer import Trainer

def main():
    parser = argparse.ArgumentParser(description='BERT-NER')
    parser.add_argument('--config', type=str, default='config.json', help='Path to the config file')
    args = parser.parse_args()

    config = Config(args.config)
    data_loader = DataLoader(config)
    model = BertNER(config)
    trainer = Trainer(model, data_loader, config)

    trainer.train()

if __name__ == '__main__':
    main()

主要功能

解析命令行参数，加载配置文件。
初始化配置对象 Config。
加载数据 DataLoader。
初始化模型 BertNER。
初始化训练器 Trainer 并开始训练。

3. 项目的配置文件介绍

`config.py`

config.py 文件定义了项目的配置类 Config，负责加载和解析配置文件，并提供配置参数。

import json

class Config:
    def __init__(self, config_path):
        with open(config_path, 'r') as f:
            config = json.load(f)
        
        self.model_name = config['model_name']
        self.data_dir = config['data_dir']
        self.output_dir = config['output_dir']
        self.max_seq_length = config['max_seq_length']
        self.batch_size = config['batch_size']
        self.learning_rate = config['learning_rate']
        self.num_train_epochs = config['num_train_epochs']
        self.warmup_proportion = config['warmup_proportion']
        self.seed = config['seed']
        self.do_lower_case = config['do_lower_case']