ChemBench项目开发指南：Prompter对象与开发工作流详解

2025-07-09 17:02:02作者：郦嵘贵Just

引言

ChemBench是一个专注于化学领域的基准测试框架，它通过标准化的评估流程帮助研究人员测试和比较不同模型在化学任务上的表现。本文将深入解析ChemBench中的核心组件Prompter对象的设计原理，以及项目的开发工作流程规范。

Prompter对象详解

基本概念

Prompter对象是ChemBench中的核心组件，负责处理提示生成以及特殊化学表示（如SMILES、数学公式、化学组成等）的转换工作。这些对象能够根据不同模型的需求，自动适配特定的标记和分词方式。

创建Prompter对象

对于大多数常见用例，可以使用PrompterBuilder.from_model_object类方法快速构建Prompter对象：

from chembench.prompter import PrompterBuilder

# 创建GPT-4的Prompter对象
prompter = PrompterBuilder.from_model_object("openai/gpt-4")

模型类型区分

ChemBench支持两种主要的模型类型：

指令调优模型：如GPT-4等，默认使用prompt_type="instruct"
基础补全模型：如Qwen/Qwen2.5-0.5B等，需要显式声明prompt_type="completion"

# 创建基础补全模型的Prompter对象
prompter = PrompterBuilder.from_model_object(
    model=model,
    prompt_type="completion",
)

特殊化学表示处理

ChemBench采用严格的LaTeX格式和标注规范来处理化学相关的特殊表示。PrompterBuilder提供了多种后处理函数来处理这些特殊表示：

化学实体(ce)：处理化学实体标记
数学公式(math)：处理数学公式的$标记
物理单位(pu)：处理物理单位标记
SMILES：处理[BEGIN_SMILES][END_SMILES]标记
反应SMILES：处理[BEGIN_RXNSMILES][END_RXNSMILES]标记

开发者可以根据模型训练时使用的特定语法选择适当的后处理函数。

答案提取机制

ChemBench采用双重机制来提取模型生成的答案：

正则表达式解析：主要方法，通过提示词引导模型按特定格式输出
LLM回退机制：当正则解析失败时，使用模型自身来提取正确答案

拒绝回答检测

ChemBench提供了三种拒绝回答检测机制：

情感分析：基于专用模型分析回答情感倾向
关键词匹配：检测常见拒绝回答关键词
混合方法：结合情感分析和关键词匹配

Prompter Pipeline配置

通过PrompterPipeline可以灵活配置所有上述设置：

from chembench.prompter import PrompterPipeline

pipeline = PrompterPipeline()
pipeline.add_step('system_prompt', '自定义系统提示')
pipeline.add_hook('post_process_math', custom_math_processor)
pipeline.add_hook('refusal_detection', 'hybrid')
pipeline.add_step('use_cot', True)

prompter = PrompterBuilder.from_model_object(
    model=model,
    pipeline=pipeline
)

缓存机制

ChemBench使用本地pickle文件(state.pkl)缓存模型结果，避免重复计算。当评估中断时，可以从缓存恢复进度。

开发工作流规范

代码质量标准

代码格式化：使用ruff工具确保代码风格一致
预提交钩子：通过pre-commit自动运行格式化检查
测试要求：所有提交必须通过测试套件

GitFlow工作流

ChemBench采用GitFlow分支模型进行协作开发：

主要分支：
- main：生产就绪状态
- develop：功能集成分支
支持分支：
- 功能分支(feature/)
- 发布分支(release/)
- 热修复分支(hotfix/)
发布流程：
- 从develop创建release分支
- 运行make release自动化版本更新和变更日志生成
- 合并到main和develop分支