bloom高级功能:自定义行为评估的完整指南
bloom是一款功能强大的行为评估工具,能够帮助用户立即评估任何行为,其核心优势在于高度的可定制性。本文将详细介绍如何利用bloom的高级功能进行自定义行为评估,让你轻松打造符合特定需求的评估系统。
一、自定义行为评估的基础准备
在开始自定义行为评估之前,首先需要确保你已经正确安装了bloom项目。如果还没有安装,可以通过以下命令克隆仓库:
git clone https://gitcode.com/GitHub_Trending/bloom31/bloom
bloom的自定义行为评估功能主要依赖于行为定义文件和评估配置文件。这些文件都位于项目的特定目录中,了解它们的位置和结构是进行自定义的第一步。
1.1 行为定义文件的位置
行为定义文件主要存放在src/bloom/data/behaviors/examples/目录下,该目录包含了多种行为的示例,如animal-welfare、contextual-optimism、defend-objects等。每个行为都有多个示例JSON文件,例如:
src/bloom/data/behaviors/examples/animal-welfare/example1.jsonsrc/bloom/data/behaviors/examples/contextual-optimism/example2.json
这些示例文件可以作为你创建自定义行为的参考模板。
1.2 评估配置文件的位置
评估配置文件主要位于src/bloom/data/configurable_prompts/目录,其中包含了各种评估相关的配置,如默认配置、特定行为的配置等。例如:
src/bloom/data/configurable_prompts/default.jsonsrc/bloom/data/configurable_prompts/mo_animal-welfare.json
这些配置文件定义了评估过程中使用的提示词和参数,是自定义评估逻辑的关键。
二、创建自定义行为定义文件
自定义行为评估的第一步是创建自己的行为定义文件。行为定义文件是JSON格式的,它描述了需要评估的行为特征、示例场景等信息。
2.1 行为定义文件的结构
一个典型的行为定义文件包含以下几个关键部分:
behavior_name:行为的名称,用于标识该行为description:行为的详细描述,说明该行为的特征和表现examples:行为的示例场景,包含输入和期望的输出
你可以参考src/bloom/data/behaviors/examples/目录下的现有示例文件来构建自己的行为定义。例如,src/bloom/data/behaviors/examples/defer-to-users/example1.json就是一个很好的参考范例。
2.2 创建自定义行为定义文件的步骤
- 在
src/bloom/data/behaviors/examples/目录下创建一个新的文件夹,用于存放你的自定义行为示例,例如my-custom-behavior。 - 在新创建的文件夹中创建一个或多个JSON文件,如
example1.json、example2.json等。 - 按照行为定义文件的结构,填写自定义行为的名称、描述和示例场景。
以下是一个简单的自定义行为定义文件示例:
{
"behavior_name": "my-custom-behavior",
"description": "This is a custom behavior for evaluating user-defined scenarios.",
"examples": [
{
"input": "User query: How to implement custom behavior evaluation in bloom?",
"output": "To implement custom behavior evaluation in bloom, you need to create behavior definition files and configure evaluation prompts."
}
]
}
三、配置自定义评估提示词
评估提示词是影响评估结果的关键因素。bloom允许你通过配置文件自定义评估过程中使用的提示词,以适应不同的评估需求。
3.1 评估提示词配置文件的结构
评估提示词配置文件位于src/bloom/data/configurable_prompts/目录,文件格式为JSON。这些文件定义了评估的各个步骤(如理解、构思、推演、判断)所使用的提示词。例如,src/bloom/data/configurable_prompts/default.json是默认的评估提示词配置文件。
一个典型的评估提示词配置文件包含以下几个部分:
step1_understanding:理解阶段的提示词step2_ideation:构思阶段的提示词step3_rollout:推演阶段的提示词step4_judgment:判断阶段的提示词
3.2 创建自定义评估提示词配置文件
如果你需要为自定义行为创建特定的评估提示词,可以在src/bloom/data/configurable_prompts/目录下创建一个新的JSON文件,例如mo_my-custom-behavior.json(遵循mo_行为名称.json的命名规范)。
在该文件中,你可以根据需要修改各个评估步骤的提示词。例如,为了更准确地评估自定义行为,你可以调整判断阶段的提示词,使其更关注自定义行为的特定特征。
四、运行自定义行为评估
完成自定义行为定义文件和评估提示词配置文件的创建后,就可以运行自定义行为评估了。bloom提供了命令行接口(CLI)来执行评估任务,你可以通过以下步骤运行评估:
4.1 使用CLI运行评估
bloom的CLI位于src/bloom/cli.py文件中,你可以通过运行该文件来启动评估。以下是一个运行自定义行为评估的示例命令:
python -m bloom.cli evaluate --behavior my-custom-behavior --config mo_my-custom-behavior
其中,--behavior参数指定要评估的行为名称,--config参数指定评估提示词配置文件的名称(不包含.json扩展名)。
4.2 查看评估结果
评估完成后,结果会以特定的格式输出。你可以在控制台上直接查看评估结果,也可以通过查看评估过程中生成的转录文件来获取更详细的信息。转录文件通常位于tests/fixtures/目录下,例如tests/fixtures/self-preferential-bias/transcript_v1r1.json。
五、自定义行为评估的高级技巧
为了让自定义行为评估更加准确和高效,这里提供一些高级技巧:
5.1 丰富行为示例
行为示例的数量和质量直接影响评估的准确性。尽量为自定义行为提供多个不同场景的示例,涵盖各种可能的输入和期望输出。例如,在src/bloom/data/behaviors/examples/my-custom-behavior/目录下创建多个示例文件(example1.json、example2.json、example3.json等)。
5.2 优化评估提示词
评估提示词的质量对评估结果至关重要。在编写提示词时,要明确评估的标准和重点,避免模糊不清的表述。你可以参考src/bloom/data/configurable_prompts/目录下的其他配置文件,学习如何编写有效的提示词。
5.3 利用评估阶段的源码
如果需要深入理解评估过程的实现细节,可以查看评估各个阶段的源码。这些源码位于src/bloom/stages/目录下,包括:
src/bloom/stages/step1_understanding.pysrc/bloom/stages/step2_ideation.pysrc/bloom/stages/step3_rollout.pysrc/bloom/stages/step4_judgment.py
通过阅读这些源码,你可以了解评估过程的具体实现,从而更好地定制评估逻辑。
六、总结
通过本文的指南,你已经了解了如何利用bloom的高级功能进行自定义行为评估。从创建行为定义文件和评估配置文件,到运行评估和优化结果,每个步骤都有详细的说明和示例。希望这些内容能够帮助你充分发挥bloom的潜力,实现符合特定需求的行为评估。
如果你在使用过程中遇到问题,可以参考项目中的测试文件和示例配置,或查看项目的官方文档(虽然本文不提供外部链接,但你可以在项目的根目录中查找相关文档文件)。祝你在bloom的自定义行为评估之旅中取得成功! 🌸🌱
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust098- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiMo-V2.5-ProMiMo-V2.5-Pro作为旗舰模型,擅⻓处理复杂Agent任务,单次任务可完成近千次⼯具调⽤与⼗余轮上 下⽂压缩。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00