bloom高级功能:自定义行为评估的完整指南
bloom是一款功能强大的行为评估工具,能够帮助用户立即评估任何行为,其核心优势在于高度的可定制性。本文将详细介绍如何利用bloom的高级功能进行自定义行为评估,让你轻松打造符合特定需求的评估系统。
一、自定义行为评估的基础准备
在开始自定义行为评估之前,首先需要确保你已经正确安装了bloom项目。如果还没有安装,可以通过以下命令克隆仓库:
git clone https://gitcode.com/GitHub_Trending/bloom31/bloom
bloom的自定义行为评估功能主要依赖于行为定义文件和评估配置文件。这些文件都位于项目的特定目录中,了解它们的位置和结构是进行自定义的第一步。
1.1 行为定义文件的位置
行为定义文件主要存放在src/bloom/data/behaviors/examples/目录下,该目录包含了多种行为的示例,如animal-welfare、contextual-optimism、defend-objects等。每个行为都有多个示例JSON文件,例如:
src/bloom/data/behaviors/examples/animal-welfare/example1.jsonsrc/bloom/data/behaviors/examples/contextual-optimism/example2.json
这些示例文件可以作为你创建自定义行为的参考模板。
1.2 评估配置文件的位置
评估配置文件主要位于src/bloom/data/configurable_prompts/目录,其中包含了各种评估相关的配置,如默认配置、特定行为的配置等。例如:
src/bloom/data/configurable_prompts/default.jsonsrc/bloom/data/configurable_prompts/mo_animal-welfare.json
这些配置文件定义了评估过程中使用的提示词和参数,是自定义评估逻辑的关键。
二、创建自定义行为定义文件
自定义行为评估的第一步是创建自己的行为定义文件。行为定义文件是JSON格式的,它描述了需要评估的行为特征、示例场景等信息。
2.1 行为定义文件的结构
一个典型的行为定义文件包含以下几个关键部分:
behavior_name:行为的名称,用于标识该行为description:行为的详细描述,说明该行为的特征和表现examples:行为的示例场景,包含输入和期望的输出
你可以参考src/bloom/data/behaviors/examples/目录下的现有示例文件来构建自己的行为定义。例如,src/bloom/data/behaviors/examples/defer-to-users/example1.json就是一个很好的参考范例。
2.2 创建自定义行为定义文件的步骤
- 在
src/bloom/data/behaviors/examples/目录下创建一个新的文件夹,用于存放你的自定义行为示例,例如my-custom-behavior。 - 在新创建的文件夹中创建一个或多个JSON文件,如
example1.json、example2.json等。 - 按照行为定义文件的结构,填写自定义行为的名称、描述和示例场景。
以下是一个简单的自定义行为定义文件示例:
{
"behavior_name": "my-custom-behavior",
"description": "This is a custom behavior for evaluating user-defined scenarios.",
"examples": [
{
"input": "User query: How to implement custom behavior evaluation in bloom?",
"output": "To implement custom behavior evaluation in bloom, you need to create behavior definition files and configure evaluation prompts."
}
]
}
三、配置自定义评估提示词
评估提示词是影响评估结果的关键因素。bloom允许你通过配置文件自定义评估过程中使用的提示词,以适应不同的评估需求。
3.1 评估提示词配置文件的结构
评估提示词配置文件位于src/bloom/data/configurable_prompts/目录,文件格式为JSON。这些文件定义了评估的各个步骤(如理解、构思、推演、判断)所使用的提示词。例如,src/bloom/data/configurable_prompts/default.json是默认的评估提示词配置文件。
一个典型的评估提示词配置文件包含以下几个部分:
step1_understanding:理解阶段的提示词step2_ideation:构思阶段的提示词step3_rollout:推演阶段的提示词step4_judgment:判断阶段的提示词
3.2 创建自定义评估提示词配置文件
如果你需要为自定义行为创建特定的评估提示词,可以在src/bloom/data/configurable_prompts/目录下创建一个新的JSON文件,例如mo_my-custom-behavior.json(遵循mo_行为名称.json的命名规范)。
在该文件中,你可以根据需要修改各个评估步骤的提示词。例如,为了更准确地评估自定义行为,你可以调整判断阶段的提示词,使其更关注自定义行为的特定特征。
四、运行自定义行为评估
完成自定义行为定义文件和评估提示词配置文件的创建后,就可以运行自定义行为评估了。bloom提供了命令行接口(CLI)来执行评估任务,你可以通过以下步骤运行评估:
4.1 使用CLI运行评估
bloom的CLI位于src/bloom/cli.py文件中,你可以通过运行该文件来启动评估。以下是一个运行自定义行为评估的示例命令:
python -m bloom.cli evaluate --behavior my-custom-behavior --config mo_my-custom-behavior
其中,--behavior参数指定要评估的行为名称,--config参数指定评估提示词配置文件的名称(不包含.json扩展名)。
4.2 查看评估结果
评估完成后,结果会以特定的格式输出。你可以在控制台上直接查看评估结果,也可以通过查看评估过程中生成的转录文件来获取更详细的信息。转录文件通常位于tests/fixtures/目录下,例如tests/fixtures/self-preferential-bias/transcript_v1r1.json。
五、自定义行为评估的高级技巧
为了让自定义行为评估更加准确和高效,这里提供一些高级技巧:
5.1 丰富行为示例
行为示例的数量和质量直接影响评估的准确性。尽量为自定义行为提供多个不同场景的示例,涵盖各种可能的输入和期望输出。例如,在src/bloom/data/behaviors/examples/my-custom-behavior/目录下创建多个示例文件(example1.json、example2.json、example3.json等)。
5.2 优化评估提示词
评估提示词的质量对评估结果至关重要。在编写提示词时,要明确评估的标准和重点,避免模糊不清的表述。你可以参考src/bloom/data/configurable_prompts/目录下的其他配置文件,学习如何编写有效的提示词。
5.3 利用评估阶段的源码
如果需要深入理解评估过程的实现细节,可以查看评估各个阶段的源码。这些源码位于src/bloom/stages/目录下,包括:
src/bloom/stages/step1_understanding.pysrc/bloom/stages/step2_ideation.pysrc/bloom/stages/step3_rollout.pysrc/bloom/stages/step4_judgment.py
通过阅读这些源码,你可以了解评估过程的具体实现,从而更好地定制评估逻辑。
六、总结
通过本文的指南,你已经了解了如何利用bloom的高级功能进行自定义行为评估。从创建行为定义文件和评估配置文件,到运行评估和优化结果,每个步骤都有详细的说明和示例。希望这些内容能够帮助你充分发挥bloom的潜力,实现符合特定需求的行为评估。
如果你在使用过程中遇到问题,可以参考项目中的测试文件和示例配置,或查看项目的官方文档(虽然本文不提供外部链接,但你可以在项目的根目录中查找相关文档文件)。祝你在bloom的自定义行为评估之旅中取得成功! 🌸🌱
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00