SmolAgents项目中规划步骤导致后续动作执行异常的技术分析

2025-05-12 01:19:02作者：咎竹峻Karen

🤗 smolagents: a barebones library for agents. Agents write python code to call tools and orchestrate other agents.

项目地址：https://gitcode.com/gh_mirrors/smo/smolagents

问题背景

在SmolAgents项目开发过程中，我们发现了一个与规划步骤(planning step)执行相关的技术问题。当系统完成一个规划步骤后，该步骤会被记录到消息历史中，作为后续LLM生成输出的上下文参考。然而，这种设计在实际运行中会产生一些非预期的行为模式。

问题现象

具体表现为两种典型异常情况：

代码块闭合干扰：当规划步骤以三重反引号(```)结尾时，模型会误认为需要继续完成代码块闭合，导致后续输出格式混乱。例如可能产生类似`python\nprint("Doing next action")\n````这样的异常输出。
空响应问题：有时模型会直接返回空响应，因为它认为规划步骤已经完成，不需要继续生成内容。

技术原理分析

这种现象的根源在于消息角色的处理机制。当前实现中：

规划步骤被记录为"assistant"角色消息
当LLM接收到以assistant角色结尾的消息历史时
许多API会将其解释为需要继续完成上一条assistant消息

这种设计导致模型处于一种"续写"模式，而非开始新的响应生成。从模型的角度看，它认为自己是在完成一个未完成的响应，而非开始新的动作执行。

潜在解决方案评估

方案一：使用不同消息角色

考虑将规划步骤标记为不同于assistant的角色：

优点：

逻辑上更清晰地区分规划与执行

缺点：

大多数模型仅支持system/user/assistant三种标准角色
若使用user角色，会不恰当地提升规划步骤的权重
可能破坏现有的角色处理逻辑

方案二：添加虚拟用户消息

在规划步骤后附加一条虚拟用户消息：

实现方式：

可以添加如"开始执行！"这样的提示
或者设计更通用的提示模板

优点：

明确告知模型需要开始新的响应
保持现有角色体系不变
可定制化程度高

挑战：

需要谨慎设计提示词，避免引入偏见
可能需要在提示模板系统中增加特殊处理

最佳实践建议

基于当前技术评估，推荐采用方案二并遵循以下原则：

提示设计：虚拟消息应保持中性，如"请继续执行后续步骤"
模板化：将提示内容设计为可配置项，提高灵活性
上下文感知：可根据前序规划步骤内容动态调整提示
兼容性测试：确保方案在不同模型API下的表现一致

总结

这个问题揭示了在构建基于LLM的agent系统时，消息历史处理的重要性。规划与执行阶段需要明确的上下文分隔，而简单的角色标记可能不足以实现这一目标。通过精心设计的虚拟消息方案，可以在不破坏现有架构的前提下，实现更可靠的执行流程控制。

🤗 smolagents: a barebones library for agents. Agents write python code to call tools and orchestrate other agents.

项目地址：https://gitcode.com/gh_mirrors/smo/smolagents

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

Ascend Extension for PyTorch

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统