LaVague项目中LLM指令重写模块的优化与问题解决

2025-06-04 17:03:00作者：魏献源Searcher

LaVague，浪花之下蕴藏强大潜能——一个专为开发者设计的开源Web智能代理框架，旨在赋能你自动化网络任务的新境界。通过融合世界模型与行动引擎，它能理解复杂目标，并自动执行如"Selenium或Playwright"编译出的动作序列，轻松驾驭网页交互。不仅如此，LaVague QA扩展，专为质量保证工程师打造，将Gherkin规范转化为高效集成测试，颠覆传统web测试效率。从零构建到精细调控，LaVague提供互动式Gradio界面、详尽日志和调试工具，让你在自动化之旅上得心应手。无论是探索Hugging Face库的快速教程，还是构建复杂的网页自动化流程，LaVague都是你强有力的伙伴。加入我们，共同在AI驱动的网页自动化领域激起新的波澜！

项目地址：https://gitcode.com/GitHub_Trending/la/LaVague

引言

在LaVague项目开发过程中，我们发现了一个影响WebAgent稳定性的关键问题：当使用不同的大语言模型(LLM)进行指令重写时，系统会抛出"string indices must be integers, not 'str'"的错误。这个问题暴露了指令重写模块在处理LLM输出时的脆弱性，本文将深入分析问题原因并提供解决方案。

问题背景

LaVague是一个基于大语言模型的Web自动化框架，其核心功能是将自然语言指令转换为可执行的Web操作。在这个过程中，指令重写模块(Rephraser)负责将用户输入的自然语言指令标准化为结构化格式。

问题现象

开发团队在使用不同LLM模型时发现了以下问题表现：

错误信息："string indices must be integers, not 'str'"
问题主要出现在指令重写阶段
影响多个模型，包括HuggingFaceH4/zephyr-7b-alpha、Phi-3-medium-128k-instruct和llama3-8b等

根本原因分析

经过深入调查，我们发现问题的根源在于：

LLM输出格式不一致：不同模型对提示词(Prompt)的响应方式不同，导致输出格式不符合预期
正则表达式匹配不足：原有的正则表达式会捕获第一个[和最后一个]之间的所有内容，包括LLM可能输出的额外解释文本
结构化数据解析失败：当LLM输出不符合预期格式时，后续对action字典的访问会失败

解决方案

针对上述问题，我们实施了以下改进措施：

1. 提示词工程优化

我们重新设计了提示词模板，增加了更清晰的示例和格式要求：

REPHRASE_PROMPT = Template(
    """
You are an AI system designed to convert text-based instructions for web actions into standardized instructions.
KEY INSTRUCTIONS:
Here are previous examples:
Query: Type 'Command R plus' on the search bar with placeholder "Search ..."
Output: [{'query':'input"Search ..."', 'action':'Click on the input "Search ..." and type "Command R plus"'}]...
"""
)

2. 正则表达式精确匹配

我们改进了正则表达式，使其只匹配第一个[和紧接着的]之间的内容，避免捕获LLM可能输出的额外解释文本：

# 旧的正则表达式：匹配第一个[和最后一个]之间的所有内容
# 新的正则表达式：只匹配第一个[和紧接着的]之间的内容

3. 输出格式验证

增加了对LLM输出格式的验证逻辑，确保解析出的数据结构符合预期格式：

if not isinstance(actions, list):
    raise ValueError("LLM output format error: expected list of actions")
for action in actions:
    if not all(key in action for key in ['query', 'action']):
        raise ValueError("LLM output format error: missing required keys")