BBOT项目中HTML编码表单导致表单动作解析错误的修复分析

2025-05-27 01:12:15作者：沈韬淼Beryl

在网络安全扫描工具BBOT中，发现了一个关于HTML表单动作(action)属性解析的重要问题。当表单的action属性使用HTML实体编码时，会导致参数解析出现错误，最终影响扫描结果的准确性。

问题背景

在Web应用程序中，表单的action属性通常用于指定表单提交的目标URL。开发人员有时会出于安全考虑或编码规范，对URL中的特殊字符进行HTML实体编码。例如，冒号(:)被编码为:，斜杠(/)被编码为/。

问题现象

在BBOT扫描过程中，当遇到如下形式的HTML表单时：

<form action="https&#x3a;&#x2f;&#x2f;127.0.0.1&#x3a;8080&#x2f;sso-web&#x2f;singleSignOn.action" method="post">

扫描器错误地将解析后的参数截断，导致最终得到的WEB_PARAMETER事件中的URL变成了https&，而不是正确的https://127.0.0.1:8080/sso-web/singleSignOn.action。

技术分析

这个问题的根本原因在于URL解析器在处理HTML实体编码时的逻辑缺陷：

解析器首先对HTML实体进行解码，将:转换为冒号(:)，/转换为斜杠(/)
但在解析过程中，错误地将解码后的#字符识别为URL片段标识符(即锚点)
这导致解析器将#后面的内容当作片段部分截断，而不是作为URL路径的一部分

影响范围

此问题会影响BBOT对以下类型页面的扫描准确性：

使用HTML实体编码的表单action属性
包含特殊字符的URL路径
自动提交的表单(通过JavaScript或meta refresh)

解决方案

BBOT开发团队通过以下方式修复了此问题：

修改URL解析逻辑，确保在HTML实体解码后正确处理所有特殊字符
增加对编码后URL的完整性检查
确保片段标识符(#)只在适当的位置被识别和处理

最佳实践建议

对于Web应用开发人员和渗透测试人员，建议：

在开发时，合理使用URL编码，避免过度编码导致解析问题
在安全测试中，应注意检查工具对编码URL的处理能力
定期更新安全扫描工具，确保使用包含此类修复的最新版本

此修复显著提高了BBOT在复杂Web环境中的扫描准确性，特别是在处理使用各种编码技术的现代Web应用时。

bbot

OSINT automation for hackers.

项目地址：https://gitcode.com/GitHub_Trending/bb/bbot

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

kernel