Easy-Dataset项目中的并发请求优化技巧：突破浏览器连接限制

2025-06-02 07:27:28作者：咎竹峻Karen

A powerful tool for creating datasets for LLM fine-tuning 、RAG and Eval

项目地址：https://gitcode.com/gh_mirrors/ea/easy-dataset

在使用Easy-Dataset项目连接本地部署的大语言模型生成数据集时，许多开发者可能会遇到一个常见但容易被忽视的性能瓶颈问题：任务配置中设置的并发数量与实际模型处理的请求数量不一致。本文将深入分析这一现象的技术原理，并提供有效的解决方案。

问题现象分析

当用户在Easy-Dataset中设置较高的并发数量（如40或64）进行批量数据生成时，通过观察本地部署的大模型（如使用sglang部署的DeepSeek）日志，会发现实际处理的并发请求数量远低于配置值。典型日志显示：

Decode batch. #running-req: 7, #token: 26739

而通过直接使用curl命令发送40个并发请求时，模型却能正常处理全部并发请求。这种差异表明问题并非出在模型服务器端，而是与前端请求发送机制有关。

技术原理探究

这一现象的根本原因在于HTTP/1.1协议的连接管理机制。现代浏览器出于性能和安全考虑，默认会对同一域名的并发连接数进行限制：

浏览器连接池限制：主流浏览器（如Firefox、Chrome）默认对同一域名仅保持6-8个持久连接
HTTP/1.1的队头阻塞：虽然HTTP/1.1支持持久连接，但同一连接上的请求必须按顺序处理
Easy-Dataset的请求机制：项目通过浏览器前端发送API请求，自然受到浏览器连接策略的限制

解决方案

浏览器配置调整

对于Firefox用户，可通过以下步骤提升并发连接数：

在地址栏输入：about:config
搜索并修改以下参数：
- network.http.max-persistent-connections-per-server（默认6，建议调整为30-50）
- network.http.max-connections（全局最大连接数，也需相应提高）

替代方案

使用HTTP/2或HTTP/3：这些协议支持多路复用，能更高效地处理并发请求
分布式请求：将请求分散到多个子域名，绕过单域名限制
后端代理：通过服务器端程序转发请求，避开浏览器限制

最佳实践建议

合理设置并发数：根据服务器性能和浏览器配置找到最优值
监控模型负载：通过模型日志观察实际处理情况
分批次处理：对大规模数据集采用分批处理策略
环境隔离：为数据生成任务使用专用浏览器实例

技术延伸

理解这一现象有助于开发者更好地优化基于浏览器的AI应用性能。类似限制也存在于：

WebSocket连接数
IndexedDB操作并发数
跨域请求限制

通过合理配置和架构设计，可以充分发挥本地大模型的处理能力，显著提升Easy-Dataset项目的数据生成效率。

A powerful tool for creating datasets for LLM fine-tuning 、RAG and Eval

项目地址：https://gitcode.com/gh_mirrors/ea/easy-dataset

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统