DiceDB项目中的WebSocket服务器解析器空格处理优化

2025-05-23 22:01:33作者：伍希望

在DiceDB项目的WebSocket服务器实现中，命令解析器目前存在一个关于空格字符处理的问题。当键值对中的值包含空格时（例如"name":"New York"），现有的解析逻辑无法正确识别这种情况。

问题背景

WebSocket服务器作为DiceDB的重要组件，负责处理客户端发送的各种命令请求。这些命令通常以键值对的形式传递，例如{"command":"SET","key":"user:1","value":"John Doe"}。当前实现中，解析器在分割参数时没有充分考虑值中包含空格的情况，导致这类命令无法被正确处理。

技术分析

命令解析器的核心功能是将接收到的字符串转换为可执行的命令对象。在遇到包含空格的字符串值时，解析器错误地将单个值分割为多个部分。例如：

"city":"New York" → 错误解析为 ["city":"New", "York"]

而正确的解析结果应该是保持值的完整性：

"city":"New York" → 正确解析为 ["city":"New York"]

解决方案

解决此问题需要重构命令解析器的实现，主要考虑以下几个方面：

引号识别：解析器需要能够识别字符串值周围的引号，确保引号内的内容作为一个整体处理
转义字符处理：考虑值中可能包含转义引号的情况，如"description":"This is "important""
性能优化：在保证正确性的前提下，尽量减少解析过程中的内存分配和拷贝操作

可以参考项目中HTTP服务器的解析器实现，它已经正确处理了这类场景。HTTP服务器的解析器采用了状态机的方式，能够准确识别字符串边界。

测试验证

为确保修改的正确性，需要添加针对以下场景的测试用例：

基本空格场景：验证"key":"value with space"的解析
边界情况：验证空字符串""和仅包含空格的字符串" "的处理
混合场景：验证同时包含带空格和不带空格值的命令解析
转义字符：验证包含转义引号和转义空格的字符串处理

实现建议

在Go语言中实现时，可以考虑以下方法：

func parseCommand(input string) ([]string, error) {
    var tokens []string
    var currentToken strings.Builder
    inQuotes := false
    escapeNext := false

    for _, r := range input {
        switch {
        case escapeNext:
            currentToken.WriteRune(r)
            escapeNext = false
        case r == '\\':
            escapeNext = true
        case r == '"':
            inQuotes = !inQuotes
            currentToken.WriteRune(r)
        case !inQuotes && unicode.IsSpace(r):
            if currentToken.Len() > 0 {
                tokens = append(tokens, currentToken.String())
                currentToken.Reset()
            }
        default:
            currentToken.WriteRune(r)
        }
    }

    if currentToken.Len() > 0 {
        tokens = append(tokens, currentToken.String())
    }

    if inQuotes {
        return nil, errors.New("unclosed quotes in input")
    }

    return tokens, nil
}