Typesense 中实现前缀搜索与容错的技术方案

2025-05-09 14:44:17作者：丁柯新Fawn

Open Source alternative to Algolia + Pinecone and an Easier-to-Use alternative to ElasticSearch ⚡ 🔍 ✨ Fast, typo tolerant, in-memory fuzzy Search Engine for building delightful search experiences

项目地址：https://gitcode.com/gh_mirrors/ty/typesense

前缀搜索的挑战与解决方案

在开发搜索功能时，我们经常需要实现前缀匹配（prefix matching）功能，即查找以特定字符串开头的文档。在Typesense中，直接使用filter_by参数可以实现严格的前缀匹配，但这种方法存在两个主要限制：

无法支持拼写容错（typo tolerance）
结果数量可能不符合预期（如示例中设置了limit_hits:5但只返回4个结果）

问题根源分析

通过测试案例可以清楚地看到问题表现：当使用filter_by: "name:=match*"进行前缀过滤时，虽然集合中有10个匹配文档，但结果数量却不符合预期。这是因为Typesense默认对filter_by操作设置了内部候选结果限制。

解决方案一：调整候选结果限制

从Typesense 28.0版本开始，可以通过max_filter_by_candidates参数显式控制过滤操作的候选结果数量：

search_params = {
    "q": "*",
    "filter_by": "name:=match*",
    "limit_hits": 5,
    "max_filter_by_candidates": 5  # 显式设置候选数量
}

这种方法解决了结果数量不符合预期的问题，但仍然无法实现拼写容错。

解决方案二：实现支持容错的前缀搜索

要实现同时支持前缀匹配和拼写容错的搜索，可以采用以下技术方案：

修改字段索引配置：通过将空格字符加入symbols_to_index，改变默认的分词行为

collection_schema = {
    "name": "test_collection",
    "fields": [
        {
            "name": "name", 
            "type": "string",
            "symbols_to_index": [" "]  # 将空格作为索引符号
        }
    ]
}

使用标准搜索代替过滤：配置后可以直接使用标准搜索语法

search_params = {
    "q": "match*",  # 使用前缀搜索语法
    "query_by": "name",
    "num_typos": 1  # 启用拼写容错
}

技术原理详解

这种方案之所以有效，是因为：

索引行为改变：默认情况下，Typesense会将空格作为分词符，将"match country"索引为["match", "country"]两个token。添加空格到symbols_to_index后，整个字符串会被作为一个完整的token索引。
搜索行为优化：当整个字符串被作为单个token索引时，前缀搜索操作符*可以正确应用于整个字段值，而不仅仅是单个词。
容错机制：标准的q参数搜索自然支持拼写容错功能，通过num_typos参数可以控制容错级别。