Tantivy项目中实现ASCII折叠过滤器的技术解析

2025-05-17 00:14:47作者：裘晴惠Vivianne

Tantivy is a full-text search engine library inspired by Apache Lucene and written in Rust

项目地址：https://gitcode.com/GitHub_Trending/ta/tantivy

概述

在全文搜索引擎Tantivy中，处理带有变音符号的字符（如"ö"、"é"等）与它们的基本ASCII字符（如"o"、"e"）之间的匹配是一个常见需求。本文将详细介绍如何在Tantivy中实现这一功能，使搜索"old"和"öld"能够返回相同的结果。

问题背景

在构建多语言搜索应用时，用户经常希望搜索词能够匹配不同形式的字符变体。例如：

搜索"old"应该匹配"öld"
搜索"resume"应该匹配"résumé"
搜索"naive"应该匹配"naïve"

这种需求在食谱搜索、多语言文档检索等场景中尤为常见。

技术实现

1. 创建自定义分析器

Tantivy提供了AsciiFoldingFilter过滤器，可以将变音字符转换为它们的ASCII等价形式。正确使用这个过滤器需要创建一个自定义的分析器链：

let mut schema_builder = Schema::builder();
schema_builder.add_text_field("title", TEXT | STORED);
schema_builder.add_text_field("body", TEXT | STORED);
let schema = schema_builder.build();

let tokenizer_manager = TokenizerManager::default();
let custom_tokenizer = TextAnalyzer::builder(SimpleTokenizer::default())
    .filter(RemoveLongFilter::limit(40))
    .filter(LowerCaser)
    .filter(AsciiFoldingFilter)
    .build();

tokenizer_manager.register("custom", custom_tokenizer);

2. 配置索引

创建索引时需要指定使用我们自定义的分析器：

let index = Index::builder()
    .tokenizers(tokenizer_manager)
    .schema(schema)
    .create_in_ram()?;

3. 索引文档

添加文档时，文本会自动经过我们定义的分析器处理：

let mut index_writer = index.writer(50_000_000)?;
let title = schema.get_field("title").unwrap();
let body = schema.get_field("body").unwrap();

let mut doc = Document::default();
doc.add_text(title, "The öld man");
doc.add_text(body, "He was an old man...");
index_writer.add_document(doc);
index_writer.commit()?;

4. 查询处理

查询时使用相同的分析器链处理查询词：

let reader = index.reader()?;
let searcher = reader.searcher();

let query_parser = QueryParser::for_index(&index, vec![title, body]);
let query = query_parser.parse_query("öld")?;

let top_docs = searcher.search(&query, &TopDocs::with_limit(10))?;

工作原理

分词阶段：SimpleTokenizer将文本分割为单独的词语
大小写转换：LowerCaser将所有字母转换为小写
ASCII折叠：AsciiFoldingFilter将变音字符转换为其基本形式
- "ö" → "o"
- "é" → "e"
- "ß" → "ss"

这样处理后，"öld"和"old"都会被索引为"old"，实现跨字符变体的匹配。

性能考虑

索引大小：ASCII折叠不会显著增加索引大小
查询速度：过滤操作在索引时完成，查询时几乎不影响性能
内存使用：分析器链的内存开销很小

扩展应用

这种技术不仅适用于变音符号处理，还可以与其他过滤器组合实现更复杂的文本处理：

结合停用词过滤器移除常见词
添加词干提取器处理不同词形变化
使用N-gram分词器实现部分匹配

结论

Tantivy的过滤器机制提供了强大的文本处理能力。通过合理配置分析器链，特别是使用AsciiFoldingFilter，开发者可以轻松实现跨字符变体的智能搜索功能，大大提升多语言应用的搜索体验。这种方案不仅适用于食谱搜索，也适用于任何需要处理多语言文本的搜索场景。

Tantivy is a full-text search engine library inspired by Apache Lucene and written in Rust

项目地址：https://gitcode.com/GitHub_Trending/ta/tantivy

登录后查看全文

热门内容推荐

最新内容推荐

项目优选

收起

openHiTLS-examples

本仓将为广大高校开发者提供开源实践和创新开发平台，收集和展示openHiTLS示例代码及创新应用，欢迎大家投稿，让全世界看到您的精巧密码实现设计，也让更多人通过您的优秀成果，理解、喜爱上密码技术。

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

deepin linux kernel

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境