PostgreSQL全文检索利器：pg_bigm模块详解

2025-06-29 22:48:35作者：谭伦延

什么是pg_bigm

pg_bigm是PostgreSQL数据库的一个全文检索扩展模块，它采用2-gram（二元语法）分词技术为数据库提供高效的文本搜索能力。与PostgreSQL内置的pg_trgm（三元语法）模块相比，pg_bigm在处理亚洲语言（特别是日语和中文）时表现更优，且在短关键词搜索场景下性能更佳。

核心特性与技术原理

2-gram分词技术

pg_bigm的核心是2-gram分词算法，其工作原理如下：

对文本进行预处理，在开头和结尾添加空格
将文本按2个字符为单位进行切分
例如"数据库"会被切分为：" 数"、"数据"、"据库"、"库 "

这种分词方式特别适合处理没有明显分隔符的亚洲语言文本，相比基于空格的西方语言分词方法，2-gram能更准确地捕捉亚洲语言的语义特征。

与pg_trgm的对比

特性	pg_trgm (3-gram)	pg_bigm (2-gram)
分词方式	三元语法	二元语法
支持的索引类型	GIN/GiST	仅GIN
支持的操作符	LIKE/ILIKE/~/~*	仅LIKE
亚洲语言支持	有限支持	完整支持
短关键词搜索性能	较差	优秀
相似度搜索	支持	支持(1.1+)
最大索引列大小	~228MB	~102MB

安装与配置指南

环境要求

pg_bigm支持以下环境：

操作系统：Linux、Mac OS X
PostgreSQL版本：9.1及以上

安装步骤

编译安装PostgreSQL（如已安装可跳过）

tar zxf postgresql-X.Y.Z.tar.gz
cd postgresql-X.Y.Z
./configure --prefix=/opt/pgsql-X.Y.Z
make
sudo make install

安装pg_bigm模块

tar zxf pg_bigm-x.y-YYYYMMDD.tar.gz
cd pg_bigm-x.y-YYYYMMDD
make USE_PGXS=1 PG_CONFIG=/opt/pgsql-X.Y.Z/bin/pg_config
sudo make USE_PGXS=1 PG_CONFIG=/opt/pgsql-X.Y.Z/bin/pg_config install

数据库配置

修改postgresql.conf：
```
shared_preload_libraries = 'pg_bigm'
```
对于PostgreSQL 9.1还需添加：
```
custom_variable_classes = 'pg_bigm'
```

创建扩展
```
CREATE EXTENSION pg_bigm;
```

实际应用示例

全文检索实现

创建测试表并插入数据

CREATE TABLE products (name text, description text);
INSERT INTO products VALUES 
  ('智能手机', '高性能智能手机，配备最新处理器'),
  ('笔记本电脑', '轻薄笔记本电脑，超长续航');

创建GIN索引

CREATE INDEX products_idx ON products USING gin (description gin_bigm_ops);

执行全文检索

SELECT * FROM products WHERE description LIKE '%笔记本%';

相似度搜索

pg_bigm提供了相似度搜索功能，可用于模糊匹配：

-- 设置相似度阈值
SET pg_bigm.similarity_limit TO 0.3;

-- 执行相似度搜索
SELECT name FROM products WHERE name =% '智能';

核心函数解析

likequery函数

将普通搜索字符串转换为LIKE操作符可识别的模式：

SELECT likequery('数据库性能'); 
-- 返回：%数据库性能%

show_bigm函数

显示字符串的2-gram分词结果：

SELECT show_bigm('全文检索');
-- 返回：{" 全","全文","文检","检索","索 "}

bigm_similarity函数

计算两个字符串的相似度(0-1)：

SELECT bigm_similarity('数据库', '数据仓库');
-- 返回：0.4

性能调优参数

pg_bigm.enable_recheck
- 控制是否执行结果复核
- 生产环境应保持开启(默认on)
pg_bigm.gin_key_limit
- 限制用于索引搜索的2-gram数量
- 默认0(使用全部)，可优化长文本搜索性能
pg_bigm.similarity_limit
- 设置相似度搜索的阈值(0-1)
- 默认0.3，值越大匹配越严格

注意事项

索引列大小限制
- 最大支持约102MB的列建立索引
- 超出限制会导致内存错误
与pg_trgm共存
- 1.1+版本可共存，1.0版本不可共存
大小写敏感
- 与pg_trgm不同，bigm_similarity区分大小写

适用场景推荐

pg_bigm特别适合以下应用场景：

亚洲语言(中日韩)的全文检索
短关键词搜索(1-2个字符)
需要高精度匹配的文本搜索
模糊搜索和相似度匹配需求

对于需要处理更大文本(>102MB)或需要GiST索引的场景，可考虑结合使用pg_trgm模块。

通过合理配置和使用pg_bigm，可以显著提升PostgreSQL在亚洲语言环境下的文本搜索体验和性能表现。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

453

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。