CouchDB River 插件技术文档

2024-12-24 10:42:56作者：胡易黎Nicole

本文档旨在帮助用户了解和使用 CouchDB River 插件，以便能够自动索引 CouchDB 数据并使其可搜索。以下是插件的安装指南、使用说明以及 API 使用文档。

1. 安装指南

在安装插件之前，请确保您的 Elasticsearch 版本与插件版本相匹配。以下是安装步骤：

bin/plugin install elasticsearch/elasticsearch-river-couchdb/2.6.0

如果需要构建一个 SNAPSHOT 版本，您需要使用 Maven 进行构建：

mvn clean install
plugin --install river-couchdb \
       --url file:target/releases/elasticsearch-river-couchdb-X.X.X-SNAPSHOT.zip

2. 项目使用说明

要设置 CouchDB River，您需要执行以下命令来创建一个 river：

curl -XPUT 'localhost:9200/_river/my_db/_meta' -d '{
    "type" : "couchdb",
    "couchdb" : {
        "host" : "localhost",
        "port" : 5984,
        "db" : "my_db",
        "filter" : null
    },
    "index" : {
        "index" : "my_db",
        "type" : "my_db",
        "bulk_size" : "100",
        "bulk_timeout" : "10ms"
    }
}'

此调用将创建一个 river，使用 CouchDB 的 _changes 流自动索引所有数据。此外，任何“未来”的更改也将自动索引，使您的搜索索引与 CouchDB 保持同步。

CouchDB River 作为插件提供，包括如何安装它的说明。

3. 项目 API 使用文档

以下是 CouchDB River 插件的一些关键配置选项：

Bulking

默认情况下，插件会自动进行 bulking 操作以加快索引过程。如果在指定的 bulk_timeout 内检测到更多更改，更改将在达到 bulk_size 之前进行 bulk 操作。

{
    "type" : "couchdb",
    "index" : {
        "index" : "my_index",
        "type" : "my_type",
        "bulk_size" : 1000,
        "flush_interval" : "1s",
        "max_concurrent_bulk" : 3
    }
}

Filtering

changes 流允许您提供一个过滤器，该过滤器将由 CouchDB 用于过滤更改流。

{
    "couchdb" : {
        "filter" : "test",
        "filter_params" : {
            "param1" : "value1",
            "param2" : "value2"
        }
    }
}

Script Filters

您还可以通过提供脚本来进一步处理更改流中的每个已更改项目。

{
    "type" : "couchdb",
    "couchdb" : {
        "script" : "ctx.doc.field1 = 'value1'"
    }
}

Basic Authentication

您可以通过传递 user 和 password 属性来使用基本身份验证。

{
    "type" : "couchdb",
    "couchdb" : {
        "user" : "alice",
        "password" : "secret"
    }
}

HTTPS

要使用 HTTPS，请传递 protocol 字段。如果您遇到服务器证书问题，可以禁用主机名验证。

{
    "type" : "couchdb",
    "couchdb" : {
        "protocol" : "https",
        "port" : 443,
        "no_verify" : "true"
    }
}

Ignoring Attachments

您可以选择忽略 CouchDb 为每个文档提供的附件（_attachments 字段）。

{
  "type":"couchdb",
  "couchdb": {
    "ignore_attachments":true
  }
}

Heartbeat

默认情况下，CouchDB River 将 _changes API 的 heartbeat 设置为 10s。

curl -XPUT 'localhost:9200/_river/my_db/_meta' -d '{
    "type" : "couchdb",
    "couchdb" : {
        "host" : "localhost",
        "port" : 5984,
        "db" : "my_db",
        "heartbeat" : "5s",
        "read_timeout" : "15s"
    }
}'

Starting at a Specific Sequence

您可以通过在 _river 索引中的 _seq 文档中设置 last_seq 值来指定 CouchDB River 从特定的序列开始。

curl -XPUT 'localhost:9200/_river/my_db/_seq' -d '
{
  "couchdb": {
    "last_seq": "100"
  }
}'

然后按照之前的方式创建 _meta 文档。CouchDB River 将启动并读取最后序列值，并从那里开始索引。

4. 项目安装方式

请参考上述“安装指南”部分进行项目安装。确保安装的版本与您的 Elasticsearch 版本兼容。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库