首页
/ CouchDB River 插件技术文档

CouchDB River 插件技术文档

2024-12-24 15:33:43作者:胡易黎Nicole

本文档旨在帮助用户了解和使用 CouchDB River 插件,以便能够自动索引 CouchDB 数据并使其可搜索。以下是插件的安装指南、使用说明以及 API 使用文档。

1. 安装指南

在安装插件之前,请确保您的 Elasticsearch 版本与插件版本相匹配。以下是安装步骤:

bin/plugin install elasticsearch/elasticsearch-river-couchdb/2.6.0

如果需要构建一个 SNAPSHOT 版本,您需要使用 Maven 进行构建:

mvn clean install
plugin --install river-couchdb \
       --url file:target/releases/elasticsearch-river-couchdb-X.X.X-SNAPSHOT.zip

2. 项目使用说明

要设置 CouchDB River,您需要执行以下命令来创建一个 river:

curl -XPUT 'localhost:9200/_river/my_db/_meta' -d '{
    "type" : "couchdb",
    "couchdb" : {
        "host" : "localhost",
        "port" : 5984,
        "db" : "my_db",
        "filter" : null
    },
    "index" : {
        "index" : "my_db",
        "type" : "my_db",
        "bulk_size" : "100",
        "bulk_timeout" : "10ms"
    }
}'

此调用将创建一个 river,使用 CouchDB 的 _changes 流自动索引所有数据。此外,任何“未来”的更改也将自动索引,使您的搜索索引与 CouchDB 保持同步。

CouchDB River 作为插件提供,包括如何安装它的说明。

3. 项目 API 使用文档

以下是 CouchDB River 插件的一些关键配置选项:

Bulking

默认情况下,插件会自动进行 bulking 操作以加快索引过程。如果在指定的 bulk_timeout 内检测到更多更改,更改将在达到 bulk_size 之前进行 bulk 操作。

{
    "type" : "couchdb",
    "index" : {
        "index" : "my_index",
        "type" : "my_type",
        "bulk_size" : 1000,
        "flush_interval" : "1s",
        "max_concurrent_bulk" : 3
    }
}

Filtering

changes 流允许您提供一个过滤器,该过滤器将由 CouchDB 用于过滤更改流。

{
    "couchdb" : {
        "filter" : "test",
        "filter_params" : {
            "param1" : "value1",
            "param2" : "value2"
        }
    }
}

Script Filters

您还可以通过提供脚本来进一步处理更改流中的每个已更改项目。

{
    "type" : "couchdb",
    "couchdb" : {
        "script" : "ctx.doc.field1 = 'value1'"
    }
}

Basic Authentication

您可以通过传递 userpassword 属性来使用基本身份验证。

{
    "type" : "couchdb",
    "couchdb" : {
        "user" : "alice",
        "password" : "secret"
    }
}

HTTPS

要使用 HTTPS,请传递 protocol 字段。如果您遇到服务器证书问题,可以禁用主机名验证。

{
    "type" : "couchdb",
    "couchdb" : {
        "protocol" : "https",
        "port" : 443,
        "no_verify" : "true"
    }
}

Ignoring Attachments

您可以选择忽略 CouchDb 为每个文档提供的附件(_attachments 字段)。

{
  "type":"couchdb",
  "couchdb": {
    "ignore_attachments":true
  }
}

Heartbeat

默认情况下,CouchDB River 将 _changes API 的 heartbeat 设置为 10s

curl -XPUT 'localhost:9200/_river/my_db/_meta' -d '{
    "type" : "couchdb",
    "couchdb" : {
        "host" : "localhost",
        "port" : 5984,
        "db" : "my_db",
        "heartbeat" : "5s",
        "read_timeout" : "15s"
    }
}'

Starting at a Specific Sequence

您可以通过在 _river 索引中的 _seq 文档中设置 last_seq 值来指定 CouchDB River 从特定的序列开始。

curl -XPUT 'localhost:9200/_river/my_db/_seq' -d '
{
  "couchdb": {
    "last_seq": "100"
  }
}'

然后按照之前的方式创建 _meta 文档。CouchDB River 将启动并读取最后序列值,并从那里开始索引。

4. 项目安装方式

请参考上述“安装指南”部分进行项目安装。确保安装的版本与您的 Elasticsearch 版本兼容。

登录后查看全文
热门项目推荐