探索实时全文搜索的威力：Elasticsearch

2024-05-24 16:57:40作者：庞眉杨Will

Elasticsearch Logo

在接下来的三十分钟内，您将学习如何利用Elasticsearch为您的项目、产品或网站赋予强大的搜索体验。

为何选择Elasticsearch？

对于任何超越基础功能的网站，访客和用户都期待能够通过内容（如博客文章、食谱、商品、评论等）进行搜索。虽然您可以选择使用Google自定义搜索以提供这种服务，并避免运行自己的搜索服务器集群，但往往客户需要对搜索体验有更多控制权——这就是您阅读本文的原因。

为什么不是其他具备全文搜索功能的XYZ数据库？

简单来说，就是"选用最适合工具"。我们过去曾使用MongoDB的全文搜索，甚至为此编写了教程，也尝试过MySQL和Postgres的全文搜索，在某些场景下效果不错，但在处理大规模、高并发的全文检索时，这些都不是专为此设计的解决方案。因此，当谈到搜索，Elasticsearch是首选！

是什么？

Buzz解释Elasticsearch

Elasticsearch是一个基于Lucene构建的搜索服务器，它提供了一个分布式、多租户支持的全文本搜索引擎，拥有RESTful Web接口和无模式的JSON文档。换句话说，这是一站式解决方案的精华所在！

更深入的内容：访问官方Elasticsearch概述

迷茫了吗？让我们来分解一下：

实时性：系统在输入数据后几乎立即反馈，使整个过程无明显延迟。例如即时通讯。
近实时：表示有微小（但可感知）的延迟。您可以在索引中插入/更新记录，并确保它在不到一秒钟的时间内变得可搜索。
全文搜索：允许你在Elasticsearch数据库的文档中搜索所有字段的记录。比如，如果你有一个博客，每个博客帖子都有标题、简介、正文和评论区，搜索特定字符串时，可能在某条评论中找到结果。
分布式：意味着可以拥有多个位于不同数据中心或区域的Elasticsearch节点，提高检索的可靠性。
REST API：意味着你可以使用标准HTTP请求访问你的Elasticsearch集群。

如何使用？

运行Elasticsearch有几种方式： A. 使用Vagrant启动带有所有依赖项的虚拟机。 B. 在您的操作系统上安装二进制包。 C. 不安装任何东西，直接使用免费的Heroku实例！

安装与启动

Elasticsearch需要Java 8支持。如果您想在本地机器上"原生"安装Elasticsearch，你需要先安装Java。但我们建议不运行Java（因为它可能存在安全问题），而是使用Vagrant来启动一个虚拟机。如果你已经使用Vagrant，请继续阅读。

首先克隆这个仓库：

git clone git@github.com:docdis/learn-elasticsearch.git && cd learn-elasticsearch

然后在终端运行以下命令：

vagrant up

请注意，安装可能需要几分钟时间，您可以先预览下面的教程部分。

其他操作系统的安装方法

Ubuntu: 在Ubuntu上安装Elasticsearch。
Mac：如果不在意在Mac上运行Java，可以通过Homebrew安装Elasticsearch。
Windows: 可参考官方指南，但我们强烈推荐Vagrant。

验证Elasticsearch状态

确认一切正常工作，打开终端并执行以下命令：

curl -XGET http://localhost:9200

您应该能看到类似这样的响应：

Elasticsearch状态响应

教程

一旦安装完成，访问这个链接观看视频教程：

访问：Elasticsearch入门。如果不想接收邮件，可以使用假信息注册。

使用curl插入记录（REST API）

curl -XPUT 'http://localhost:9200/twitter/tweet/1' -d '{"user":"kimchy","post_date":"2009-11-15T14:12:12","message" : "trying out Elasticsearch"}'

上面的命令仅是个起点，更多操作技巧敬请探索。

结论

Elasticsearch不仅提供了强大且灵活的搜索能力，还能适应各种规模的应用需求，无论是初创项目还是大型企业都可以从中受益。其REST API使得与其他编程语言的集成变得轻松愉快，无论您是Node.js开发者、Elixir爱好者还是Python专家，都能在短时间内掌握使用技巧。

此外，Elasticsearch的分布式特性使其能够应对高可用性和大数据量的挑战，使其成为现代Web应用的理想搜索解决方案。如果你尚未尝试，现在就加入Elasticsearch的世界，开启高效搜索的新篇章吧！

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

494

518

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

648

287