百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

ES 的跨索引查询详细讲解(elasticsearch跨索引查询)

toyiye 2024-08-16 05:24 12 浏览 0 评论

文章来源:加米谷大数据

序言

Elasticsearch,中文名直译弹性搜索,不仅仅在单索引内部分片层面弹性搜索,更强的是在跨索引外围支持分片弹性搜索,同比其它分布式数据产品,此特性更鲜明,代表了 Elastic 集群架构设计的优越性。

本文将从以下几个方面展开探讨:

  • 为什么需要跨索引查询?
  • 跨索查询有哪些经典应用场景?
  • 跨索引查询技术原理是怎样的?
  • 跨索引查询有哪些注意事项?

图示:跨索引示意图 + 多个索引查询效果图

为什么需要跨索引查询

技术限制

Elasticsearch 索引本身有一些指标限制,对于很多新手来说最容易忽视或者乱用。

  • Elastic 索引数据量有大小限制;
  • 单个分片数据容量官方建议不超过 50GB,合理范围是 20GB~40GB 之间;
  • 单个分片数据条数不超过约 21 亿条(2 的 32 次方),此值一般很难达到,基本可以忽略,背后原理可以参考源码或者其它;
  • 索引分片过多,分布式资源消耗越大,查询响应越慢。

基于以上限制,索引在创建之前就需要依据业务场景估算,设置合理的分片数,不能过多也不能过少。

技术便利

在基于关系型数据库的应用场景中,数据量过大,一般会采用分库分表策略,查询数据时基于第三方中间件,限制多多;在基于 NoSQL 的应用场景中,如 MongoDB,数据量过大,会采用数据产品本身提供的分片特性,查询数据时基于自身的路由机制。

无论是分库分表还是分片,它们只解决了一维数据的存储与查询,二维的不能,如电商订单系统场景,数据库采用多库多表拆分,一旦容量超过预期设计,需要二次拆分继续分库分表;MongoDB 采用多分片拆分,一旦容量超过预计设计,需要继续扩展分片节点。

以上对于 Elasticsearch 可以不用这样,它提供了两个维度的拆分方式,第一维度采用多个索引命名拆分,第二维度采用索引多分片,对于查询来说,可以灵活匹配索引,一次指定一个索引,也可以一次指定多个索引。

图示:ES 查询示意图 + 多索引 + 多分片示意图

跨索引查询应用场景

IT 应用中,除去技术本身局限问题,多数的问题都是由于耦合造成的,“高内聚,低耦合”一直是我们 IT 从业者的座右铭。应用系统耦合,就成了单体应用,然后就延伸出微服务架构理念。同样数据耦合,我们也要基于一定维度的微服务化,或垂直或水平或混合垂直水平。

业务系统

举例某些业务场景,实时数据与历史数据存储和查询问题,假设日均数据量超过千万条,那么月度数量超过 3 亿条,年度也会超过 36 亿条。

若采用 Elasticsearch 存储,则可以按月 / 按季度 / 按年度 创建索引,这样实时数据的更新只会影响当前的索引,不影响历史的索引;查询时也一样,依据查询条件指定索引名称,按需要扫描查询,无需每次扫描所有的数据。这比基于传统的数据产品灵活很多。

图示:实时数据与历史数据业务场景

大数据

Elasticsearch 在大数据应用场景下很受欢迎,已经成为大数据平台对外提供结果查询的标配。大数据平台需要定期计算数据,将结果数据批量写入到 Elasticsearch 中,供业务系统查询,由于部分业务规则设定,Elasticsearch 原来的索引数据要全部删除,并重新写入,这种操作很频繁。对于大数据平台每次全量计算,代价很大,对于 Elasticsearch 平台,超大索引数据频繁删除重建,代价也很大。

基于以上,采用多索引方式,如按照月份拆解,依据需要删除的月份索引数据。同样的问题,业务系统查询时,非常灵活指定需要的月份索引数据,这样保证了存储与查询的平衡。

图示:大数据平台写数据到 Elastic 平台示意图

日志

Elasticsearch 应对这个日志场景非常擅长,诞生了著名的 ELK 组合,比如一个大中型的业务系统,每天日志量几十 TB/ 几百 TB 很正常,可按天或者按小时或者更小粒度创建索引,通常查询日志只会查询最近时间的,过去很久的日志,偶然需要查询几次,甚至会删除。所以对于此场景,Elasticsearch 的跨索引查询非常便利,程序编写也很简单。

跨索引查询应用方式

Elasticsearch 跨索引查询的方式可依据业务场景灵活选择,下面介绍几种:

直接型

明确指定多个索引名称,这种方式一般应用在非常精确的查询场景下,便于查询索引范围,性能平衡考虑,若索引不存在会出现错误,如下:index_01,index_02

GET /index_01,index_02/_search
{
  "query" : {
    "match": {
      "test": "data"
    }
  }
}

模糊型

不限定死索引名称,这种方式一般采用通配符,无需判断该索引是否存在,支持前匹配、后匹配,前后匹配,如下:index_* 匹配前缀一样的所有索引

GET /index_*/_search
{
  "query" : {
    "match": {
      "test": "data"
    }
  }
}

计算型

索引名称通过计算表达式指定,类似正则表达式,也可以同时指定多个索引,如下:logstash-{now/d}表示当前日期

# 索引名称如:index-2024.03.22
# GET /<index-{now/d}>/_search
GET /%3Cindex-%7Bnow%2Fd%7D%3E/_search{
  "query" : {
    "match": {
      "test": "data"
    }
  }
}

跨索引查询技术原理

Elasticsearch 能够做到跨索引查询,离不开其架构设计以及相关实现原理。

索引分片

图示:索引由分片组成

  • 索引是一个虚拟的数据集合,索引由多个分片组成;
  • 分片存储实际的数据;
  • 索引分片数量不限制。

查询过程

图示:索引查询阶段

图示:取回数据阶段

查询过程简单说来就是分发与合并:

  • 查询分发,客户端发送请求到协调节点,协调节点分发查询请求到索引分片节点;
  • 数据合并,索引分片节点将数据发送到协调节点,协调节点合并返回客户端。

所以说,Elasticsearch 提供跨索引查询的能力,实际上与原来单索引查询时一样,本质上是跨多个分片查询,然后合并。

跨索引查询注意事项

索引与分片等价关系

索引与分片等价的关系,1 个索引 20 分片与 4 个索引每个索引 5 个分片理论上是等价的,鉴于索引分片的容量限制与性能平衡,在面对需要跨索引业务场景时,索引的数量与分片的数量尽量的少,既要保障索引热点数据的实时处理能力,也要平衡历史数据的查询性能。

协调节点分离

鉴于 Elastic 查询过程,在跨多个索引查询时,协调节点承担了所有分片查询返回的数据合并,需要消耗很大资源,在应对高并发场景,建议部署独立的协调节点,将集群的数据节点与协调节点分离,以达到最佳的性能平衡。

路由机制

Elasticsearch 写入数据分布默认是基于索引主键 _id 的 Hash 值,此机制在数据分布上很均衡,但也没有什么规律,对于跨索引查询场景,若自定义指定路由键,可以在搜索时避开不需要的索引分片,有效减少分片查询的分片数量,达到更高的性能。

总结

Elasticsearch 由于其架构设计的弹性能力,小小的一个跨索引查询特性,就能给我们应用系统带来很多架构设计的便利,解决很多实际场景问题,这是其它数据产品目前还做不到的。Elasticsearch 还有更厉害的跨多个集群跨多个版本,详情可继续关注笔者下一篇文章的探讨。

还是那句话,Elastic 用得好,下班下得早。

相关推荐

# Python 3 # Python 3字典Dictionary(1)

Python3字典字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中,格式如...

Python第八课:数据类型中的字典及其函数与方法

Python3字典字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值...

Python中字典详解(python 中字典)

字典是Python中使用键进行索引的重要数据结构。它们是无序的项序列(键值对),这意味着顺序不被保留。键是不可变的。与列表一样,字典的值可以保存异构数据,即整数、浮点、字符串、NaN、布尔值、列表、数...

Python3.9又更新了:dict内置新功能,正式版十月见面

机器之心报道参与:一鸣、JaminPython3.8的热乎劲还没过去,Python就又双叒叕要更新了。近日,3.9版本的第四个alpha版已经开源。从文档中,我们可以看到官方透露的对dic...

Python3 基本数据类型详解(python三种基本数据类型)

文章来源:加米谷大数据Python中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。在Python中,变量就是变量,它没有类型,我们所说的"类型"是变...

一文掌握Python的字典(python字典用法大全)

字典是Python中最强大、最灵活的内置数据结构之一。它们允许存储键值对,从而实现高效的数据检索、操作和组织。本文深入探讨了字典,涵盖了它们的创建、操作和高级用法,以帮助中级Python开发...

超级完整|Python字典详解(python字典的方法或操作)

一、字典概述01字典的格式Python字典是一种可变容器模型,且可存储任意类型对象,如字符串、数字、元组等其他容器模型。字典的每个键值key=>value对用冒号:分割,每个对之间用逗号,...

Python3.9版本新特性:字典合并操作的详细解读

处于测试阶段的Python3.9版本中有一个新特性:我们在使用Python字典时,将能够编写出更可读、更紧凑的代码啦!Python版本你现在使用哪种版本的Python?3.7分?3.5分?还是2.7...

python 自学,字典3(一些例子)(python字典有哪些基本操作)

例子11;如何批量复制字典里的内容2;如何批量修改字典的内容3;如何批量修改字典里某些指定的内容...

Python3.9中的字典合并和更新,几乎影响了所有Python程序员

全文共2837字,预计学习时长9分钟Python3.9正在积极开发,并计划于今年10月发布。2月26日,开发团队发布了alpha4版本。该版本引入了新的合并(|)和更新(|=)运算符,这个新特性几乎...

Python3大字典:《Python3自学速查手册.pdf》限时下载中

最近有人会想了,2022了,想学Python晚不晚,学习python有前途吗?IT行业行业薪资高,发展前景好,是很多求职群里严重的香饽饽,而要进入这个高薪行业,也不是那么轻而易举的,拿信工专业的大学生...

python学习——字典(python字典基本操作)

字典Python的字典数据类型是基于hash散列算法实现的,采用键值对(key:value)的形式,根据key的值计算value的地址,具有非常快的查取和插入速度。但它是无序的,包含的元素个数不限,值...

324页清华教授撰写【Python 3 菜鸟查询手册】火了,小白入门字典

如何入门学习python...

Python3.9中的字典合并和更新,了解一下

全文共2837字,预计学习时长9分钟Python3.9正在积极开发,并计划于今年10月发布。2月26日,开发团队发布了alpha4版本。该版本引入了新的合并(|)和更新(|=)运算符,这个新特性几乎...

python3基础之字典(python中字典的基本操作)

字典和列表一样,也是python内置的一种数据结构。字典的结构如下图:列表用中括号[]把元素包起来,而字典是用大括号{}把元素包起来,只不过字典的每一个元素都包含键和值两部分。键和值是一一对应的...

取消回复欢迎 发表评论:

请填写验证码