ElasticSearch性能优化策略【转】

摘要:
ElasticSearch性能优化主要分为四个方面。这里,我们主要对索引和搜索进行配置调整。搜索操作主要针对用户的各种搜索操作。ElasticSearch将根据索引ID将数据存储在ElasticSearch集群的碎片中。

ElasticSearch性能优化主要分为4个方面的优化。

一、服务器部署

二、服务器配置

三、数据结构优化

四、运行期优化

一、服务器部署

1、增加1-2台服务器,用于负载均衡节点

elasticSearch的配置文件中有2个参数:node.master和node.data。这两个参 数搭配使用时,能够帮助提供服务器性能。

1.1> node.master: false    node.data: true

该node服务器只作为一个数据节点,只用于存储索引数据。使该node服务器功能 单一,只用于数据存储和数据查询,降低其资源消耗率。

1.2> node.master: true    node.data: false

该node服务器只作为一个主节点,但不存储任何索引数据。该node服务器将使用 自身空闲的资源,来协调各种创建索引请求或者查询请求,讲这些请求合理分发到相关 的node服务器上。

1.3> node.master: false    node.data: false

该node服务器即不会被选作主节点,也不会存储任何索引数据。该服务器主要用 于查询负载均衡。在查询的时候,通常会涉及到从多个node服务器上查询数据,并请 求分发到多个指定的node服务器,并对各个node服务器返回的结果进行一个汇总处理, 最终返回给客户端。

2、关闭data节点服务器中的http功能

针对ElasticSearch集群中的所有数据节点,不用开启http服务。将其中的配置 参数这样设置:http.enabled: false,同时也不要安装head, bigdesk, marvel等监控 插件,这样保证data节点服务器只需处理创建/更新/删除/查询索引数据等操作。

http功能可以在非数据节点服务器上开启,上述相关的监控插件也安装到这些服 务器上,用于监控ElasticSearch集群状态等数据信息。

这样做一来出于数据安全考虑,二来出于服务性能考虑。

3、一台服务器上最好只部署一个Node

一台物理服务器上可以启动多个Node服务器节点(通过设置不同的启动port), 但一台服务器上的CPU,内存,硬盘等资源毕竟有限,从服务器性能考虑,不建议一台 服务器上启动多个node节点。

二、服务器配置

1、配置索引线程池的大小

ElastiSearch服务器有多个线程池大小配置。主要有:index,search,suggest, get,bulk,percolate,snapshot,snapshot_data,warmer,refresh。

在此主要针对index和search进行一个配置调整。index操作包含:创 建/更新/删除索引数据。search操作主要针对用户的各种搜索操作。

具体配置如下:

threadpool:

index:

type: fixed

size: 100

search:

type: fixed

size: 1000

2、创建/查找索引设置相同的分词解析器

索引服务器用到了ik中文分词插件,对于添加到该搜索服务器中的数据都使用该 中文分词(例如orgglobal对象中的orgName就使用了ik中文分词)。当执行搜索请求 时,搜索关键词也需要用到相关的中文分词器,如果不指定设置的话,则会使用服务器 默认的中文分词standard,而使用standard作为中文分词器进行查询时,性能不好。 通过将ik中分词设置为默认的分词器时,则查询效率是standard的2-3倍。

该配置具体如下:

index:

analysis:

analyzer:

ik:

alias: [news_analyzer_ik,ik_analyzer]

type: org.elasticsearch.index.analysis.IkAnalyzerProvider

index.analysis.analyzer.default.type: ik

3、确定分片(shard)的数量和副本(replica)的数量

ElasticSearch在创建索引数据时,最好指定相关的shards数量和replicas,

否则会使用服务器中的默认配置参数shards=5,replicas=1。

因为这两个属性的设置直接影响集群中索引和搜索操作的执行。假设你有足够的  

机器来持有碎片和副本,那么可以按如下规则设置这两个值:

1) 拥有更多的碎片可以提升索引执行能力,并允许通过机器分发一个大型的索引;

2) 拥有更多的副本能够提升搜索执行能力以及集群能力。

对于一个索引来说,number_of_shards只能设置一次,而number_of_replicas可以使用索引更新设置API在任何时候被增加或者减少。

这两个配置参数在配置文件的配置如下:

index.number_of_shards: 5

index.number_of_shards: 1

4、查询速度慢的日志配置

在进行实际应用中,会记录下查询速度慢或者添加索引速度慢的操作记录,为后

续性能优化提供依据。其具体配置如下:

index.search.slowlog.threshold.query.warn: 10s

index.search.slowlog.threshold.query.info: 5s

index.search.slowlog.threshold.query.debug: 2s

index.search.slowlog.threshold.query.trace: 500ms

index.search.slowlog.threshold.fetch.warn: 1s

index.search.slowlog.threshold.fetch.info: 800ms

index.search.slowlog.threshold.fetch.debug: 500ms

index.search.slowlog.threshold.fetch.trace: 200ms

index.indexing.slowlog.threshold.index.warn: 10s

index.indexing.slowlog.threshold.index.info: 5s

index.indexing.slowlog.threshold.index.debug: 2s

index.indexing.slowlog.threshold.index.trace: 500ms

三、数据结构优化

1、尽量减少不需要的字段

ElasticSearch中存储的数据是用于搜索服务,因此其他一些不需要用于搜索的字段最好不存到ES中,这样即节省空间,同时在相同的数据量下,也能提高搜索性能。

2、routing值的设置

通常情况下,往ElasticSearch服务器添加索引数据时,是无需指定routing值。ElasticSearch会根据索引Id,将该条数据存储到ElasticSearch集群中的一个shard中。而当指定了routing值为accountId(用户Id),则ElasticSearch会将相同accountId的多个数据都存放到同一个shard中,后续查询的时候,在指定routing值后,ElasticSearch只需要查询一个shard就能得到所有需要的数据,而不用再去查询所有的shard,从而大大提供了搜索性能。

四、运行期优化

1、optimize

随着时间的推移,ElasicSearch中每个shard的数据也会越来越多,索引越来越大,而生成的segment(在每个shard中,每个索引文件实际是由多个sgment文件组成)也会越来越多。而segment越多的话,则查询的性能越差,所以通过调用optimize命令,将多个segment合并成更少数量的segment(最少为一个),从而来提高查询性能。

在调用该命令时,可以设置几个参数,这些参数的具体含义如下:

1.1> max_num_segments

段数优化。要全面优化索引,将其设置为1。默认设置只需检查是否需要执行一个合并,如果需要,则执行它。【经过测试,该值越小,查询速度越快】

1.2> only_expunge_deletes

该优化操作是否只清空打有删除标签的索引记录。在Lucence中,在执行删除操作时,不会直接删除segment中的记录,而是对该记录打上delete标签。当多个segment进行合并操作时,就会生成一个新的segment,而该新的segment中不再包含删除的记录。这个参数允许只对哪些包含删除记录的segment进行优化操作。

1.3>flush

在执行完优化操作之后,再执行刷新操作。默认值为true

1.4>wait_for_merge

当该参数设置为true时,表示其他请求操作要等到合并segment操作结束之后,再进行响应。值得注意的是,由于这个优化操作是一个非常耗时,耗资源的事情,用户提交的请求操作是不能容忍等待这么久,所以这个参数最好设置为false.

具体调用命令如下:

http://localhost:9200/indexName/_optimize?only_expunge_deletes=true&wait_for_merge=false

2、warmers

当ElasticSearch服务器启动之后,业务系统中要使用的索引数据暂时没有导入到内存中,因此当用户进行第一次数据搜索时,会因为数据导入耗时很久,而严重影响用户的使用体验。为了解决该问题,可以使用warmer工具。通过ElastiSearch提供的工具,可以register/delete/get特定名称的warmer。通常情况下,warmer包含的请求需要载入大量的索引数据(例如在数据搜索中需要针对特定字段的排序操作,或者用到一些聚合sum,min,max函数的查询等),这样才能达到预热的效果。

具体调用示例如下(下面的warmer是针对索引名为test的warmer,warmer定义的名字为warmer_1):

curl -XPUT localhost:9200/test/_warmer/warmer_1 -d '{

"query" : {

"match_all" : {}

},

"aggs" : {

"aggs_1" : {

"terms" : {

"field" : "field"

}

}

}

}'

免责声明:文章转载自《ElasticSearch性能优化策略【转】》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇MYSQL学习笔记——连接以及存储过程C# 对象与JSON串互相转换下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

重建索引到指定表空间

数据存储时,最好是将数据与索引分开存储在不同的表空间中,因为建立索引是要占用硬盘存储空间的,索引表空间和数据表空间建立是一样的 下面语句用于移动索引到指定表空间: alter index ha_wxzj.index_name rebuild tablespace ha_wxzj_index_data; 也可以利用以下语句获得某个schema下移动索引表空间...

K8s Master当作Node使用的方法

1、使用下面的命令操作使得master 可以作为node使用 承载pod kubectl taint nodes --all node-role.kubernetes.io/master- 可能会出现下面的结果 因为taint(master标记的污点已经被去掉了)没有关系 taint "node-role.kubernetes.io/master" not...

es机器监控x-pack导致的监控存储过大的问题

https://blog.csdn.net/qq_36317804/article/details/103288642 最近发现磁盘的占用率趋高,打开可视化工具head查看了之后发现,es实例中生成了好多类似monitoring-es-6-2019.11.27这个的节点。 ##查询集群总的磁盘使用情况 curl -u elastic -XGET 'loca...

Redis源码解析03: 字典的遍历

  遍历一个稳定的字典,当然不是什么难事,但Redis中的字典因为有rehash的过程,使字典可能扩展,也可能缩小。这就带来了问题,如果在两次遍历中间,字典的结构发生了变化(扩展或缩小),字典中的元素所在的位置相应的会发生变化,那如何保证字典中原有的元素都可以被遍历?又如何能尽可能少的重复迭代呢?   Redis使用的遍历算法非常精妙,使用该算法,可以做到...

(转载)数据库表分割技术浅析(水平分割/垂直分割/库表散列)

一、数据库表分割技术   数据库表分割技术包含以下内容: 水平分割 垂直分割 库表散列 1.1、水平分割   什么是水平分割?打个比较形象的比喻,在食堂吃饭的时候,只有一个窗口,排队打饭的队伍太长了,都排成S型了,这时容易让排队的人产生焦虑情绪,容易产生混 乱,这时一个管理者站出来,增加多个打饭窗口,把那条长长的队伍拦腰截断成几队。更形象一点的理解,你...

ELK elasticsearch7 设置账号、权限

比较完整一篇,完整版 我们直接安装的ELK默认是没有账号与密码的。但是我们一旦放到生成上,就需要做一定的权限过滤,有些数据有些账号才能看到。否则都能看到,就很不科学了,有可能导致一些有心的人,搞成信息泄露。这个时候我们就需要设置账号密码了。 用户信息设置在LK中,也就是logstash、kibana中是没有的,因为他们的信息数据都是来源于elasticse...