【DevOps】Elasticsearch为什么需要大内存,怎么优化?

目录

一、Elasticsearch为什么需要大内存

1. 索引和搜索的高效执行

2. 缓存机制

3. 聚合操作

4. 堆内存用于 JVM 操作

5. 分片管理

6. 数据复制与高可用

7. 数据模型的灵活性

如何优化内存使用

二、优化分片减少内存占用

1. 每个分片都有独立的资源消耗

2. JVM 堆内存消耗

3. 非堆内存消耗

4. 分片副本

5. 管理开销

6. 优化分片数量的建议

7. 示例:缩减索引的分片数量


一、Elasticsearch为什么需要大内存

Elasticsearch (ES) 需要大量内存的原因主要与其架构和设计目标有关。以下是一些具体原因:

1. 索引和搜索的高效执行

  • 倒排索引 (Inverted Index): Elasticsearch 使用倒排索引来实现快速搜索。这种结构需要存储大量的元数据(如词项、位置等),并且为了提高性能,这些数据通常会被缓存到内存中。
  • 字段数据 (Field Data): 为了进行排序和聚合操作,Elasticsearch 需要将某些字段数据载入到内存中进行缓存。这使得对这些字段的操作非常快速,但也需要大量内存。

2. 缓存机制

  • 文件系统缓存 (Filesystem Cache): Elasticsearch 依赖操作系统的文件系统缓存来快速访问索引数据。为了利用这个特性,操作系统需要足够的内存。
  • 查询缓存 (Query Cache): Elasticsearch 会缓存部分查询结果,以便对类似的后续查询进行加速。

3. 聚合操作

  • 复杂聚合: 聚合操作可能会涉及大量数据的计算和合并。为了提高性能,Elasticsearch 会尽可能多地将相关数据载入内存。

4. 堆内存用于 JVM 操作

  • Elasticsearch 运行在 JVM 上,因此需要分配足够的堆内存来满足 JVM 的需求,包括垃圾回收、线程管理等。

5. 分片管理

  • 分片 (Shards): Elasticsearch 将索引分成多个分片,每个分片都有自己的数据结构和缓存。更多分片意味着需要更多内存。

6. 数据复制与高可用

  • 副本 (Replication): 为确保高可用性,Elasticsearch 会为索引创建副本分片。这会进一步增加内存需求。

7. 数据模型的灵活性

  • 动态映射: Elasticsearch 支持动态映射,这意味着它可以根据数据的结构动态地生成索引。这种灵活性也增加了内存需求。

如何优化内存使用

  • 适当配置 JVM 堆内存
    • 通常建议将堆内存设置为系统内存的 50%,但不能超过 32GB。
  • 调整缓存设置
    • 调整查询缓存和字段数据缓存的大小。
  • 减少分片数量
    • 避免过多的分片数量,因为每个分片都会增加内存占用。
  • 优化映射和数据模型
    • 尽量减少不必要的字段和数据类型。

Elasticsearch 需要大量内存来满足其快速索引、搜索和聚合的需求,同时也要维持高可用性和灵活性。合理配置内存和调整相关参数,可以显著提高 Elasticsearch 的性能和稳定性。

二、优化分片减少内存占用

在 Elasticsearch 中,分片(Shard)是索引的基本单位,每个索引由多个分片组成。每个分片实际上是一个独立的 Lucene 索引。分片数量的增加会导致内存占用的上升,具体原因如下:

1. 每个分片都有独立的资源消耗

  • 索引元数据 (Index Metadata): 每个分片都有自己独立的元数据,包括字段映射、分片状态信息等。
  • 文件句柄 (File Handles): 每个分片都会打开大量文件,并保持文件句柄。
  • Lucene 索引结构: 每个分片都有独立的 Lucene 索引结构,包括倒排索引、字段数据、词典、词项频率等。
  • 缓存 (Caches): 分片级别的缓存,如倒排索引缓存、字段数据缓存等。

2. JVM 堆内存消耗

  • 字段数据缓存 (Field Data Cache): 用于支持排序和聚合操作。每个分片都会维护自己的字段数据缓存。
  • 查询缓存 (Query Cache): 每个分片都有自己的查询缓存,用于缓存查询结果。
  • 段内存 (Segment Memory): Lucene 索引的每个段需要在内存中维护一些状态信息。
  • 其他 JVM 开销 (Garbage Collection, etc.): 更多的分片意味着更多的对象,增加了垃圾回收的频率和开销。

3. 非堆内存消耗

  • 文件系统缓存 (Filesystem Cache): 虽然不直接属于 Elasticsearch,但它依赖操作系统的文件系统缓存来加速索引和搜索操作。
  • 线程: 每个分片都有与之相关的线程,如合并线程、刷新线程等。

4. 分片副本

  • 副本 (Replica): 索引的每个分片通常都有一个或多个副本以提高容错能力。增加副本也会相应增加内存消耗。

5. 管理开销

  • 集群状态管理 (Cluster State Management): 更多的分片意味着需要维护更复杂的集群状态。
  • 任务分配 (Task Allocation): 分片的增加会增加任务分配和协调的复杂性。

6. 优化分片数量的建议

  • 合理规划分片数量

    • 避免过多的小分片。一般来说,每个分片至少需要 1GB 的数据。
    • 使用合适的索引策略,例如时间序列索引、滚动索引等。
  • 动态调整索引分片

    • 使用缩减索引(Shrink API)或合并索引(Reindex API)来调整分片数量。
  • 监控与调整

    • 使用 Elasticsearch 的监控工具(如 Kibana、Prometheus)监控分片的内存使用情况,并及时调整。

7. 示例:缩减索引的分片数量

假设一个索引 my_index 当前有 10 个分片,目标是将其缩减到 2 个分片。

  • 创建新索引副本,设置 number_of_shards 为目标数量。

    PUT /my_index_copy
    {
      "settings": {
        "number_of_shards": 2,
        "number_of_replicas": 1
      }
    }
    
  • 使用 reindex 将数据复制到新索引。

    POST /_reindex
    {
      "source": {
        "index": "my_index"
      },
      "dest": {
        "index": "my_index_copy"
      }
    }
    
  • 删除旧的索引。

    DELETE /my_index
    
  • 使用别名将新索引映射为旧索引名称。

    POST /_aliases
    {
      "actions": [
        { "add": { "index": "my_index_copy", "alias": "my_index" } }
      ]
    }
    

通过合理规划分片数量和管理策略,可以有效降低 Elasticsearch 的内存占用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/605352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AVL Cruise与Simulink联合仿真(通过MATLAB DLL方式)

最近毕业设计需要用到AVL Cruise与Simulink进行联合仿真,分析汽车模型的经济性。下面介绍一下我所知的AVL Cruise与Simulink联合仿真的几种方式,它们各自的优缺点,以及DLL方式联合仿真的具体配置过程。我这里用的MATLAB软件版本是2021a&#…

运行Spring Boot项目失败?显示java: 无法访问org.springframework.boot.SpringApplication,让我来看看~

idea项目运行报错截图: (1)查看错误提示“类文件具有错误的版本 61.0, 应为 52.0”,61.0对应的是jdk17,52.0对应1.8。 通过这个网址可以查询版本: https://stackoverflow.com/questions/9170832/list-of-ja…

Linux文本三剑客

文章目录 一、文本搜索工具--grep1、简介2、工作原理3、语法格式4、选项介绍5、实例测试5.1、-i选项5.2、-v选项5.3、-n选项5.4、-c选项5.5、-o选项5.6、-B选项5.7、-A选项5.8、-C选项5.9、-w选项5.10、-E选项5.11、-e选项 二、流编辑器--sed1、简介2、工作原理3、语法格式4、选…

AI换脸原理(6)——人脸分割介绍

一、介绍 人脸分割是计算机视觉和图像处理领域的一项重要任务,它主要涉及到将图像中的人脸区域从背景或其他非人脸区域中分离出来。这一技术具有广泛的应用场景,如人脸识别、图像编辑、虚拟背景替换等。 在计算机视觉(CV)领域,经典的分割技术可以主要划分为三类:语义分…

程序员侠李飞

李飞,这位程序员侠,肩负着消灭黑暗势力的使命。他的代码如同一把利剑,切割着虚拟世界中的恶意程序,保护着数字领域的和平。他的键盘敲击声如同战鼓的轰鸣,警示着那些企图侵入系统的黑客。在代码的世界里,他…

【离散数学】集合上二元关系性质判定的实现(c语言实现)

实验要求 关系矩阵的初始化和打印 我们将关系矩阵存入一个二维数组中,因为集合元素个数不会超过5个所以就用一个5行5列二维数组来表示。 在我们得到了集合元素个数之后我们就可以对数组进行0,1随机赋值 //初始关系矩阵 void init_matrix(int array[][5], int n) {…

后端开发面经系列 -- 地平线C++一面

地平线C一面 公众号:阿Q技术站 来源:https://www.nowcoder.com/discuss/608452700895711232 1、分布式事务是否了解? 分布式事务是指涉及多个数据库或应用之间的事务操作,需要确保这些操作要么全部成功,要么全部失败…

Dynamic Extraction of Subdialogues for Dialogue Emotion Recognition

对话情感识别的子对话动态提取 摘要1. 介绍2 相关工作2.1 对话上下文建模2.2 常识知识 3 方法3.1 问题定义3.2 模型概述3.3 特征提取模块3.4 依赖性建模3.5 交互式子对话提取模块3.6 重要性增强的多头自注意力模块3.7 子对话框主题提取模块3.8. 分类模块 四、实验4.1 数据集4.1…

IDEA使用Maven生成普通项目没有生成iml文件解决方法

右击主目录选择: Open in Terminal 在生成的控制台输入: mvn idea:module 回车便自动生成iml文件啦! 双击下主目录就可以看见啦

javax.net.ssl.SSLException: Received fatal alert: protocol_version已经解决

起因: 在帮别人讲解项目时,将项目的tomcat配置完,点击运行后,报错,信息如标题。 解决办法: 在csdn百度问题,得到的方法主要有几个: 1.jdk要配置在1.8以上; 2.数据库地…

【MySQL】ON WHERE 和 ON AND 的区别

1. 查询语句语法规则 “[ ]” 包含的内容可以省略; “{ }” 包含的内容必须存在; DISTINCT: 设定 **distinct** 可以去掉重复记录; AS: 表明或字段名过长时,可以用 **AS** 关键字起别名,也可…

06.配置邮件报警

配置邮件报警 我的授权码:HCHNVOAENURLOACG 1.定义发件人 密码是163邮箱的授权码 2.配置收件人 我就配置收件人是qq邮箱了 3.启动动作 验证邮件发送成功

Redis如何避免数据丢失?——AOF

目录 AOF日志 1. 持久化——命令写入到AOF文件 写到用户缓冲区 AOF的触发入口函数——propagate 具体的实现逻辑——feedAppendOnlyFile 从用户缓冲区写入到AOF文件(磁盘) 函数write、fsync、fdatasync Redis的线程池 AOF文件的同步策略 触发的入口函数——…

特斯拉擎天柱机器人:工厂自动化的未来

随着技术的进步,工业自动化已经逐步进入了一个新的纪元。特斯拉最近公布的擎天柱机器人Optimus的演示,不仅仅展示了一个高科技机器人的能力,更是向我们揭示了未来工厂的可能性。 特斯拉擎天柱机器人的功能展示 马斯克在最新的演示中向我们展…

使用Nuxt.js实现服务端渲染(SSR)

Nuxt.js 是一个基于 Vue.js 的框架,它提供了服务器端渲染(SSR)和静态站点生成(SSG)的能力,使开发者能够轻松地构建高效、优雅的前端应用。Nuxt.js 集成了许多开箱即用的功能和工具,帮助开发者快…

C语言—深入理解指针(2)

1.数组名的理解 不难发现,数组名就是数组首元素的地址。 但是有两个例外: 1.sizeof(数组名) 这里的数组名表示整个数组,计算的是整个数组的大小,单位是字节。 2.&数组名 这里的数组名也表示整个数…

MacOS miniconda安装方法

打开macos “终端” 应用 执行命令 mkdir -p ~/miniconda3curl https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-MacOSX-arm64.sh -o ~/miniconda3/miniconda.shbash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3rm -rf ~/miniconda3/mini…

CPU基本知识点

目录 1.概念 2.分类 3.运作原理 4.指令系统 1.概念 CPU:英文Central Processing Unit,即中央处理器。 解释和执行指令的功能单元,它是计算机的中枢神经系统(即核心)。 是计算机最核心的部件,主要是运算…

嵌入式数据库SQLite 3配置使用详细笔记教程

0、惨痛教训 随着管理开发的项目体积越来越庞大,产品系统涉及的数据量也越来越多,并且伴随着项目不久就要交付给甲方了。如果项目的数据信息没有被妥善管理,后期设备的运行状态、操作状况等数据流信息不能被溯源,当出现了一些特殊…

【35分钟掌握金融风控策略16】贷前风控策略详解-1

目录 贷前风控策略详解 贷前风控目标 精准审核申请贷款客户资质 对申请贷款客户进行合理定额 对申请贷款客户进行合理定价 推动实现利润最大化 贷前风控数据源 客户贷款时提供的数据 贷前风控策略详解 俗话说,良好的开端是成功的一半,而贷前是风…
最新文章