[译]Ceph性能优化之CPU核数对性能的影响

admin管理员组
文章数量:1655312

原文链接

知乎专栏: [译]Ceph性能优化之CPU核数对性能的影响 - Part 1 - 知乎

简介

Ceph在很多方面都做得很好，但从来没有人意识到它有极低的资源消耗。Ceph需要做一些工作来确保数据的一致性，以及如何将数据(PG)放到合适的位置。我们正在努力优化Ceph的IO路径，但事实是，Ceph在一直以来需要相当多的CPU来实现高速存储设备(如NVMe驱动器)的高性能。今年夏天早些时候，一位用户找到我们的团队，对低CPU核心数下的性能表示担忧。他们得到了一个建议，当使用NVMe驱动器时，每个OSD应该分配2个核。该建议没有解释原因。他们决定购买硬件，尽管只有一半的NVMe驱动器槽被填充(即每个OSD有4个内核可用)。在这种配置中，性能是可以接受的，但是用户担心当他们用NVMe驱动器完全填充满服务器时可能会发生什么。遗憾的是，我不得不告诉他们，通过增加更多的驱动器，他们可能只会看到容量的增加，而不会看到性能的提高。最初的建议并非完全没有价值。如果用户不关心小的随机IO的性能，每个OSD 2核可能是一个很好的价值主张。在NVMe驱动器上运行Ceph有很多好处，除了提高小的随机IO性能。然而，对于这个用户来说，小的随机IO是一个问题，这正是CPU资源最重要的情况。

遗憾的是，这不是第一次出现这个问题，关于这个话题有很多困惑。2年前，我们更新了上游Ceph文档，PR文档中提供更好的指导。当时，我们的粗略指导是(在复制之前!)

core per 200-500 MB/s
core per 1000-3000 IOPS

这里最重要的方面是IOPS性能。本文将关注Ceph小随机IOPS性能如何随着CPU资源的增加而扩展。

集群设置

所有节点都位于同一台Juniper QFX5200交换机上，并通过一条100GbE QSFP28链路连接。构建集群并使用CBT执行fio测试。除非另有说明，每个节点都配置为最多承载6个osd，并使用librbd引擎配置4个fio进程。Intel系统上一个重要的操作系统级优化是将调优配置文件设置为“延迟-性能”或“网络-延迟”。这主要有助于避免与CPU C/P状态转换相关的延迟峰值。基于AMD Rome的系统在这方面似乎没有那么敏感，但是调优配置文件仍然设置为“网络延迟”，用于这些测试。

测试布局

CBT被配置为部署Ceph时使用了一些修改过的设置。首先，禁用rbd缓存，每个OSD分配8GB的内存目标，使用msgr V1，禁用cepx。在最近的测试中，我们看到带有默认cephx身份验证的Msgr V2的性能似乎类似，尽管在服务器和客户端上启用过线加密时，在CPU使用率类似或更高的情况下，可能会导致高达30-40%的性能损失。Fio被配置为首先用大的写预填充RBD卷，然后是3次4K随机读，然后是iodepth=128的4K随机写，每次5分钟。CBT允许用其他程序或环境变量包装osd，使用numactl控制osd可以在系统上使用多少个内核。初始测试是在单个OSD和1X复制的情况下执行的。在多个osd和3次替换的情况下进行多osd测试。

单个OSD测试

在多osd集群上，ceph以伪随机的方式确定地放置数据。在给定的时间点很可能有热点。一些osd会比其他的做更多的工作，从而导致总体性能下降。最终，整个集群的性能受制于集群中最慢的OSD的性能。针对单个OSD进行测试可以消除这种行为，并进一步消除额外的复制延迟和开销，确保OSD以最高效率工作。测试单个OSD并不代表真正的集群能做什么，但它确实显示了给定的OSD在最佳条件下的表现。

这里要注意的第一件事是，2到4核之间的性能提高了大约100%。这几乎是一个线性的改进。但在4核之后，增益开始放缓。从4核到16核只能产生另一个100%的增益，在10核时几乎完全持平。写性能的比例更高，在14-16个分配的核上最高可达350%左右。但Ceph OSD真的在这些测试中使用了所有这些核吗?

事实证明，为osd分配更多的内核可以持续地提高性能，最多可达到14-16个内核，但在高内核数的情况下，osd不会持续地使用它们所给定的所有核。对于读尤其如此。更多的核意味着更高的性能，但效率下降越高。然而，所使用的每核IOPS却保持相对平稳。为什么会这样，限制是什么?默认情况下，Ceph OSD每个OSD有80多个线程，但从资源消耗的角度来看，最重要的是:

16 OSD worker threads (8 shards with 2 threads each)
3 async messenger threads
1 bluestore key/value thread
1 bluestore "finisher" thread
RocksDB flush (high priority) and compaction (low priority) background threads

在这里不深入讨论细节(我们将在后面的博客文章中讨论)，一个OSD实际最多可能使用23个核左右。在5分钟的时间内，存量线程计数在实验室中达到的最高使用率是大约18-19核，用于4K随机写入，没有对OSD施加限制，并且禁用了RocksDB的预写日志。为什么我们在这些测试中看不到呢?可能的答案是ceph不能让所有16个工作线程一直忙着。在IE中，工作线程在做更多的工作之前会等待很短的时间。虽然一个OSD平均可能使用6或8个核心，但当它可以在短时间内爆发16个以上核心时，它可能表现最好，而其他时候它可能只需要3-4个核心。在这种情况下，如果施加核的限制，在裸金属上运行Ceph可能比在容器或vm中运行Ceph更有优势。

60 OSD集群测试

在单个OSD测试中观察到的趋势是否也会在整个集群部署时发生?

在查看60个OSD集群测试结果时，一些现象便马上突出出来了。虽然曲线与单个OSD的测试相似，但对于读操作，每个OSD的性能达到巅峰时使用的核数约为8-10，对于写操作，每个OSD的性能达到巅峰时使用的核数约为12个。在单个OSD测试中，读和写收益分别达到了大约200%和350%。在完整的集群配置中，收益最高分别为100%和250%。

通过只是简单看看osd.0，看起来更大的集群中的osd在随机读测试中使用的核更少。同时，分配的每核IOPS和使用的每核IOPS数值也都要低得多。在写端，现在使用的是3副本。为了能够与单个OSD测试进行比较，我们必须看考虑了复制因素的OSD的iops。即使这样做，每核写性能也比单个OSD测试低很多。好消息是，文档中的估计似乎相当有效。在读端，Ceph提供的IOPS大约是7500 /核，根据分配给osd的核数，每个核分配的IOPS在2400到8500之间。在写方面，Ceph每使用一个核提供大约3500个IOPS，每分配一个核提供1600到3900个IOPS。这些数字比我们两年前宣称的要好一些，我们在最近的Quincy发布中做了进一步的改进。

单osd vs 多osd NVMe性能

另一个经常出现的问题是Ceph如何很好地利用NVMe磁盘。通常这是把对本地硬盘的读取数据作为基准测试，用户想知道为什么Ceph在有更多驱动器支持的情况下还是比较慢。简单地说，Ceph确实比直接写入磁盘要慢，原因有很多。最重要的一些:

为计算crush放置、crc校验、加密、ec、网络开销等引入的时延
处理数据(编码/解码/等等)，以及在线程或者RocksDB之间分配/复制/移动内存中的数据
Ceph不仅会写数据，还会写对应的元数据。这在小写时影响尤其明显。
允许线程在没有工作时休眠，并在工作到来时唤醒它们。这样做是为了减少静默期的CPU开销，但是当线程在睡眠状态以及唤醒状态之间切换很快时，这可能会对性能产生重大影响。稍后的一篇博文将对此进行更详细的讨论。

如果没有大量的工作，其中一些是很难改善的。Ceph总是在一定程度上受到通过网络进行通信和处理网络堆栈的限制(尽管像dpdk这样的东西可以有所帮助)。为了计算PG的位置，Crush总是会引入一些延迟，而且总是会有crc32、编码/解码等引起的某种级别的额外延迟。话虽如此，单个OSD测试和多OSD测试之间仍存在很大的性能差异。

这些图表有点粗糙。尽管60个OSD的集群提供了大约200万的随机读IOPS，但是一个单独的OSD能够在更好的效率下提供近4倍于每个nvme /osd的性能。在写方面，事情稍微接近，但单个OSD的速度仍然是每个nvme/osd的大约2倍。然而，并不是一切都失去了。在Ceph的 Quincy版本中，我们努力改进写路径的性能。通过Ceph Quincy版本的改进和RocksDB的配置调优，我们可以在60个OSD的集群上实现了超过40%的4K随机写IOPS提升。

要了解我们是如何得到这些结果的，请参阅 RocksDB Tuning Deep Dive

结论

最终，在集群级别和OSD内部仍然有很大的空间来实现更高的性能。在未来的博客文章中，我将深入研究在低和高核心计数时限制性能的一些问题，以及如何进一步改进Ceph的想法。在此之前，在选择分配给由NVMe驱动器支持的osd的核数时，需要进行权衡。每个OSD有2-4个核，Ceph可以在小的读写过程中使用所有的核。增加额外的核(甚至每个osd最多16个以上)可以提高性能，但是随着核数的增加，每核的收益会变少,每个核的使用效率保持相对稳定，但是当分配更高的核数时，osd在充分利用所有可用核方面变得不那么一致。这不仅会影响前期的采购决策，还会影响有关电源和冷却等基础设施的决策，甚至影响有关容器/VM资源利用限制的决策。

最后，这篇文章关注的是Ceph Pacific版本，但从那时起Ceph的效率和性能都有所提高。跟Quincy版本相比，这些曲线看起来可能会有点不同，而几乎可以肯定的是，在Reef版本的情况也会有所不同。这些测试也在新集群上运行，在已经大量老化集群上可能看起来也会不一样。然而，我希望这篇文章至少提供了一个起点，说明在使用nvme时，CPU资源如何影响Ceph的性能。感谢阅读!

参考文章

原文链接

ceph官方硬件配置推荐

本文标签：性能 Ceph Part CPU

版权声明：本文标题：[译]Ceph性能优化之CPU核数对性能的影响 - Part 1 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729691874a1210203.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

[译]Ceph性能优化之CPU核数对性能的影响 - Part 1

原文链接

简介

集群设置

测试布局

单个OSD测试

60 OSD集群测试

单osd vs 多osd NVMe性能

结论

参考文章

更多相关文章

Perf IPC以及CPU性能

Tensorflow + PyTorch 安装（CPU + GPU 版本）

CPU性能优化

基于国产飞腾、Intel X86等CPU主板设计与调试入门指导

社交服务器占用,如何对占据服务器大量cpu资源的用户进行限制

P8H61 换 CPU，升级 BIOS，IDE 转 AHCI

ARM与X86 CPU架构区别

CPU性能PK

电脑超频是否能把平平无奇的CPU性能提升到超高性能的CPU水平？

台式计算机排行榜2018,2018年最新计算机CPU排名

【转载】CPU散热器详解

阿里云ECS服务器cpu经常跑的很高

使用AMD CPU，打造自己的深度学习服务器

Windows云服务器CPU使用率高的问题一例

有关CPU与内存的那些事

华擎服务器主板 稳定性,【华擎X570 Steel Legend主板使用总结】设置|性能_摘要频道_什么值得买...

CPU应用技巧！全面解答23个热点问题!

刘大力一个CPU艺术家的梦想

top等性能分析

CPU如何影响IA服务器的性能？

发表评论

推荐文章

百度云百度网盘不限速解析

ubuntu 22.04安装百度网盘

jni中arm64-v8a，armeabi-v7a,armeabi文件夹的意义和用法&lt;转&gt;

安装oracle用i5还是i7好,i7一定比i5强？买电脑陷阱你一定要注意了

sqlplus显示乱码--Windows10 处理方法

热门文章

计算机全盘搜索功能不见了,新萝卜家园win7旗舰版电脑中的搜索功能不见了怎么办...

认证与访问控制（０８－０１－０８）

资源：JDK1.8的版本百度网盘自提，并解决配置 java 环境的问题；

中小学智能排课系统 瑞星免费杀毒软件

不可编辑的pdf转换成word格式可编辑的方法

ubuntu16.04 搜狗输入法中英文切换不正常

华为（访问控制列表ACL）

java 笔记本i7 i5_笔记本i7低压cpu性能抵不过i5标压cpu,为什么还叫i7

超级好用的安卓手机助手

win10专业版找不到以管理员身份打开的运行窗口方法(亲测有效)

最新文章

五、前端框架Bootstrap

WebEx账户注册

手把手教小白学CSS3,一文就够了

品优购网站项目

63. Web前端网页制作 水果商城网页设计实例 大学生期末大作业 html+css+js

转：：Gitea安装过程---跟github几乎一模一样哦 （文章过于简单，建议大家看官网手册）

Mac OS X上使用Wireshark抓包 (抓取手机网络)

python实现中文情感分析与可视化

科普文：软件架构设计之【优化实践：网易云音乐会员支付链路优化实践】

NAS内网穿透教程：NKN，DDNSTO、Link、ZeroTier，人人都能外网访问！

iOS App跟小程序之间跳转

学会这招，轻松恢复已删除的手机通讯录

使用Arduino、DHT11温湿度传感器 和 ESP-01S 实现在乐为物联上传输数据

这是一张有意义的卡——农行万事达人民币

局域网传文件_跨平台传输文件方案大汇总（中篇）——可能全网最全的传输方案了...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

华擎服务器主板稳定性,【华擎X570 Steel Legend主板使用总结】设置|性能_摘要频道_什么值得买...

jni中arm64-v8a，armeabi-v7a,armeabi文件夹的意义和用法<转>

中小学智能排课系统瑞星免费杀毒软件

63. Web前端网页制作水果商城网页设计实例大学生期末大作业 html+css+js

转：：Gitea安装过程---跟github几乎一模一样哦（文章过于简单，建议大家看官网手册）

使用Arduino、DHT11温湿度传感器和 ESP-01S 实现在乐为物联上传输数据

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载