CPU拓扑结构

摘要:
由于SMP体系中各个CPU访问内存只能通过单一的通道,导致内存访问成为瓶颈,cpu再多也无用。注意,因为我们开启了HyperThreading,所以两个node上的CPU并不是连续的,绑定时避免绑定到兄弟核上。例如,带有HyperThreading的四sockets八cores系统将有四个sockets,每个socket八个内核,每个内核两个线程,共64个(逻辑)CPU。共享组件的CPU称为线程同级。所有CPU在系统上都显示为可用的CPU,并可以并行执行工作负载。[3].NUMA体系结构详解[4].CPUtopologies-OpenStack

本篇旨在认识一下以下三种CPU拓扑结构分别是什么:

  • Symmetric multiprocessing (SMP)
  • Non-uniform memory access (NUMA)
  • Simultaneous Multi-Threading (SMT)

Symmetric multiprocessing (SMP)

对称多处理(英语:Symmetric multiprocessing,缩写为SMP),也译为均衡多处理、对称性多重处理,是一种多处理器的电脑硬件架构,在对称多处理架构下,每个处理器的地位都是平等的,对资源的使用权限相同。现代多数的多处理器系统,都采用对称多处理架构,也被称为对称多处理系统(Symmetric multiprocessing system),其组织方式如下图所示:

SMP Organization

每个处理器都有自己的L1缓存,共享L2缓存,通过某种互联方式(如系统总线)共享资源如内存和IO。

Non-uniform memory access (NUMA)

是什么

非统一内存访问架构(英语:Non-uniform memory access,简称NUMA),是在许多multi-sockets系统中SMP设计的衍生品——CPU规模因摩尔定律指数级发展,而总线发展缓慢,导致多核CPU通过一条总线共享内存成为瓶颈,NUMA的出现,使得CPU平均划分为若干个Chip(不多于4个),每个Chip有自己的内存控制器及内存插槽,CPU访问自己Chip上所插的内存时速度快,而访问其他CPU所关联的内存(下文称Remote Access)的速度较慢,如下图所示:

CPU拓扑结构第2张

NUMA相关的几个概念有nodesocketcorethread,先来一张示意图:

NUMA four concepts

  • Socket是一个物理上的概念,指的是主板上的cpu插槽
  • Node是一个逻辑上的概念,上图中没有提及。由于SMP体系中各个CPU访问内存只能通过单一的通道,导致内存访问成为瓶颈,cpu再多也无用。后来引入了NUMA,通过划分node,每个node有本地RAM,这样node内访问RAM速度会非常快。但跨Node的RAM访问代价会相对高一点
  • Core就是一个物理cpu,一个独立的硬件执行单元,比如寄存器,计算单元等
  • Thread就是超线程(HyperThreading)的概念,是一个逻辑cpu,共享core上的执行单元

下面是SMP和NUMA的对比图:

SMPvsNUMA

由此可以总结这样的逻辑关系(包含):Node>Socket>Core>Thread

查看CPU信息

常用的方式是lscpunumactl

[root@10e131e69e15 ~]# lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                32
On-line CPU(s) list:   0-31
Thread(s) per core:    2
Core(s) per socket:    8
Socket(s):             2
NUMA node(s):          2
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 63
Model name:            Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz
Stepping:              2
CPU MHz:               1712.343
BogoMIPS:              4793.31
Virtualization:        VT-x
L1d cache:             32K
L1i cache:             32K
L2 cache:              256K
L3 cache:              20480K
NUMA node0 CPU(s):     0-7,16-23
NUMA node1 CPU(s):     8-15,24-31

可以看到,我们172.28.8.15的物理机上一共有两颗CPU(Sockets:2),每颗CPU 8核(Cores per socket:8),每一个核是双线程(Threads per core:2),所以一共2*8*2 = 32个processor。此外可以看到当前是NUMA架构,node0包含第0-7,16-23个的CPU,node1包含第8-15,24-31个CPU。我们还可以使用numactl -Hnumactl --hardware查看NUMA信息:

[root@10e131e69e15 ~]# numactl -H
available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23
node 0 size: 32652 MB
node 0 free: 280 MB
node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31
node 1 size: 32768 MB
node 1 free: 64 MB
node distances:
node   0   1
  0:  10  21
  1:  21  10

一共两个node,每个node32G内存。注意,因为我们开启了HyperThreading,所以两个node上的CPU并不是连续的,绑定时避免绑定到兄弟核上。

如果是非NUMA架构,则所有的cpu都划分到一个node中,如:

[root@f-packstack-q ~(keystone_admin)]# numactl --hardware
available: 1 nodes (0)
node 0 cpus: 0 1 2 3
node 0 size: 8095 MB
node 0 free: 555 MB
node distances:
node   0
  0:  10

注:在OpenStack中,SMP CPU被称为cores(核心),NUMA单元或节点被称为sockets(套接字),而SMT CPU被称为thread(线程)。例如,带有HyperThreading(超线程技术)的四sockets八cores系统将有四个sockets,每个socket八个内核,每个内核两个线程,共64个(逻辑)CPU。

Simultaneous Multi-Threading (SMT)

同步多线程(英语:Symmetric multithreading,缩写为SMT)是一种在一个CPU 的时钟周期内能够执行来自多个线程的指令的硬件多线程技术。本质上,同步多线程是一种将线程级并行处理(多CPU)转化为指令级并行处理(同一CPU)的方法。

SMT示意图

SMT是与SMP相辅相成的设计。尽管SMP系统中的CPU共享总线和一些内存,但SMT系统中的CPU共享更多的组件。共享组件的CPU称为线程同级。所有CPU在系统上都显示为可用的CPU,并可以并行执行工作负载。但是,与NUMA一样,线程竞争共享资源。

Reference

[1].Cpu bindings (一) 理解cpu topology
[2].NUMA架构的CPU -- 你真的用好了么?
[3].NUMA体系结构详解
[4].CPU topologies - OpenStack

免责声明:文章转载自《CPU拓扑结构》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇认识计算机中的大小端模式SQL SERVER如何判断某个字段包含大写字母下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

JavaDump 规格严格

引言 http://www.oschina.net/p/becl/similar_projects?lang=19&sort=view&p=13 对于大型 java 应用程序来说,再精细的测试都难以堵住所有的漏洞,即便我们在测试阶段进行了大量卓有成效的工作,很多问题还是会在生产环境下暴露出来,并且很难在测试环境中进行重现。JVM 能够记录下...

Linux下MySQL所在磁盘,线程,内存的配置

磁盘日志策略 /etc/fstab中可以进行正面的配置(其性能按从上到下的顺序排列) data=writeback 只有元数据写入日志.元数据写入与数据写入并不同步.这是最快的配置,对innodb来说通常是安全的,innodb有自己的事务日志.唯一例外是当系统崩溃.frm文件损坏了. data=ordered 这个选项也只会记录元数据,但是会提供一些一致性...

Tomcat系列(9)——Tomcat 6方面调优(内存,线程,IO,压缩,缓存,集群)

核心部分 内存 线程 IO 压缩 缓存 集群 一、JVM内存优化Tomcat内存优化,包括内存大小,垃圾回收策略。 Windows 下的catalina.bat,Linux 下的catalina.sh  系统响应时间增快; JVM回收速度增快同时又不影响系统的响应率; JVM内存最大化利用; 线程阻塞情况最小化。 -server:一定要作为第一个参数,...

Android Looper详解

在Android下面也有多线程的概念,在C/C++中,子线程可以是一个函数, 一般都是一个带有循环的函数,来处理某些数据,优先线程只是一个复杂的运算过程,所以可能不需要while循环,运算完成,函数结束,线程就销毁。对于那 些需要控制的线程,一般我们都是和互斥锁相互关联,从而来控制线程的进度,一般我们创建子线程,一种线程是很常见的,那就是带有消息循环的线程...

QT多线程及通过事件进行通信(通过自定义事件,然后QApplication::postEvent给主界面,我之前用的是信号槽)

可以通过QThread实现跨平台的多线程开发,Qt库负责在特定平台上的特定多线程实现。要采用QThread进行多线程开发,首先需要包含头文件: #include <QThread> 然后需要从QThread继承一个自己的线程类,暂作MyThread,关键是要实现QThread内的一个虚函数run。在run函数内部,最后一般都调用exec(),使...

1-多线程与多进程

  一 进程与线程的概念 1.1 进程 考虑一个场景:浏览器,网易云音乐以及notepad++ 三个软件只能顺序执行是怎样一种场景呢?假如有两个程序A和B,程序A在执行到一半的过程中,需要读取大量的数据输入(I/O操作),而此时CPU只能静静地等待任务A读取完数据才能继续执行,这样就白白浪费了CPU资源。你是不是已经想到在程序A读取数据的过程中,让程序B去...