一.背景
所謂物理內(nèi)存,就是安裝在機器上的,實打?qū)嵉膬?nèi)存設(shè)備(不包括硬件cache),被CPU通過總線訪問。在多核系統(tǒng)中,如果物理內(nèi)存對所有CPU來說沒有區(qū)別,每個CPU訪問內(nèi)存的方式也一樣,則這種體系結(jié)構(gòu)被稱為Uniform Memory Access(UMA)。
如果物理內(nèi)存是分布式的,由多個cell組成(比如每個核有自己的本地內(nèi)存),那么CPU在訪問靠近它的本地內(nèi)存的時候就比較快,訪問其他CPU的內(nèi)存或者全局內(nèi)存的時候就比較慢,這種體系結(jié)構(gòu)被稱為Non-Uniform Memory Access(NUMA)。
以上是硬件層面上的NUMA,而作為軟件層面的Linux,則對NUMA的概念進行了抽象。即便硬件上是一整塊連續(xù)內(nèi)存的UMA,Linux也可將其劃分為若干的node。同樣,即便硬件上是物理內(nèi)存不連續(xù)的NUMA,Linux也可將其視作UMA。
所以,在Linux系統(tǒng)中,你可以基于一個UMA的平臺測試NUMA上的應(yīng)用特性。從另一個角度,UMA就是只有一個node的特殊NUMA,所以兩者可以統(tǒng)一用NUMA模型表示。

傳統(tǒng)的SMP(對稱多處理器)中,所有處理器都共享系統(tǒng)總線,因此當處理器的數(shù)目增大時,系統(tǒng)總線的競爭沖突加大,系統(tǒng)總線將成為瓶頸,所以目前SMP系統(tǒng)的CPU數(shù)目一般只有數(shù)十個,可擴展能力受到極大限制。NUMA技術(shù)有效結(jié)合了SMP系統(tǒng)易編程性和MPP(大規(guī)模并行)系統(tǒng)易擴展性的特點,較好解決了SMP系統(tǒng)的可擴展性問題,已成為當今高性能服務(wù)器的主流體系結(jié)構(gòu)之一。
在NUMA系統(tǒng)中,當Linux內(nèi)核收到內(nèi)存分配的請求時,它會優(yōu)先從發(fā)出請求的CPU本地或鄰近的內(nèi)存node中尋找空閑內(nèi)存,這種方式被稱作local allocation,local allocation能讓接下來的內(nèi)存訪問相對底層的物理資源是local的。
每個node由一個或多個zone組成(我們可能經(jīng)常在各種對虛擬內(nèi)存和物理內(nèi)存的描述中迷失,但以后你見到zone,就知道指的是物理內(nèi)存),每個zone又由若干page frames組成(一般page frame都是指物理頁面)。

基于NUMA架構(gòu)的高性能服務(wù)器有HP的Superdome、SGI的Altix 3000、IBM的 x440、NEC的TX7、AMD的Opteron等。
概念
NUMA具有多個節(jié)點(Node),每個節(jié)點可以擁有多個CPU(每個CPU可以具有多個核或線程),節(jié)點內(nèi)使用共有的內(nèi)存控制器,因此節(jié)點的所有內(nèi)存對于本節(jié)點的所有CPU都是等同的,而對于其它節(jié)點中的所有CPU都是不同的。節(jié)點可分為本地節(jié)點(Local Node)、鄰居節(jié)點(Neighbour Node)和遠端節(jié)點(Remote Node)三種類型。
本地節(jié)點:對于某個節(jié)點中的所有CPU,此節(jié)點稱為本地節(jié)點;
鄰居節(jié)點:與本地節(jié)點相鄰的節(jié)點稱為鄰居節(jié)點;
遠端節(jié)點:非本地節(jié)點或鄰居節(jié)點的節(jié)點,稱為遠端節(jié)點。
鄰居節(jié)點和遠端節(jié)點,稱作非本地節(jié)點(Off Node)。
CPU訪問不同類型節(jié)點內(nèi)存的速度是不相同的:本地節(jié)點>鄰居節(jié)點>遠端節(jié)點。訪問本地節(jié)點的速度最快,訪問遠端節(jié)點的速度最慢,即訪問速度與節(jié)點的距離有關(guān),距離越遠訪問速度越慢,此距離稱作Node Distance。
常用的NUMA系統(tǒng)中:硬件設(shè)計已保證系統(tǒng)中所有的Cache是一致的(Cache Coherent, ccNUMA);不同類型節(jié)點間的Cache同步時間不一樣,會導(dǎo)致資源競爭不公平,對于某些特殊的應(yīng)用,可以考慮使用FIFO Spinlock保證公平性。
二.NUMA存儲管理
NUMA系統(tǒng)是由多個結(jié)點通過高速互連網(wǎng)絡(luò)連接而成的,如圖1是SGI Altix 3000 ccNUMA系統(tǒng)中的兩個結(jié)點。

NUMA系統(tǒng)的結(jié)點通常是由一組CPU(如,SGI Altix 3000是2個Itanium2 CPU)和本地內(nèi)存組成,有的結(jié)點可能還有I/O子系統(tǒng)。由于每個結(jié)點都有自己的本地內(nèi)存,因此全系統(tǒng)的內(nèi)存在物理上是分布的,每個結(jié)點訪問本地內(nèi)存和訪問其它結(jié)點的遠地內(nèi)存的延遲是不同的,為了減少非一致性訪存對系統(tǒng)的影響,在硬件設(shè)計時應(yīng)盡量降低遠地內(nèi)存訪存延遲(如通過Cache一致性設(shè)計等),而操作系統(tǒng)也必須能感知硬件的拓撲結(jié)構(gòu),優(yōu)化系統(tǒng)的訪存。
目前IA64 Linux所支持的NUMA架構(gòu)服務(wù)器的物理拓撲描述是通過ACPI(Advanced Configuration and Power Interface)實現(xiàn)的。ACPI是由Compaq、Intel、Microsoft、Phoenix和Toshiba聯(lián)合制定的BIOS規(guī)范,它定義了一個非常廣泛的配置和電源管理,目前該規(guī)范的版本已發(fā)展到2.0,3.0o版本正在制定中,具體信息可以從 http://www.acpi.info網(wǎng)站上獲得。ACPI規(guī)范也已廣泛應(yīng)用于IA-32架構(gòu)的至強服務(wù)器系統(tǒng)中。
Linux對NUMA系統(tǒng)的物理內(nèi)存分布信息是從系統(tǒng)firmware的ACPI表中獲得的,最重要的是SRAT(System Resource Affinity Table)和SLIT(System Locality Information Table)表,其中SRAT包含兩個結(jié)構(gòu):
- Processor Local APIC/SAPIC Affinity Structure:記錄某個CPU的信息;
- Memory Affinity Structure:記錄內(nèi)存的信息;
SLIT表則記錄了各個結(jié)點之間的距離,在系統(tǒng)中由數(shù)組node_distance[ ]記錄。
Linux采用Node、Zone和頁三級結(jié)構(gòu)來描述物理內(nèi)存的,如圖2所示,
圖2 Linux中Node、Zone和頁的關(guān)系
2.1 結(jié)點
Linux用一個struct pg_data_t結(jié)構(gòu)來描述系統(tǒng)的內(nèi)存,系統(tǒng)中每個結(jié)點都掛接在一個pgdat_list列表中,對UMA體系結(jié)構(gòu),則只有一個靜態(tài)的pg_data_t結(jié)構(gòu)contig_page_data。對NUMA系統(tǒng)來說則非常容易擴充,NUMA系統(tǒng)中一個結(jié)點可以對應(yīng)Linux存儲描述中的一個結(jié)點,具體描述見linux/mmzone.h。
typedef struct pglist_data {
zone_t node_zones[MAX_NR_ZONES];
zonelist_t node_zonelists[GFP_ZONEMASK+1];
int nr_zones;
struct page *node_mem_map;
unsigned long *valid_addr_bitmap;
struct bootmem_data *bdata;
unsigned long node_start_paddr;
unsigned long node_start_mapnr;
unsigned long node_size;
int node_id;
struct pglist_data *node_next;
} pg_data_t;
下面就該結(jié)構(gòu)中的主要域進行說明,
| 域 | 說明 |
|---|---|
| Node_zones | 該結(jié)點的zone類型,一般包括ZONE_HIGHMEM、ZONE_NORMAL和ZONE_DMA三類 |
| Node_zonelists | 分配時內(nèi)存時zone的排序。它是由free_area_init_core()通過page_alloc.c中的build_zonelists()設(shè)置zone的順序 |
| nr_zones | 該結(jié)點的 zone 個數(shù),可以從 1 到 3,但并不是所有的結(jié)點都需要有 3 個 zone |
| node_mem_map | 它是 struct page 數(shù)組的第一頁,該數(shù)組表示結(jié)點中的每個物理頁框。根據(jù)該結(jié)點在系統(tǒng)中的順序,它可在全局 mem_map 數(shù)組中的某個位置 |
| Valid_addr_bitmap | 用于描述結(jié)點內(nèi)存空洞的位圖 |
| node_start_paddr | 該結(jié)點的起始物理地址 |
| node_start_mapnr | 給出在全局 mem_map 中的頁偏移,在free_area_init_core() 計算在 mem_map 和 lmem_map 之間的該結(jié)點的頁框數(shù)目 |
| node_size | 該 zone 內(nèi)的頁框總數(shù) |
| node_id | 該結(jié)點的 ID,全系統(tǒng)結(jié)點 ID 從 0 開始 |
系統(tǒng)中所有結(jié)點都維護在 pgdat_list 列表中,在 init_bootmem_core 函數(shù)中完成該列表初始化工作。
影響zonelist方式
采用Node方式組織的zonelist為:

即各節(jié)點按照與本節(jié)點的Node Distance距離大小來排序,以達到更優(yōu)的內(nèi)存分配。
zonelist[2]
配置NUMA后,每個節(jié)點將關(guān)聯(lián)2個zonelist:
- zonelist[0]中存放以Node方式或Zone方式組織的zonelist,包括所有節(jié)點的zone;
- zonelist[1]中只存放本節(jié)點的zone即Legacy方式;
zonelist[1]用來實現(xiàn)僅從節(jié)點自身zone中的內(nèi)存分配(參考__GFP_THISNODE標志)。
Page Frame
雖然內(nèi)存訪問的最小單位是byte或者word,但MMU是以page為單位來查找頁表的,page也就成了Linux中內(nèi)存管理的重要單位。包括換出(swap out)、回收(relcaim)、映射等操作,都是以page為粒度的。
因此,描述page frame的struct page自然成為了內(nèi)核中一個使用頻率極高,非常重要的結(jié)構(gòu)體,來看下它是怎樣構(gòu)成的(為了講解需要并非最新內(nèi)核代碼):
struct page {
unsigned long flags;
atomic_t count;
atomic_t _mapcount;
struct list_head lru;
struct address_space *mapping;
unsigned long index;
...
}
- flags表示page frame的狀態(tài)或者屬性,包括和內(nèi)存回收相關(guān)的PG_active, PG_dirty, PG_writeback, PG_reserved, PG_locked, PG_highmem等。其實flags是身兼多職的,它還有其他用途,這將在下文中介紹到。
- count表示引用計數(shù)。當count值為0時,該page frame可被free掉;如果不為0,說明該page正在被某個進程或者內(nèi)核使用,調(diào)用page_count()可獲得count值。
- _mapcount表示該page frame被映射的個數(shù),也就是多少個page table entry中含有這個page frame的PFN。
- lru是"least recently used"的縮寫,根據(jù)page frame的活躍程度(使用頻率),一個可回收的page frame要么掛在active_list雙向鏈表上,要么掛在inactive_list雙向鏈表上,以作為頁面回收的選擇依據(jù),lru中包含的就是指向所在鏈表中前后節(jié)點的指針(參考這篇文章)。
- 如果一個page是屬于某個文件的(也就是在page cache中),則mapping指向文件inode對應(yīng)的address_space(這個結(jié)構(gòu)體雖然叫address_space,但并不是進程地址空間里的那個address space),index表示該page在文件內(nèi)的offset(以page size為單位)。
有了文件的inode和index,當這個page的內(nèi)容需要和外部disk/flash上對應(yīng)的部分同步時,才可以找到具體的文件位置。如果一個page是anonymous的,則mapping指向表示swap cache的swapper_space,此時index就是swapper_space內(nèi)的offset。
事實上,現(xiàn)在最新Linux版本的struct page實現(xiàn)中大量用到了union,也就是同一個元素在不同的場景下有不同的意義。這是因為每個page frame都需要一個struct page來描述,一個page frame占4KB,一個struct page占32字節(jié),那所有的struct page需要消耗的內(nèi)存占了整個系統(tǒng)內(nèi)存的32/4096,不到1%的樣子,說小也小,但一個擁有4GB物理內(nèi)存的系統(tǒng),光這一項的開銷最大就可達30多MB。
如果能在struct page里省下4個字節(jié),那就能省下4多MB的內(nèi)存空間,所以這個結(jié)構(gòu)體的設(shè)計必須非??季?,不能因為多一種場景的需要就在struct page中增加一個元素,而是應(yīng)該盡量采取復(fù)用的方式。
需要注意的是,struct page描述和管理的是這4KB的物理內(nèi)存,它并不關(guān)注這段內(nèi)存中的數(shù)據(jù)變化。
2.2 Zone
每個結(jié)點的內(nèi)存被分為多個塊,稱為zones,它表示內(nèi)存中一段區(qū)域。一個zone用struct_zone_t結(jié)構(gòu)描述,zone的類型主要有ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的內(nèi)存空間,用于某些舊的ISA設(shè)備。
ZONE_NORMAL的內(nèi)存直接映射到Linux內(nèi)核線性地址空間的高端部分,許多內(nèi)核操作只能在ZONE_NORMAL中進行。
因為硬件的限制,內(nèi)核不能對所有的page frames采用同樣的處理方法,因此它將屬性相同的page frames歸到一個zone中。對zone的劃分與硬件相關(guān),對不同的處理器架構(gòu)是可能不一樣的。

比如在i386中,一些使用DMA的設(shè)備只能訪問016MB的物理空間,因此將016MB劃分為了ZONE_DMA。ZONE_HIGHMEM則是適用于要訪問的物理地址空間大于虛擬地址空間,不能建立直接映射的場景。除開這兩個特殊的zone,物理內(nèi)存中剩余的部分就是ZONE_NORMAL了。
例如,在X86中,zone的物理地址如下:
| 類型 | 地址范圍 |
|---|---|
| ZONE_DMA | 前16MB內(nèi)存 |
| ZONE_NORMAL | 16MB - 896MB |
| ZONE_HIGHMEM | 896 MB以上 |
Zone是用struct zone_t描述的,它跟蹤頁框使用、空閑區(qū)域和鎖等信息,具體描述如下:
typedef struct zone_struct {
spinlock_t lock;
unsigned long free_pages;
unsigned long pages_min, pages_low, pages_high;
int need_balance;
free_area_t free_area[MAX_ORDER];
wait_queue_head_t * wait_table;
unsigned long wait_table_size;
unsigned long wait_table_shift;
struct pglist_data *zone_pgdat;
struct page *zone_mem_map;
unsigned long zone_start_paddr;
unsigned long zone_start_mapnr;char *name;unsigned long size;
} zone_t;
在其他一些處理器架構(gòu)中,ZONE_DMA可能是不需要的,ZONE_HIGHMEM也可能沒有。比如在64位的x64中,因為內(nèi)核虛擬地址空間足夠大,不再需要ZONE_HIGH映射,但為了區(qū)分使用32位地址的DMA應(yīng)用和使用64位地址的DMA應(yīng)用,64位系統(tǒng)中設(shè)置了ZONE_DMA32和ZONE_DMA。
所以,同樣的ZONE_DMA,對于32位系統(tǒng)和64位系統(tǒng)表達的意義是不同的,ZONE_DMA32則只對64位系統(tǒng)有意義,對32位系統(tǒng)就等同于ZONE_DMA,沒有單獨存在的意義。
此外,還有防止內(nèi)存碎片化的ZONE_MOVABLE和支持設(shè)備熱插拔的ZONE_DEVICE。可通過“cat /proc/zoneinfo |grep Node”命令查看系統(tǒng)中包含的zones的種類。
[rongtao@toa ~]$ cat /proc/zoneinfo |grep Node
Node 0, zone DMA
Node 0, zone DMA32
[rongtao@toa ~]$
下面就該結(jié)構(gòu)中的主要域進行說明,

當系統(tǒng)中可用的內(nèi)存比較少時,kswapd將被喚醒,并進行頁交換。如果需要內(nèi)存的壓力非常大,進程將同步釋放內(nèi)存。如前面所述,每個zone有三個閾值,稱為pages_low,pages_min和pages_high,用于跟蹤該zone的內(nèi)存壓力。pages_min的頁框數(shù)是由內(nèi)存初始化free_area_init_core函數(shù),根據(jù)該zone內(nèi)頁框的比例計算的,最小值為20頁,最大值一般為255頁。當?shù)竭_pages_min時,分配器將采用同步方式進行kswapd的工作;當空閑頁的數(shù)目達到pages_low時,kswapd被buddy分配器喚醒,開始釋放頁;當達到pages_high時,kswapd將被喚醒,此時kswapd不會考慮如何平衡該zone,直到有pages_high空閑頁為止。一般情況下,pages_high缺省值是pages_min的3倍。
Linux存儲管理的這種層次式結(jié)構(gòu)可以將ACPI的SRAT和SLIT信息與Node、Zone實現(xiàn)有效的映射,從而克服了傳統(tǒng)Linux中平坦式結(jié)構(gòu)無法反映NUMA架構(gòu)的缺點。當一個任務(wù)請求分配內(nèi)存時,Linux采用局部結(jié)點分配策略,首先在自己的結(jié)點內(nèi)尋找空閑頁;如果沒有,則到相鄰的結(jié)點中尋找空閑頁;如果還沒有,則到遠程結(jié)點中尋找空閑頁,從而在操作系統(tǒng)級優(yōu)化了訪存性能。
Zone雖然是用于管理物理內(nèi)存的,但zone與zone之間并沒有任何的物理分割,它只是Linux為了便于管理進行的一種邏輯意義上的劃分。Zone在Linux中用struct zone表示(以下為了講解需要,調(diào)整了結(jié)構(gòu)體中元素的順序):
struct zone {
spinlock_t lock;
unsigned long spanned_pages;
unsigned long present_pages;
unsigned long nr_reserved_highatomic;
atomic_long_t managed_pages;
struct free_area free_area[MAX_ORDER];
unsigned long _watermark[NR_WMARK];
long lowmem_reserve[MAX_NR_ZONES];
atomic_long_t vm_stat[NR_VM_ZONE_STAT_ITEMS];
unsigned long zone_start_pfn;
struct pglist_data *zone_pgdat;
struct page *zone_mem_map;
...
}
- lock是用來防止并行訪問struct zone的spin lock,它只能保護struct zone這個結(jié)構(gòu)體哈,可不能保護整個zone里的所有pages。
- spanned_pages是這個zone含有的總的page frames數(shù)目。在某些體系結(jié)構(gòu)(比如Sparc)中,zone中可能存在沒有物理頁面的"holes",spanned_pages減去這些holes里的absent pages就是present_pages。
nr_reserved_highatomic是為某些場景預(yù)留的內(nèi)存,managed_pages是由buddy內(nèi)存分配系統(tǒng)管理的page frames數(shù)目,其實也就是present_pages減去reserved pages。
- free_area由free list空閑鏈表構(gòu)成,表示zone中還有多少空余可供分配的page frames。_watermark有min(mininum), low, high三種,可作為啟動內(nèi)存回收的判斷標準
lowmem_reserve是給更高位的zones預(yù)留的內(nèi)存。vm_stat作為zone的內(nèi)存使用情況的統(tǒng)計信息,是“/proc/zoneinfo”的數(shù)據(jù)來源。
- zone_start_pfn是zone的起始物理頁面號,zone_start_pfn+spanned_pages就是該zone的結(jié)束物理頁面號。zone_pgdat是指向這個zone所屬的node的。zone_mem_map指向由struct page構(gòu)成的mem_map數(shù)組。
因為內(nèi)核對zone的訪問是很頻繁的,為了更好的利用硬件cache來提高訪問速度,struct zone中還有一些填充位,用于幫助結(jié)構(gòu)體元素的cache line對齊。這和struct page對內(nèi)存精打細算的使用形成了鮮明的對比,因為zone的種類很有限,一個系統(tǒng)中一共也不會有多少個zones,struct zone這個結(jié)構(gòu)體的體積大點也沒有什么關(guān)系。
Node Distance
上節(jié)中的例子是以2個節(jié)點為例,如果有>2個節(jié)點存在,就需要考慮不同節(jié)點間的距離來安排節(jié)點,例如以4個節(jié)點2個ZONE為例,各節(jié)點的布局(如4個XLP832物理CPU級聯(lián))值如下:

上圖中,Node0和Node2的Node Distance為25,Node1和Node3的Node Distance為25,其它的Node Distance為15。
三、NUMA調(diào)度器
NUMA系統(tǒng)中,由于局部內(nèi)存的訪存延遲低于遠地內(nèi)存訪存延遲,因此將進程分配到局部內(nèi)存附近的處理器上可極大優(yōu)化應(yīng)用程序的性能。Linux 2.4內(nèi)核中的調(diào)度器由于只設(shè)計了一個運行隊列,可擴展性較差,在SMP平臺表現(xiàn)一直不理想。當運行的任務(wù)數(shù)較多時,多個CPU增加了系統(tǒng)資源的競爭,限制了負載的吞吐率。在2.5內(nèi)核開發(fā)時,Ingo Molnar寫了一個多隊列調(diào)度器,稱為O(1),從2.5.2開始O(1)調(diào)度器已集成到2.5內(nèi)核版本中。O(1)是多隊列調(diào)度器,每個處理器都有一條自己的運行隊列,但由于O(1)調(diào)度器不能較好地感知NUMA系統(tǒng)中結(jié)點這層結(jié)構(gòu),從而不能保證在調(diào)度后該進程仍運行在同一個結(jié)點上,為此,Eirch Focht開發(fā)了結(jié)點親和的NUMA調(diào)度器,它是建立在Ingo Molnar的O(1)調(diào)度器基礎(chǔ)上的,Eirch將該調(diào)度器向后移植到2.4.X內(nèi)核中,該調(diào)度器最初是為基于IA64的NUMA機器的2.4內(nèi)核開發(fā)的,后來Matt Dobson將它移植到基于X86的NUMA-Q硬件上。
3.1 初始負載平衡
在每個任務(wù)創(chuàng)建時都會賦予一個HOME結(jié)點(所謂HOME結(jié)點,就是該任務(wù)獲得最初內(nèi)存分配的結(jié)點),它是當時創(chuàng)建該任務(wù)時全系統(tǒng)負載最輕的結(jié)點,由于目前Linux中不支持任務(wù)的內(nèi)存從一個結(jié)點遷移到另一個結(jié)點,因此在該任務(wù)的生命期內(nèi)HOME結(jié)點保持不變。一個任務(wù)最初的負載平衡工作(也就是選該任務(wù)的HOME結(jié)點)缺省情況下是由exec()系統(tǒng)調(diào)用完成的,也可以由fork()系統(tǒng)調(diào)用完成。在任務(wù)結(jié)構(gòu)中的node_policy域決定了最初的負載平衡選擇方式。
| Node_policy | 平衡方式 | 注釋 |
|---|---|---|
| 0(缺省值) | do_execve() | 任務(wù)由fork()創(chuàng)建,但不在同一個結(jié)點上運行exec() |
| 1 | do_fork() | 如果子進程有新的mm結(jié)構(gòu),選擇新的HOME結(jié)點 |
| 2 | do_fork() | 選擇新的HOME結(jié)點 |
3.2 動態(tài)負載平衡
在結(jié)點內(nèi),該NUMA調(diào)度器如同O(1)調(diào)度器一樣。在一個空閑處理器上的動態(tài)負載平衡是由每隔1ms的時鐘中斷觸發(fā)的,它試圖尋找一個高負載的處理器,并將該處理器上的任務(wù)遷移到空閑處理器上。在一個負載較重的結(jié)點,則每隔200ms觸發(fā)一次。調(diào)度器只搜索本結(jié)點內(nèi)的處理器,只有還沒有運行的任務(wù)可以從Cache池中移動到其它空閑的處理器。
如果本結(jié)點的負載均衡已經(jīng)非常好,則計算其它結(jié)點的負載情況。如果某個結(jié)點的負載超過本結(jié)點的25%,則選擇該結(jié)點進行負載均衡。如果本地結(jié)點具有平均的負載,則延遲該結(jié)點的任務(wù)遷移;如果負載非常差,則延遲的時間非常短,延遲時間長短依賴于系統(tǒng)的拓撲結(jié)構(gòu)。
四、CpuMemSets
SGI的Origin 3000 ccNUMA系統(tǒng)在許多領(lǐng)域得到了廣泛應(yīng)用,是個非常成功的系統(tǒng),為了優(yōu)化Origin 3000的性能,SGI的IRIX操作系統(tǒng)在其上實現(xiàn)了CpuMemSets,通過將應(yīng)用與CPU和內(nèi)存的綁定,充分發(fā)揮NUMA系統(tǒng)本地訪存的優(yōu)勢。Linux在NUMA項目中也實現(xiàn)了CpuMemSets,并且在SGI的Altix 3000的服務(wù)器中得到實際應(yīng)用。
CpuMemSets為Linux提供了系統(tǒng)服務(wù)和應(yīng)用在指定CPU上調(diào)度和在指定結(jié)點上分配內(nèi)存的機制。CpuMemSets是在已有的Linux調(diào)度和資源分配代碼基礎(chǔ)上增加了cpumemmap和cpumemset兩層結(jié)構(gòu),底層的cpumemmap層提供一個簡單的映射對,主要功能是:將系統(tǒng)的CPU號映射到應(yīng)用的CPU號、將系統(tǒng)的內(nèi)存塊號映射到應(yīng)用的內(nèi)存塊號;上層的cpumemset層主要功能是:指定一個進程在哪些應(yīng)用CPU上調(diào)度任務(wù)、指定內(nèi)核或虛擬存儲區(qū)可分配哪些應(yīng)用內(nèi)存塊。
4.1 cpumemmap
內(nèi)核任務(wù)調(diào)度和內(nèi)存分配代碼使用系統(tǒng)號,系統(tǒng)中的CPU和內(nèi)存塊都有對應(yīng)的系統(tǒng)號。應(yīng)用程序使用的CPU號和內(nèi)存塊號是應(yīng)用號,它用于指定在cpumemmap中CPU和內(nèi)存的親和關(guān)系。每個進程、每個虛擬內(nèi)存區(qū)和Linux內(nèi)核都有cpumemmap,這些映射是在fork()、exec()調(diào)用或創(chuàng)建虛擬內(nèi)存區(qū)時繼承下來的,具有root權(quán)限的進程可以擴展cpumemmap,包括增加系統(tǒng)CPU和內(nèi)存塊。映射的修改將導(dǎo)致內(nèi)核調(diào)度代碼開始運用新的系統(tǒng)CPU,存儲分配代碼使用新的內(nèi)存塊分配內(nèi)存頁,而已在舊塊上分配的內(nèi)存則不能遷移。Cpumemmap中不允許有空洞,例如,假設(shè)cpumemmap的大小為n,則映射的應(yīng)用號必須從0到n-1。
Cpumemmap中系統(tǒng)號和應(yīng)用號并不是一對一的映射,多個應(yīng)用號可以映射到同一個系統(tǒng)號。
4.2 cpumemset
系統(tǒng)啟動時,Linux內(nèi)核創(chuàng)建一個缺省的cpumemmap和cpumemset,在初始的cpumemmap映射和cpumemset中包含系統(tǒng)目前所有的CPU和內(nèi)存塊信息。
Linux內(nèi)核只在該任務(wù)cpumemset的CPU上調(diào)度該任務(wù),并只從該區(qū)域的內(nèi)存列表中選擇內(nèi)存區(qū)分配給用戶虛擬內(nèi)存區(qū),內(nèi)核則只從附加到正在執(zhí)行分配請求CPU的cpumemset內(nèi)存列表中分配內(nèi)存。
一個新創(chuàng)建的虛擬內(nèi)存區(qū)是從任務(wù)創(chuàng)建的當前cpumemset獲得的,如果附加到一個已存在的虛擬內(nèi)存區(qū)時,情況會復(fù)雜些,如內(nèi)存映射對象和Unix System V的共享內(nèi)存區(qū)可附加到多個進程,也可以多次附加到同一個進程的不同地方。如果被附加到一個已存在的內(nèi)存區(qū),缺省情況下新的虛擬內(nèi)存區(qū)繼承當前附加進程的cpumemset,如果此時標志位為CMS_SHARE,則新的虛擬內(nèi)存區(qū)鏈接到同一個cpumemset。
當分配頁時,如果該任務(wù)運行的CPU在cpumemset中有對應(yīng)的存儲區(qū),則內(nèi)核從該CPU的內(nèi)存列表中選擇,否則從缺省的CPU對應(yīng)的cpumemset選擇內(nèi)存列表。
4.3硬分區(qū)和CpuMemSets
在一個大的NUMA系統(tǒng)中,用戶往往希望控制一部分CPU和內(nèi)存給某些特殊的應(yīng)用。目前主要有兩種技術(shù)途徑:硬分區(qū)和軟分區(qū)技術(shù),CpuMemSets是屬于軟分區(qū)技術(shù)。將一個大NUMA系統(tǒng)的硬分區(qū)技術(shù)與大NUMA系統(tǒng)具有的單系統(tǒng)映像優(yōu)勢是矛盾的,而CpuMemSets允許用戶更加靈活的控制,它可以重疊、劃分系統(tǒng)的CPU和內(nèi)存,允許多個進程將系統(tǒng)看成一個單系統(tǒng)映像,并且不需要重啟系統(tǒng),保障某些CPU和內(nèi)存資源在不同的時間分配給指定的應(yīng)用。
SGI的CpuMemSets軟分區(qū)技術(shù)有效解決硬分區(qū)中的不足,一個單系統(tǒng)的SGI ProPack Linux服務(wù)器可以分成多個不同的系統(tǒng),每個系統(tǒng)可以有自己的控制臺、根文件系統(tǒng)和IP網(wǎng)絡(luò)地址。每個軟件定義的CPU組可以看成一個分區(qū),每個分區(qū)可以重啟、安裝軟件、關(guān)機和更新軟件。分區(qū)間通過SGI NUMAlink連接進行通訊,分區(qū)間的全局共享內(nèi)存由XPC和XPMEM內(nèi)核模塊支持,它允許一個分區(qū)的進程訪問另一個分區(qū)的物理內(nèi)存。
五、測試
為了有效驗證Linux NUMA系統(tǒng)的性能和效率,我們在SGI公司上海辦事處測試了NUMA架構(gòu)對SGI Altix 350性能。
該系統(tǒng)的配置如下:CPU:8個1.5 GHz Itanium2 內(nèi)存:8GB 互連結(jié)構(gòu):如圖3所示
圖3 SGI Altix350 4個計算模塊的Ring拓撲

測試用例:
1、Presta MPI測試包(來自ASCI Purple的Benchmark)
從互連拓撲結(jié)構(gòu)可以看出,計算模塊內(nèi)部的訪存延遲不需要通過互連,延遲最逗,剩下的需要通過1步或2步互連到達計算模塊,我們通過Presta MPI測試包,重點測試每步互連對系統(tǒng)的影響,具體結(jié)果如下:
| 最小延遲(us) | 一步延遲(us) | 兩步延遲(us) |
|---|---|---|
| 1.6 | 1.8 | 2.0 |
2、NASA的NPB測試

上述測試表明,SGI Altix 350系統(tǒng)具有較高的訪存和計算性能,Linux NUMA技術(shù)已進入實用階段。
-
內(nèi)存
+關(guān)注
關(guān)注
9文章
3231瀏覽量
76500 -
硬件
+關(guān)注
關(guān)注
12文章
3628瀏覽量
69164 -
機器
+關(guān)注
關(guān)注
0文章
799瀏覽量
41932 -
存儲管理
+關(guān)注
關(guān)注
0文章
33瀏覽量
9624 -
numa
+關(guān)注
關(guān)注
0文章
7瀏覽量
4017
發(fā)布評論請先 登錄
Linux的內(nèi)存管理是什么,Linux的內(nèi)存管理詳解
網(wǎng)絡(luò)存儲設(shè)備相關(guān)介紹
NUMA怎么優(yōu)化?
什么是基于閃存平臺的存儲管理策略?
多核處理器分類之SMP與NUMA簡析
智能卡操作系統(tǒng)中存儲管理設(shè)計
智能卡操作系統(tǒng)中存儲管理設(shè)計
MEMS存儲設(shè)備的管理技術(shù)
大數(shù)據(jù)存儲管理
NUMA存儲管理介紹
評論