翘臀高清福利视频,免费无码A片岛国在线观看视频 ,99在线热播精品免费最新

引言

軟件開(kāi)發(fā)人員往往期望計(jì)算機(jī)硬件擁有無(wú)限容量、零訪(fǎng)問(wèn)延遲、無(wú)限帶寬以及便宜的內(nèi)存，但是現(xiàn)實(shí)卻是內(nèi)存容量越大，相應(yīng)的訪(fǎng)問(wèn)時(shí)間越長(zhǎng)；內(nèi)存訪(fǎng)問(wèn)速度越快，價(jià)格也更貴；帶寬越大，價(jià)格越貴。為了解決大容量、高速度、低成本之間的矛盾，基于程序訪(fǎng)問(wèn)的局部性原理，將更常用數(shù)據(jù)放在小容量的高速存儲(chǔ)器中，多種速度不同的存儲(chǔ)器分層級(jí)聯(lián)，協(xié)調(diào)工作。

圖1 memory hierarchy for sever[1]

現(xiàn)代計(jì)算機(jī)的存儲(chǔ)層次可以分幾層。如圖1所示，位于處理器內(nèi)部的是寄存器；稍遠(yuǎn)一點(diǎn)的是一級(jí)Cache，一級(jí)Cache一般能夠保存64k字節(jié)，訪(fǎng)問(wèn)它大約需要1ns，同時(shí)一級(jí)Cache通常劃分為指令Cache（處理器從指令Cache中取要執(zhí)行的指令）和數(shù)據(jù)Cache（處理器從數(shù)據(jù)Cache中存/取指令的操作數(shù)）；然后是二級(jí)Cache，通常既保存指令又保存數(shù)據(jù)，容量大約256k，訪(fǎng)問(wèn)它大約需要3-10ns；然后是三級(jí)Cache，容量大約16-64MB，訪(fǎng)問(wèn)它大約需要10-20ns；再接著是主存、硬盤(pán)等。注意，CPU和Cache是以word傳輸?shù)模珻ache到主存以塊（一般64byte）傳輸?shù)摹?/p>

前文提到了程序的局部性原理，一般指的是時(shí)間局部性（在一定時(shí)間內(nèi)，程序可能會(huì)多次訪(fǎng)問(wèn)同一內(nèi)存空間）和空間局部性（在一定時(shí)間內(nèi)，程序可能會(huì)訪(fǎng)問(wèn)附近的內(nèi)存空間），高速緩存（Cache）的效率取決于程序的空間和時(shí)間的局部性性質(zhì)。比如一個(gè)程序重復(fù)地執(zhí)行一個(gè)循環(huán)，在理想情況下，循環(huán)的第一個(gè)迭代將代碼取至高速緩存中，后續(xù)的迭代直接從高速緩存中取數(shù)據(jù)，而不需要重新從主存裝載。因此，為了使程序獲得更好的性能，應(yīng)盡可能讓數(shù)據(jù)訪(fǎng)問(wèn)發(fā)生在高速緩存中。但是如果數(shù)據(jù)訪(fǎng)問(wèn)在高速緩存時(shí)發(fā)生了沖突，也可能會(huì)導(dǎo)致性能下降。

篇幅原因，本文重點(diǎn)討論編譯器在Cache優(yōu)化中可以做哪些工作，如果讀者對(duì)其他內(nèi)存層次優(yōu)化感興趣，歡迎留言。下面將介紹幾種通過(guò)優(yōu)化Cache使用提高程序性能的方法。

對(duì)齊和布局

現(xiàn)代編譯器可以通過(guò)調(diào)整代碼和數(shù)據(jù)的布局方式，提高Cache命中率，進(jìn)而提升程序性能。本節(jié)主要討論數(shù)據(jù)和指令的對(duì)齊、代碼布局對(duì)程序性能的影響，大部分處理器中Cache到主存是以Cache line（一般為64Byte，也有地方稱(chēng)Cache塊，本文統(tǒng)一使用Cache line）傳輸?shù)模珻PU從內(nèi)存加載數(shù)據(jù)是一次一個(gè)Cache line，CPU往內(nèi)存寫(xiě)數(shù)據(jù)也是一次一個(gè)Cache line。假設(shè)處理器首次訪(fǎng)問(wèn)數(shù)據(jù)對(duì)象A，其大小剛好為64Byte，如果數(shù)據(jù)對(duì)象A首地址并沒(méi)有進(jìn)行對(duì)齊，即數(shù)據(jù)對(duì)象A占用兩個(gè)不同Cache line的一部分，此時(shí)處理器訪(fǎng)問(wèn)該數(shù)據(jù)對(duì)象時(shí)需要兩次內(nèi)存訪(fǎng)問(wèn)，效率低。但是如果數(shù)據(jù)對(duì)象A進(jìn)行了內(nèi)存對(duì)齊，即剛好在一個(gè)Cache line中，那么處理器訪(fǎng)問(wèn)該數(shù)據(jù)時(shí)只需要一次內(nèi)存訪(fǎng)問(wèn)，效率會(huì)高很多。編譯器可以通過(guò)合理安排數(shù)據(jù)對(duì)象，避免不必要地將它們跨越在多個(gè)Cache line中，盡量使得同一對(duì)象集中在一個(gè)Cache中，進(jìn)而有效地使用Cache來(lái)提高程序的性能。通過(guò)順序分配對(duì)象，即如果下一個(gè)對(duì)象不能放入當(dāng)前Cache line的剩余部分，則跳過(guò)這些剩余的部分，從下一個(gè)Cache line的開(kāi)始處分配對(duì)象，或者將大?。╯ize）相同的對(duì)象分配在同一個(gè)存儲(chǔ)區(qū)，所有對(duì)象都對(duì)齊在size的倍數(shù)邊界上等方式達(dá)到上述目的。

Cache line對(duì)齊可能會(huì)導(dǎo)致存儲(chǔ)資源的浪費(fèi)，如圖2所示，但是執(zhí)行速度可能會(huì)因此得到改善。對(duì)齊不僅僅可以作用于全局靜態(tài)數(shù)據(jù)，也可以作用于堆上分配的數(shù)據(jù)。對(duì)于全局?jǐn)?shù)據(jù)，編譯器可以通過(guò)匯編語(yǔ)言的對(duì)齊指令命令來(lái)通知鏈接器。對(duì)于堆上分配的數(shù)據(jù)，將對(duì)象放置在Cache line的邊界或者最小化對(duì)象跨Cache line的次數(shù)的工作不是由編譯器來(lái)完成的，而是由runtime中的存儲(chǔ)分配器來(lái)完成的^[2]^。

圖2 因塊對(duì)齊可能會(huì)浪費(fèi)存儲(chǔ)空間

前文提到了數(shù)據(jù)對(duì)象對(duì)齊，可以提高程序性能。指令Cache的對(duì)齊，也可以提高程序性能。同時(shí)，代碼布局也會(huì)影響程序的性能，將頻繁執(zhí)行的基本塊的首地址對(duì)齊在Cache line的大小倍數(shù)邊界上能增加在指令Cache中同時(shí)容納的基本塊數(shù)目，將不頻繁執(zhí)行的指令和頻繁指令的指令放到不同的Cache line中，通過(guò)優(yōu)化代碼布局來(lái)提升程序性能。

利用硬件輔助

Cache預(yù)取是將內(nèi)存中的指令和數(shù)據(jù)提前存放至Cache中，達(dá)到加快處理器執(zhí)行速度的目的。Cache預(yù)取可以通過(guò)硬件或者軟件實(shí)現(xiàn)，硬件預(yù)取是通過(guò)處理器中專(zhuān)門(mén)的硬件單元實(shí)現(xiàn)的，該單元通過(guò)跟蹤內(nèi)存訪(fǎng)問(wèn)指令數(shù)據(jù)地址的變化規(guī)律來(lái)預(yù)測(cè)將會(huì)被訪(fǎng)問(wèn)到的內(nèi)存地址，并提前從主存中讀取這些數(shù)據(jù)到Cache；軟件預(yù)取是在程序中顯示地插入預(yù)取指令，以非阻塞的方式讓處理器從內(nèi)存中讀取指定地址數(shù)據(jù)至Cache。由于硬件預(yù)取器通常無(wú)法正常動(dòng)態(tài)關(guān)閉，因此大部分情況下軟件預(yù)取和硬件預(yù)取是并存的，軟件預(yù)取必須盡力配合硬件預(yù)取以取得更優(yōu)的效果。本文假設(shè)硬件預(yù)取器被關(guān)閉后，討論如何利用軟件預(yù)取達(dá)到性能提升的效果。

預(yù)取指令prefech(x)只是一種提示，告知硬件開(kāi)始將地址x中的數(shù)據(jù)從主存中讀取到Cache中。它并不會(huì)引起處理停頓，但若硬件發(fā)現(xiàn)會(huì)產(chǎn)生異常，則會(huì)忽略這個(gè)預(yù)取操作。如果prefech(x)成功，則意味著下一次取x將命中Cache；不成功的預(yù)取操作可能會(huì)導(dǎo)致下次讀取時(shí)發(fā)生Cache miss，但不會(huì)影響程序的正確性^[2]^。

數(shù)據(jù)預(yù)取是如何改成程序性能的呢？如下一段程序：

double a[n];
for (int i = 0; i < 100; i++)
 a[i] = 0;

假設(shè)一個(gè)Cache line可以存放兩個(gè)double元素，當(dāng)?shù)谝淮卧L(fǎng)問(wèn)a[0]時(shí)，由于a[0]不在Cache中，會(huì)發(fā)生一次Cache miss，需要從主存中將其加載至Cache中，由于一個(gè)Cache line可以存放兩個(gè)double元素，當(dāng)訪(fǎng)問(wèn)a[1]時(shí)則不會(huì)發(fā)生Cache miss。依次類(lèi)推，訪(fǎng)問(wèn)a[2]時(shí)會(huì)發(fā)生Cache miss，訪(fǎng)問(wèn)a[3]時(shí)不會(huì)發(fā)生Cache miss，我們很容易得到程序總共發(fā)生了50次Cache miss。

我們可以通過(guò)軟件預(yù)取等相關(guān)優(yōu)化，降低Cache miss次數(shù)，提高程序性能。首先介紹一個(gè)公式^[3]^：

上述公式中L是memory latency，S是執(zhí)行一次循環(huán)迭代最短的時(shí)間。iterationAhead表示的是循環(huán)需要經(jīng)過(guò)執(zhí)行幾次迭代，預(yù)取的數(shù)據(jù)才會(huì)到達(dá)Cache。假設(shè)我們的硬件架構(gòu)計(jì)算出來(lái)的iterationAhead=6，那么原程序可以?xún)?yōu)化成如下程序：

double a[n];
for (int i = 0; i < 12; i+=2)   //prologue 
 prefetch(&a[i]);
for (int i = 0; i < 88; i+=2) { // steady state
 prefetch(&a[i+12]);
 a[i] = 0;
 a[i+1] = 0;
}
for (int i = 88; i < 100; i++) //epilogue
 a[i] = 0;

由于我們的硬件架構(gòu)需要循環(huán)執(zhí)行6次后，預(yù)取的數(shù)據(jù)才會(huì)到達(dá)Cache。一個(gè)Cache line可以存放兩個(gè)double元素，為了避免浪費(fèi)prefetch指令，所以prologue和steady state循環(huán)都展開(kāi)了，即執(zhí)行prefetch(&a[0])后會(huì)將a[0]、a[1]從主存加載至Cache中，下次執(zhí)行預(yù)取時(shí)就無(wú)需再次將a[1]從主存加載至Cache了。prologue循環(huán)先執(zhí)行數(shù)組a的前12個(gè)元素的預(yù)取指令，等到執(zhí)行steady state循環(huán)時(shí)，當(dāng)i = 0時(shí)，a[0]和a[1]已經(jīng)被加載至Cache中，就不會(huì)發(fā)生Cache miss了。依次類(lèi)推，經(jīng)過(guò)上述優(yōu)化后，在不改變語(yǔ)義的基礎(chǔ)上，通過(guò)使用預(yù)取指令，程序的Cache miss次數(shù)從50下降至0，程序的性能將會(huì)得到很大提升。

注意，預(yù)取并不能減少?gòu)闹鞔鎯?chǔ)器取數(shù)據(jù)到高速緩存的延遲，只是通過(guò)預(yù)取與計(jì)算重疊而隱藏這種延遲?？傊?dāng)處理器有預(yù)取指令或者有能夠用作預(yù)取的非阻塞的讀取指令時(shí)，對(duì)于處理器不能動(dòng)態(tài)重排指令或者動(dòng)態(tài)重排緩沖區(qū)小于我們希望隱藏的具體Cache延遲，并且所考慮的數(shù)據(jù)大于Cache或者是不能夠判斷數(shù)據(jù)是否已在Cache中，預(yù)取是適用的。預(yù)取也不是萬(wàn)能，不當(dāng)?shù)念A(yù)取可能會(huì)導(dǎo)致高速緩存沖突，程序性能降低。我們應(yīng)該首先利用數(shù)據(jù)重用來(lái)減少延遲，然后才考慮預(yù)取。

除了軟件預(yù)取外，ARMv8還提供了Non-temporal的Load/Store指令，可以提高Cache的利用率。對(duì)于一些數(shù)據(jù)，如果只是訪(fǎng)問(wèn)一次，無(wú)需占用Cache，可以使用這個(gè)指令進(jìn)行訪(fǎng)問(wèn)，從而保護(hù)Cache中關(guān)鍵數(shù)據(jù)不被替換，比如memcpy大數(shù)據(jù)的場(chǎng)景下，使用該指令對(duì)于其關(guān)鍵業(yè)務(wù)而言，是有一定的收益的。

循環(huán)變換

重用Cache中的數(shù)據(jù)是最基本的高效使用Cache方法。對(duì)于多層嵌套循環(huán)，可以通過(guò)交換兩個(gè)嵌套的循環(huán)（loop interchange）、逆轉(zhuǎn)循環(huán)迭代執(zhí)行的順序（loop reversal）、將兩個(gè)循環(huán)體合并成一個(gè)循環(huán)體（loop fusion）、循環(huán)拆分（loop distribution）、循環(huán)分塊（loop tiling）、loop unroll and jam等循環(huán)變換操作。選擇適當(dāng)?shù)难h(huán)變換方式，既能保持程序的語(yǔ)義，又能改善程序性能。我們做這些循環(huán)變換的主要目的是為了實(shí)現(xiàn)寄存器、數(shù)據(jù)高速緩存以及其他存儲(chǔ)層次使用方面的優(yōu)化。

篇幅受限，本節(jié)僅討論循環(huán)分塊（loop tiling）如何改善程序性能，若對(duì)loop interchange感興趣，請(qǐng)點(diǎn)擊查閱。下面這個(gè)簡(jiǎn)單的循環(huán)：

for(int i = 0; i < m; i++) {
 for(int j = 0; j < n; j++) {
  x = x+a[i]+c*b[j];
 }
}

我們假設(shè)數(shù)組a、b都是超大數(shù)組，m、n相等且都很大，程序不會(huì)出現(xiàn)數(shù)組越界訪(fǎng)問(wèn)情況發(fā)生。那么如果b[j]在j層循環(huán)中跨度太大時(shí)，那么被下次i層循環(huán)重用時(shí)數(shù)據(jù)已經(jīng)被清出高速緩存。即程序訪(fǎng)問(wèn)b[n-1]時(shí)，b[0]、b[1]已經(jīng)被清出緩存，此時(shí)需要重新從主存中將數(shù)據(jù)加載至緩存中，程序性能會(huì)大幅下降。

我們?nèi)绾瓮ㄟ^(guò)降低Cache miss次數(shù)提升程序的性能呢？通過(guò)對(duì)循環(huán)做loop tiling可以符合我們的期望，即通過(guò)循環(huán)重排，使得數(shù)據(jù)分成一個(gè)一個(gè)tile，讓每一個(gè)tile的數(shù)據(jù)都可以在Cache中被hint^[4]^。從內(nèi)層循環(huán)開(kāi)始tiling，假設(shè)tile的大小為t，t遠(yuǎn)小于m、n，t的取值使得b[t-1]被訪(fǎng)問(wèn)時(shí)b[0]依然在Cache中，將會(huì)大幅地減少Cache miss次數(shù)。假設(shè)n-1恰好被t整除，此時(shí)b數(shù)組的訪(fǎng)問(wèn)順序如下所示：

i=1; b[0]、b[1]、b[2]...b[t-1]
i=2; b[0]、b[1]、b[2]...b[t-1]
...
i=n; b[0]、b[1]、b[2]...b[t-1]
...
...
...
i=1; b[n-t]、b[n-t-1]、b[n-t-2]...b[n-1]
i=2; b[n-t]、b[n-t-1]、b[n-t-2]...b[n-1]
...
i=n; b[n-t]、b[n-t-1]、b[n-t-2]...b[n-1]

經(jīng)過(guò)loop tiling后循環(huán)變換成：

for(int j = 0; j < n; j+=t) {
 for(int i = 0; i < m; i++) {
  for(int jj = j; jj < min(j+t, n); jj++) {
   x = x+a[i]+c*b[jj];
  }
 }
}

假設(shè)每個(gè)Cache line能夠容納X個(gè)數(shù)組元素，loop tiling前a的Cache miss次數(shù)為m/X，b的Cache miss次數(shù)是m*n/X，總的Cache miss次數(shù)為m*(n+1)/x。loop tiling后a的Cache miss次數(shù)為(n/t)*(m/X)，b的Cache miss次數(shù)為(t/X)*(n/t)=n/X，總的Cache miss次數(shù)為n*(m+t)/xt。此時(shí)，由于n與m相等，那么loop tiling后Cache miss大約可以降低t倍^[4]^。

前文討論了loop tiling在小用例上如何提升程序性能，總之針對(duì)不同的循環(huán)場(chǎng)景，選擇合適的循環(huán)交換方法，既能保證程序語(yǔ)義正確，又能獲得改善程序性能的機(jī)會(huì)。

小結(jié)

汝之蜜糖，彼之砒霜。針對(duì)不同的硬件，我們需要結(jié)合具體的硬件架構(gòu)，利用性能分析工具，通過(guò)分析報(bào)告和程序，從系統(tǒng)層次和算法層次思考問(wèn)題，往往會(huì)有意想不到的收獲。本文簡(jiǎn)單地介紹了內(nèi)存層次優(yōu)化相關(guān)的幾種方法，結(jié)合一些小例子深入淺出地講解了一些內(nèi)存層次優(yōu)化相關(guān)的知識(shí)。紙上得來(lái)終覺(jué)淺，絕知此事要躬行，更多性能優(yōu)化相關(guān)的知識(shí)需要我們從實(shí)踐中慢慢摸索。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴