chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低延遲SSD上的快速圖處理

SSDFans ? 來源:SSDFans ? 2023-10-12 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、背景

圖處理在社交媒體、導(dǎo)航、推薦等領(lǐng)域應(yīng)用廣泛。很多場(chǎng)合下圖數(shù)據(jù)往往非常大以至于難以在單個(gè)機(jī)器的內(nèi)存中存儲(chǔ)。分布式圖處理選擇將圖數(shù)據(jù)存儲(chǔ)在分布式集群的內(nèi)存中;而與分布式圖處理不同,外部圖處理系統(tǒng)選擇在單臺(tái)機(jī)器上利用二級(jí)存儲(chǔ)來輔助存儲(chǔ)圖數(shù)據(jù),同時(shí)也能提供與分布式圖處理相近或更優(yōu)的性能。外部圖處理系統(tǒng)根據(jù)存儲(chǔ)方式可以進(jìn)一步分為半外部系統(tǒng)和全外部系統(tǒng)。前者將圖數(shù)據(jù)中的頂點(diǎn)數(shù)據(jù)存儲(chǔ)在內(nèi)存、邊數(shù)據(jù)存儲(chǔ)在SSD中;后者則將兩者都存儲(chǔ)在SSD中。本文提出的Blaze就屬于半外部系統(tǒng)。

二、問題

8587359e-688f-11ee-939d-92fbcf53809c.png

盡管現(xiàn)在新興的快速NVMe SSD提供了比過去的SSD更高的帶寬,但是現(xiàn)有的半外部圖處理系統(tǒng)不能充分利用這些快速SSD帶來的性能提升。本文通過實(shí)驗(yàn)(上圖)發(fā)現(xiàn)主要問題為IO利用率低下,可以看出在兩個(gè)代表性的半外部處理系統(tǒng)中除了BFS算法以外其他例程的執(zhí)行中IO帶寬(柱)都遠(yuǎn)未達(dá)到快速SSD的最大帶寬(紅線)。

本文作者認(rèn)為IO利用率低下的原因主要包含3個(gè)方面:計(jì)算傾斜、IO傾斜、IO快計(jì)算慢。

1. 計(jì)算傾斜

并行圖處理系統(tǒng)需要同步機(jī)制來避免并發(fā)更新算法相關(guān)的頂點(diǎn)數(shù)據(jù)時(shí)出現(xiàn)競(jìng)爭(zhēng)?,F(xiàn)有的半外部圖處理系統(tǒng)FlashGraph采用消息機(jī)制來解決同步問題,它為每個(gè)頂點(diǎn)分配了一個(gè)消息隊(duì)列,并按照頂點(diǎn)ID將每個(gè)頂點(diǎn)分派給一個(gè)計(jì)算線程。圖算法迭代性地執(zhí)行,在執(zhí)行的每一個(gè)迭代中頂點(diǎn)間通過消息通信;在迭代結(jié)束的時(shí)候系統(tǒng)處理這些消息,并根據(jù)處理的結(jié)果更新頂點(diǎn)數(shù)據(jù)。

對(duì)于FlashGraph而言,由于圖結(jié)構(gòu)服從照冪律分布,一些線程需要比其他的處理更多消息,即計(jì)算傾斜。而(下一迭代的)IO必須得等待這種落伍線程完成處理才能開始。快速SSD在本輪迭代中的IO操作很可能比這個(gè)落伍線程完成的早,導(dǎo)致其空閑。

下圖的實(shí)驗(yàn)證明快速SSD(Optane SSD)相較于低速SSD(圖中NAND SSD)帶來的帶寬提升(紅線為磁盤最大讀取帶寬)確實(shí)造成了上述問題,造成了IO更多的空閑。

85a2838a-688f-11ee-939d-92fbcf53809c.png

2. IO傾斜

為了更大的容量和帶寬,一些半外部圖處理系統(tǒng)會(huì)將邊數(shù)據(jù)分布在多塊磁盤中。而當(dāng)IO負(fù)載不均的時(shí)候顯然會(huì)造成部分磁盤比其他磁盤完成IO更慢而造成其他磁盤的空閑。

另一個(gè)半外部圖處理系統(tǒng)Graphene采用了一種2D圖分區(qū)技術(shù)以將邊均勻地分配到每個(gè)分區(qū),并將這些分區(qū)均勻分布到多個(gè)磁盤上。盡管其分布均勻,但是Graphene在執(zhí)行采用了邊數(shù)據(jù)選擇性調(diào)度的算法的時(shí)候仍然受IO傾斜的影響。

下圖中的實(shí)驗(yàn)證實(shí)了上述問題,圖中縱軸表示每輪迭代中各個(gè)磁盤間最大IO量減去最小IO量。盡管均勻分布的數(shù)據(jù)集可能有著低于1MB的傾斜,但對(duì)于其他冪律分布的圖則有著最大可達(dá)100MB的傾斜。

85b2ddc0-688f-11ee-939d-92fbcf53809c.png

3. IO快計(jì)算慢

Graphene為每個(gè)SSD分配了一個(gè)計(jì)算核心和一個(gè)IO核心,對(duì)于慢速SSD而言這樣的設(shè)計(jì)可以最大化IO帶寬;然而對(duì)于快速SSD而言這樣的設(shè)計(jì)導(dǎo)致計(jì)算速度比IO更慢,IO填滿緩沖區(qū)的速度比計(jì)算使用的速度更快,導(dǎo)致緩沖區(qū)填滿后IO必須等待新的緩沖區(qū)。

下圖中的實(shí)驗(yàn)對(duì)比了計(jì)算的速度和存儲(chǔ)設(shè)備的讀取帶寬,可以看出計(jì)算的速度比快速SSD要慢得多,證明了上述問題。

85ce369c-688f-11ee-939d-92fbcf53809c.png

三、設(shè)計(jì)

1. Online binning

Blaze采用名為Online binning的機(jī)制應(yīng)對(duì)計(jì)算傾斜的問題。Bin是存儲(chǔ)在內(nèi)存中的數(shù)據(jù)結(jié)構(gòu),存儲(chǔ)了多條bin record,而bin record則是包含頂點(diǎn)ID和一個(gè)數(shù)值。Blaze在算法執(zhí)行時(shí)根據(jù)目標(biāo)頂點(diǎn)ID和用戶定義的scatter函數(shù)的返回值創(chuàng)建bin record,然后對(duì)頂點(diǎn)ID取模計(jì)算出需要進(jìn)入的bin ID。填滿的bin被推入名為full_bins的并發(fā)隊(duì)列,由gather線程取出處理。每個(gè)gather線程獨(dú)自處理一個(gè)填滿的bin,以避免同步開銷。

2. 頁(yè)面交織

為了應(yīng)對(duì)IO傾斜的問題,Blaze采用了頁(yè)面交織的存儲(chǔ)方式來存儲(chǔ)邊數(shù)據(jù)。頁(yè)面交織基本類似RAID 0的方式。Blaze將CSR格式存儲(chǔ)的邊數(shù)據(jù)以4KB粒度交織分布到多個(gè)SSD上。

3. Blaze整體執(zhí)行流程

85dbaf7a-688f-11ee-939d-92fbcf53809c.png

圖算法一般按迭代執(zhí)行,上圖提供了Blaze中每輪迭代中的處理流程。

作為輸入之一,算法程序會(huì)提供需要處理的頂點(diǎn)ID。為了接下來訪問各個(gè)頂點(diǎn)的邊列表,Blaze在第1步發(fā)動(dòng)所有可用的線程將頂點(diǎn)ID集合轉(zhuǎn)換成其邊列表所在的磁盤頁(yè)面ID集合(即page frontier內(nèi)容)。轉(zhuǎn)換完成后根據(jù)其磁盤頁(yè)面ID從SSD中訪問數(shù)據(jù),寫入到空的IO buffer中,生成滿的IO buffer。Scatter線程取出填滿的IO buffer,計(jì)算并生成bin record裝入對(duì)應(yīng)的bin,并將用完的IO buffer還給空IO buffer池。Gather線程取出填滿的bin并處理,根據(jù)處理結(jié)果修改算法相關(guān)的頂點(diǎn)數(shù)據(jù)。最后返回下一個(gè)迭代所需要處理的頂點(diǎn)集合。

四、實(shí)驗(yàn)評(píng)估

1. 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)測(cè)試平臺(tái)是一臺(tái)單處理器Intel Xeon Gold 6230,20核心,禁用超線程),96GB內(nèi)存的機(jī)器,存儲(chǔ)配置了一塊960GB的快速SSD(Intel DC P4800X)。

對(duì)比的算法包含:BFS、PageRank、WCC、稀疏矩陣乘(SpMV)、BC。

數(shù)據(jù)集如下表所示:

85f980a4-688f-11ee-939d-92fbcf53809c.png

2. 系統(tǒng)對(duì)比

本文將Blaze與FlashGraph和Graphene分別作了對(duì)比計(jì)算了加速比,加速比如下圖所示(Graphene沒有實(shí)現(xiàn)BC算法所以沒做對(duì)比)。除了sk2005數(shù)據(jù)集中FlashGraph表現(xiàn)更優(yōu)以外總體都有一定提升。sk2005數(shù)據(jù)集上的處理有著更高的局部性,F(xiàn)lashGraph的LRU頁(yè)面緩存借此減少了存儲(chǔ)訪問,而Blaze并沒有針對(duì)頁(yè)面緩存做專門的優(yōu)化。

860d4210-688f-11ee-939d-92fbcf53809c.png

3. IO利用率

IO利用率的評(píng)估如下圖所示,可以看出Blaze的平均IO帶寬基本達(dá)到快速SSD的帶寬。

8618ede0-688f-11ee-939d-92fbcf53809c.png

4. 可擴(kuò)展性

實(shí)驗(yàn)表明Blaze的性能大致隨著核心數(shù)的增加而線性增長(zhǎng),除了少部分負(fù)載下(如sk2005上的BFS)較快地飽和了IO帶寬而不能擴(kuò)張其性能。

862b70d2-688f-11ee-939d-92fbcf53809c.png

五、總結(jié)

本文提出了一個(gè)新的半外部圖處理系統(tǒng)Blaze。Blaze采用了全新的scatter-gather技術(shù),online binning,解決了現(xiàn)有半外部圖處理系統(tǒng)應(yīng)用快速SSD后不能充分利用其高帶寬的問題。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19896

    瀏覽量

    235256
  • CSR
    CSR
    +關(guān)注

    關(guān)注

    3

    文章

    118

    瀏覽量

    70234
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    2984

    瀏覽量

    119603
  • BFS
    BFS
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    2251

原文標(biāo)題:Blaze:低延遲SSD上的快速圖處理

文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    延遲至30ms+ LLSM流媒體傳輸模塊延遲方案推薦

    LLSM流媒體傳輸模塊,憑借帶寬、延遲的傳輸特點(diǎn),一經(jīng)推出就受到了廣泛關(guān)注。由于延遲傳輸跟相機(jī)性能以及屏幕刷新率等參數(shù)有著密切關(guān)系,可
    的頭像 發(fā)表于 06-04 17:57 ?626次閱讀
    <b class='flag-5'>延遲</b><b class='flag-5'>低</b>至30ms+  LLSM流媒體傳輸模塊<b class='flag-5'>低</b><b class='flag-5'>延遲</b>方案推薦

    LLSM——基于RK3588的延遲帶寬流媒體傳輸模塊

    隨著物聯(lián)網(wǎng)和人工智能的快速發(fā)展,實(shí)時(shí)視頻傳輸在嵌入式系統(tǒng)中變得越來越重要。無論是智能攝像頭、無人機(jī)還是工業(yè)監(jiān)控設(shè)備,都需要高效、延遲的流媒體傳輸解決方案?;垡曂瞥龅腖LSM
    的頭像 發(fā)表于 04-30 18:36 ?480次閱讀
    LLSM——基于RK3588的<b class='flag-5'>低</b><b class='flag-5'>延遲</b><b class='flag-5'>低</b>帶寬流媒體傳輸模塊

    XMOS直播聲卡——可支持實(shí)時(shí)音頻DSP處理延遲音頻方案

    XMOS所提供的具有DSP處理功能的直播聲卡解決方案憑借卓越的音質(zhì)和超低延遲,非常適合用于諸如直播、播客廣播、唱播(K歌)和游戲等實(shí)時(shí)應(yīng)用。
    的頭像 發(fā)表于 04-21 15:47 ?412次閱讀
    XMOS直播聲卡——可支持實(shí)時(shí)音頻DSP<b class='flag-5'>處理</b>的<b class='flag-5'>低</b><b class='flag-5'>延遲</b>音頻方案

    明遠(yuǎn)智睿SSD2351核心板在語音對(duì)講與HMI領(lǐng)域的創(chuàng)新應(yīng)用

    將語音數(shù)據(jù)快速、穩(wěn)定地傳輸至接收端。SSD2351核心板通過以太網(wǎng)接口,能夠?qū)⒕幋a后的語音數(shù)據(jù)以高速率傳輸,延遲控制在極低水平。在小區(qū)樓宇對(duì)講系統(tǒng)中,居民按下呼叫按鈕后,語音信號(hào)經(jīng)核心板處理
    發(fā)表于 04-16 10:46

    可支持實(shí)時(shí)音頻DSP處理延遲直播聲卡方案

    本篇介紹直播聲卡——具有實(shí)時(shí)音頻DSP處理延遲音頻設(shè)備。對(duì)于游戲玩家和短視頻直播工作者來說,聲卡不可或缺。它除了能將計(jì)算設(shè)備的數(shù)字信號(hào)轉(zhuǎn)換為聲音信號(hào),還能夠提供各種逼真的或者定制的3D音效,提升
    的頭像 發(fā)表于 03-29 15:19 ?436次閱讀
    可支持實(shí)時(shí)音頻DSP<b class='flag-5'>處理</b>的<b class='flag-5'>低</b><b class='flag-5'>延遲</b>直播聲卡方案

    深度解析SSD2351核心板:硬核視頻處理+工業(yè)級(jí)可靠性設(shè)計(jì)

    明遠(yuǎn)智睿SSD2351核心板基于SigmaStar SSD2351芯片打造,專為高可靠性工業(yè)場(chǎng)景設(shè)計(jì),其硬件配置與接口能力充分滿足復(fù)雜環(huán)境下的多模態(tài)數(shù)據(jù)處理需求。 芯片技術(shù)細(xì)節(jié) : 視頻處理
    發(fā)表于 02-21 17:19

    英偉達(dá)帶來Reflex 2延遲技術(shù)

    在 2025 年國(guó)際消費(fèi)電子展(CES 2025),英偉達(dá)不僅推出了備受矚目的 RTX 50 系列顯卡,還帶來了一項(xiàng)名為 Reflex 2 的延遲技術(shù),引發(fā)行業(yè)廣泛關(guān)注。 Reflex 2 技術(shù)
    的頭像 發(fā)表于 02-05 15:15 ?981次閱讀

    QLC SSD與TLC SSD哪個(gè)更強(qiáng)

    ZB。不僅數(shù)據(jù)量快速增長(zhǎng),大模型、HPC等應(yīng)用對(duì)性能要求也很高,傳統(tǒng)大容量HDD無法滿足。在此背景下,2024年大容量QLC SSD的市場(chǎng)份額得到了快速增長(zhǎng)。
    的頭像 發(fā)表于 01-16 09:32 ?1908次閱讀
    QLC <b class='flag-5'>SSD</b>與TLC <b class='flag-5'>SSD</b>哪個(gè)更強(qiáng)

    EE-295:在SHARC處理實(shí)現(xiàn)延遲

    電子發(fā)燒友網(wǎng)站提供《EE-295:在SHARC處理實(shí)現(xiàn)延遲塊.pdf》資料免費(fèi)下載
    發(fā)表于 01-06 14:34 ?0次下載
    EE-295:在SHARC<b class='flag-5'>處理</b>器<b class='flag-5'>上</b>實(shí)現(xiàn)<b class='flag-5'>延遲</b>塊

    PCIe延遲對(duì)系統(tǒng)性能的影響

    隨著技術(shù)的發(fā)展,計(jì)算機(jī)系統(tǒng)對(duì)性能的要求越來越高。PCIe作為連接處理器、內(nèi)存、存儲(chǔ)和其他外圍設(shè)備的關(guān)鍵接口,其性能直接影響到整個(gè)系統(tǒng)的表現(xiàn)。PCIe延遲,作為衡量數(shù)據(jù)傳輸效率的重要指標(biāo),對(duì)系統(tǒng)性
    的頭像 發(fā)表于 11-26 15:14 ?2324次閱讀

    什么是SSD硬盤 SSD硬盤的優(yōu)勢(shì)和劣勢(shì)

    快速讀寫速度、低功耗、抗震動(dòng)等優(yōu)點(diǎn)。 SSD硬盤的優(yōu)勢(shì) 快速讀寫速度 :SSD硬盤的讀寫速度遠(yuǎn)高于傳統(tǒng)HDD,這得益于其內(nèi)部沒有機(jī)械部件,數(shù)據(jù)傳輸完全依賴于電子信號(hào),因此可以實(shí)現(xiàn)幾乎即
    的頭像 發(fā)表于 11-23 09:34 ?1865次閱讀

    邊緣計(jì)算對(duì)網(wǎng)絡(luò)延遲的影響

    延遲。而邊緣計(jì)算則將計(jì)算能力“邊緣化”,即將數(shù)據(jù)處理和分析的任務(wù)從云端遷移到網(wǎng)絡(luò)的邊緣,即用戶設(shè)備或靠近用戶的邊緣服務(wù)器。這樣,數(shù)據(jù)就可以在用戶端或附近的服務(wù)器上得到及時(shí)處理,從而
    的頭像 發(fā)表于 10-24 14:25 ?1369次閱讀

    交互式延遲音頻解碼器

    普通音頻解碼器在處理音頻時(shí)可能會(huì)引入較高的延遲,通常適合于音樂播放或錄音等場(chǎng)景。而交互式延遲音頻解碼器則專為實(shí)時(shí)應(yīng)用設(shè)計(jì),延遲通常在10毫
    的頭像 發(fā)表于 09-28 11:15 ?568次閱讀
    交互式<b class='flag-5'>低</b><b class='flag-5'>延遲</b>音頻解碼器

    數(shù)字控制環(huán)路中測(cè)量單元的延遲信號(hào)鏈

    電子發(fā)燒友網(wǎng)站提供《數(shù)字控制環(huán)路中測(cè)量單元的延遲信號(hào)鏈.pdf》資料免費(fèi)下載
    發(fā)表于 09-07 09:13 ?0次下載
    數(shù)字控制環(huán)路中測(cè)量單元的<b class='flag-5'>低</b><b class='flag-5'>延遲</b>信號(hào)鏈

    TLV3801有著非常延遲,輸入信號(hào)的電壓受限,如何處理這種情況?

    (LVDS,CMOS)。 看到TLV3801等芯片有著非常延遲,但是輸入信號(hào)的電壓受限。針對(duì)這種情況在比較器前端應(yīng)該如何調(diào)理
    發(fā)表于 08-02 06:24