chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NSDI '23熱點論文:可編程、RDMA、數(shù)據(jù)中心、GPU有哪些新動態(tài)?

SDNLAB ? 來源:SDNLAB ? 2023-05-25 14:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

USENIX NSDI(Symposium on Network System Design and Implementation)是網(wǎng)絡通信領域頂級會議,涉及網(wǎng)絡通信領域的各方面內容。NSDI是CCF A類,H5指數(shù)65,Impact Score 10.80,在全球范圍內享有盛譽。與網(wǎng)絡領域的另一頂級學術會議SIGCOMM相比,NSDI 更加側重于網(wǎng)絡系統(tǒng)的設計與實現(xiàn),注重系統(tǒng)的性能和伸縮性。NSDI 重視文章質量,采用嚴格的雙盲評審,每篇文章都要經(jīng)過兩輪總計六到八個審稿人審閱,之后還需要經(jīng)過程序委員會的討論篩選。fa717caa-fa5a-11ed-90ce-dac502259ad0.png| NSDI 2016-2023論文數(shù)據(jù)分析,來源:網(wǎng)絡NSDI常年錄取率非常低,穩(wěn)定在20%以下,有的年份甚至低于15%。投稿量來看,在早幾年中呈現(xiàn)出緩慢上升的趨勢,從16年的228到2021年的369篇,一路上升,然后有所下降,2022年和2023年分別為298和272篇。錄取量也呈現(xiàn)出緩慢上升的趨勢,到2020年的65篇,之后開始下降,至2022的50篇。錄取率整體呈現(xiàn)浮動的趨勢,但是相對穩(wěn)定,2023年錄取率為18.4%。NSDI重點關注計算機網(wǎng)絡,但也覆蓋了人工智能、機器學習、計算機視覺、無線和分布式計算等內容,是一個非常全面的會議。本文介紹了NSDI 2023中可編程、RDMA、數(shù)據(jù)中心、GPU方向的相關論文,文末附NSDI 2023全部論文下載鏈接。 可編程 標題:A High-Speed Stateful Packet Processing Approach for Tbps Programmable Switches

作者:Mariano Scazzariello and Tommaso Caiazzi, KTH Royal Institute of Technology and Roma Tre University; Hamid Ghasemirahni, KTH Royal Institute of Technology; Tom Barbette, UCLouvain; Dejan Kosti? and Marco Chiesa, KTH Royal Institute of Technology

>摘要高速 ASIC 交換機有望在高速數(shù)據(jù)平面中直接卸載復雜的數(shù)據(jù)包處理管道。然而,當今各種各樣的數(shù)據(jù)包處理管道,包括有狀態(tài)網(wǎng)絡功能和數(shù)據(jù)包調度程序,都需要以編程的方式在短時間內存儲一些(或所有)數(shù)據(jù)包。而如今的高速 ASIC 交換機缺少這種可編程緩沖功能。在這項工作中,我們提出了一種擴展可編程交換機系統(tǒng)——RIBOSOME。它具有外部存儲器(用于存儲數(shù)據(jù)包)和外部通用數(shù)據(jù)包處理設備(用于執(zhí)行有狀態(tài)操作),如 CPUFPGA。由于當今的數(shù)據(jù)包處理設備受到網(wǎng)絡接口速度的限制,RIBOSOME 只將相關數(shù)據(jù)比特傳輸?shù)竭@些設備。RIBOSOME 利用直接連接的服務器的空閑帶寬,通過RDMA存儲傳入的有效負載。fa89a7f8-fa5a-11ed-90ce-dac502259ad0.png標題:ExoPlane: An Operating System for On-Rack Switch Resource Augmentation

作者:Daehyeok Kim, Microsoft and University of Texas at Austin; Vyas Sekar and Srinivasan Seshan, Carnegie Mellon University

>摘要在實際的部署中(例如云和 ISP),在網(wǎng)計算的承諾仍然沒有實現(xiàn),因為交換機的片上資源有限,在可編程交換機上服務并發(fā)有狀態(tài)應用程序仍然具有挑戰(zhàn)性。在這項工作中,我們設計并實施了 ExoPlane,這是一種用于機架交換機資源擴充的操作系統(tǒng),可以支持多個并發(fā)應用程序。在設計 ExoPlane 時,我們提出了一個實用的運行時操作模型和狀態(tài)抽象,以最小的性能和資源開銷解決跨多個設備正確管理應用程序狀態(tài)的挑戰(zhàn)。我們對各種 P4 應用程序的評估表明,ExoPlane 可以為應用程序提供低延遲、可擴展吞吐量和快速故障轉移,同時以較小的資源開銷實現(xiàn)這些,并且無需或只需對應用程序進行少量修改。fa9c0b14-fa5a-11ed-90ce-dac502259ad0.png標題:Sketchovsky: Enabling Ensembles of Sketches on Programmable Switches

作者:Hun Namkung, Carnegie Mellon University; Zaoxing Liu, Boston University; Daehyeok Kim, Microsoft Research; Vyas Sekar and Peter Steenkiste, Carnegie Mellon University

>摘要網(wǎng)絡運營商需要在可編程交換機上運行各種測量任務,以支持管理決策(例如流量工程或異常檢測)。雖然之前的工作已經(jīng)表明運行單個sketch實例的可行性,但它們在很大程度上忽略了為一組測量任務運行多個sketch實例的問題。因此,現(xiàn)有的工作不足以有效地支持sketch實例的一般集合。在這項工作中,我們介紹了 Sketchovsky 的設計和實現(xiàn),這是一種新穎的cross-sketch優(yōu)化和構圖框架。我們確定了五個新的cross-sketch優(yōu)化構建塊,以減少關鍵的交換機硬件資源。我們設計了有效的啟發(fā)式方法來為任意集合選擇和應用這些構建塊。為了簡化開發(fā)人員的工作,Sketchovsky 自動生成要輸入到硬件編譯器的組合代碼。我們的評估表明,Sketchovsky 使多達 18 個sketch實例的集成變得可行,并且可以減少多達 45% 的關鍵硬件資源。fad01bc0-fa5a-11ed-90ce-dac502259ad0.png標題:RingLeader: Efficiently Offloading Intra-Server Orchestration to NICs

作者:Jiaxin Lin, Adney Cardoza, Tarannum Khan, and Yeonju Ro, UT Austin; Brent E. Stephens, University of Utah; Hassan Wassel, Google; Aditya Akella, UT Austin

>摘要在數(shù)據(jù)中心服務器上周密的編排請求,對于滿足嚴格的尾部延遲要求并確保高吞吐量和最佳 CPU 利用率至關重要。編排是多管齊下的,涉及到負載平衡和調度跨CPU資源屬于不同服務的請求,以及調整 CPU 分配以適應突發(fā)請求。集中式服務器內編排提供了理想的負載平衡性能、調度精度和突發(fā)容錯 CPU 重新分配。然而,現(xiàn)有的純軟件方法無法實現(xiàn)理想的編排,因為它們的可擴展性有限,并且浪費 CPU 資源。我們主張采用一種新方法,將服務器內編排完全卸載到網(wǎng)卡。我們提出了RingLeader,一個新的可編程網(wǎng)卡,具有新穎的硬件單元,用于軟件通知請求負載平衡和可編程調度,以及一個新的輕量級 OS-NIC 接口,可實現(xiàn) NIC-CPU 緊密協(xié)調并支持 NIC 輔助 CPU 調度?;?100 Gbps FPGA 原型的詳細實驗表明,與包括 Shinjuku 和 Caladan 在內的最先進的純軟件協(xié)調器相比,我們獲得了更好的可擴展性、效率、延遲和吞吐量。fadcac32-fa5a-11ed-90ce-dac502259ad0.png ? ?RDMA 標題:SRNIC: A Scalable Architecture for RDMA NICs

作者:Zilong Wang, Hong Kong University of Science and Technology; Layong Luo and Qingsong Ning, ByteDance; Chaoliang Zeng, Wenxue Li, and Xinchen Wan, Hong Kong University of Science and Technology等

>摘要符合設想的RDMA需要具有高度可擴展性:在不可避免丟包的大型數(shù)據(jù)中心網(wǎng)絡中表現(xiàn)良好(即高網(wǎng)絡可擴展性),并支持每臺服務器大量高性能連接(即高可擴展性)。商用RoCEv2 NIC(RNIC)缺乏可擴展性,因為它們依賴于無損、有限規(guī)模的網(wǎng)絡結構,只支持少量高性能連接。在本文中,我們旨在通過設計SRNIC(一種可擴展RDMA NIC架構)來解決連接可擴展性挑戰(zhàn),同時保持商用RNIC的高性能和低CPU開銷,以及IRN的高網(wǎng)絡可擴展性。我們對SRNIC的關鍵見解是,通過仔細的協(xié)議和架構協(xié)同設計,可以將RNIC中的片上數(shù)據(jù)結構及其內存需求降至最低,從而提高連接可擴展性。在此基礎上,我們分析了RDMA概念模型中涉及的所有數(shù)據(jù)結構,并通過RDMA協(xié)議頭修改和架構創(chuàng)新(包括無緩存QP調度器和無內存選擇性重傳)盡可能多地刪除它們。我們使用FPGA實現(xiàn)了一個功能齊全的SRNIC原型。實驗表明,SRNIC在芯片上實現(xiàn)了10K性能連接,在標準化連接可擴展性(即每1MB內存的性能連接數(shù))方面比商用RNIC高18倍,同時實現(xiàn)了97 Gbps吞吐量和3.3μs延遲,CPU開銷低于5%,并保持了高網(wǎng)絡可擴展性。fb0f029a-fa5a-11ed-90ce-dac502259ad0.png標題:Hostping: Diagnosing Intra-host Network Bottlenecks in RDMA Servers

作者:Kefei Liu, BUPT; Zhuo Jiang, ByteDance Inc.; Jiao Zhang, BUPT and Purple Mountain Laboratories; Haoran Wei, BUPT and ByteDance Inc.; Xiaolong Zhong, BUPT; Lizhuang Tan, ByteDance Inc.; Tian Pan and Tao Huang, BUPT and Purple Mountain Laboratories

>摘要在RDMA網(wǎng)絡中,主機內網(wǎng)絡被認為是健壯的,但很少受到關注。然而,隨著RNIC(RDMA網(wǎng)卡)線路速率快速提升至數(shù)百G,主機內網(wǎng)絡成為網(wǎng)絡應用潛在的性能瓶頸。主機內網(wǎng)絡瓶頸可能導致主機內帶寬降低和主機內延遲增加,這會嚴重影響網(wǎng)絡性能。然而,當發(fā)生主機內瓶頸時,由于缺乏監(jiān)控系統(tǒng),它們很難被發(fā)現(xiàn)。此外,現(xiàn)有的瓶頸診斷機制無法有效診斷主機內瓶頸。在本文中,我們根據(jù)長期的故障排除經(jīng)驗分析了主機內瓶頸的癥狀,并提出了 Hostping——首個專用于主機內網(wǎng)絡的瓶頸監(jiān)控和診斷系統(tǒng),可實現(xiàn)低開銷分鐘級主機內故障定位,有效提升RDMA數(shù)據(jù)中心集群的算力平穩(wěn)輸出能力。Hostping 的核心思想是在主機內的 RNIC 和端點之間進行環(huán)回測試,以測量主機內延遲和帶寬。fb4a625e-fa5a-11ed-90ce-dac502259ad0.png標題:Understanding RDMA Microarchitecture Resources for Performance Isolation

作者:Xinhao Kong and Jingrong Chen, Duke University; Wei Bai, Microsoft; Yechen Xu, Shanghai Jiao Tong University; Mahmoud Elhaddad, Shachar Raindel, and Jitendra Padhye, Microsoft; Alvin R. Lebeck and Danyang Zhuo, Duke University

>摘要近年來,RDMA 在云中得到了廣泛采用,以加速first-party workloads,并通過釋放 CPU 周期來節(jié)省成本?,F(xiàn)在,云提供商正致力于在通用客戶VM 中支持 RDMA,以使 third-party workloads受益。為此,云提供商必須提供強大的性能隔離,以便一個租戶的 RDMA 工作負載不會對另一個租戶的 RDMA 性能產(chǎn)生不利影響。盡管在公有云中的網(wǎng)絡性能隔離方面已經(jīng)做出了很多努力,但我們發(fā)現(xiàn) RDMA 因其復雜的 NIC 微架構資源(例如NIC 緩存)帶來了獨特的挑戰(zhàn)。在本文中,我們旨在系統(tǒng)地了解 RNIC 微架構資源對性能隔離的影響。我們提出了一個模型來表示 RDMA 操作如何使用 RNIC 資源。使用此模型,我們開發(fā)了一個測試套件來評估 RDMA 性能隔離解決方案。最后,根據(jù)測試結果,我們總結了設計未來 RDMA 性能隔離解決方案的新見解。fb55bed8-fa5a-11ed-90ce-dac502259ad0.png標題:Empowering Azure Storage with RDMA

作者:Wei Bai, Shanim Sainul Abdeen, Ankit Agrawal, Krishan Kumar Attre, Paramvir Bahl, Ameya Bhagat, Gowri Bhaskara, Tanya Brokhman, Lei Cao, Ahmad Cheema, Rebecca Chow, Jeff Cohen, Mahmoud Elhaddad等

>摘要網(wǎng)絡是在云存儲服務中實現(xiàn)高性能和高可靠性的關鍵。在Azure中,我們選擇遠程RDMA作為傳輸方式,旨在為存儲前端流量(計算虛擬機和存儲集群之間)和后端流量(存儲集群內)啟用它,以充分發(fā)揮其優(yōu)勢。由于計算和存儲集群可能位于Azure區(qū)域內的不同數(shù)據(jù)中心,因此需要在區(qū)域范圍內支持RDMA。這項工作展示了我們在部署區(qū)域內RDMA以支持Azure中的存儲工作負載方面的經(jīng)驗?;A設施的高度復雜性和異構性帶來了一系列新的挑戰(zhàn),例如不同類型的RDMA網(wǎng)絡接口卡之間的互操作性問題。為了應對這些挑戰(zhàn),我們對網(wǎng)絡基礎設施做了一些更改。今天,Azure中大約70%的流量是RDMA,所有Azure公共區(qū)域都支持區(qū)域內RDMA。RDMA幫助我們實現(xiàn)了顯著的磁盤I/O性能改進和CPU內核節(jié)省。fb78d648-fa5a-11ed-90ce-dac502259ad0.png ? ?數(shù)據(jù)中心 標題:Flattened Clos: Designing High-performance Deadlock-free Expander Data Center Networks Using Graph Contraction

作者:Shizhen Zhao, Qizhou Zhang, Peirui Cao, Xiao Zhang, and Xinbing Wang, Shanghai Jiao Tong University; Chenghu Zhou, Shanghai Jiao Tong University and Chinese Academy of Sciences

>摘要Flattened Clos (FC),一種拓撲/路由協(xié)同設計方法,用于消除expander網(wǎng)絡中由 PFC 引起的死鎖。FC的拓撲結構和路由設計分為三步:1)將每個ToR交換機在邏輯上劃分為k個虛擬層,只在相鄰虛擬層之間建立連接;2) 生成用于路由的虛擬上下路徑;3) 利用圖形收縮對虛擬多層網(wǎng)絡和虛擬上下路徑進行平面化。FC 的設計是無死鎖的,并使用真實的測試平臺和數(shù)據(jù)包級仿真驗證了這一特性。與EDST(edge-disjoint-spanning-tree)路由相比,F(xiàn)C 將平均跳數(shù)減少了至少 50%,并將網(wǎng)絡吞吐量提高了2 - 10倍以上。fb9f5c50-fa5a-11ed-90ce-dac502259ad0.png ?標題:Scalable Tail Latency Estimation for Data Center Networks

作者:Kevin Zhao, University of Washington; Prateesh Goyal, Microsoft Research; Mohammad Alizadeh, MIT CSAIL; Thomas E. Anderson, University of Washington

>摘要該論文主要研究了如何為超大規(guī)模數(shù)據(jù)中心網(wǎng)絡提供流級尾延遲性能的快速估計。網(wǎng)絡尾部延遲通常是云應用性能的一個關鍵指標,它會受到多種因素的影響,包括網(wǎng)絡負載、機架間流量偏差、流量突發(fā)、流量大小分布、超額訂閱和拓撲不對稱等。像ns-3 和 OMNeT++ 這樣的網(wǎng)絡模擬器可以提供準確的答案,但很難并行化,即使是中等規(guī)模的單個配置也需要數(shù)小時或數(shù)天來回答 what if 問題。MimicNet 展示了如何使用機器學習來提高模擬性能,不過每個配置都包含一個很長的訓練步驟,并且對工作量和拓撲一致性的假設通常在實踐中并不適用。本文主要介紹了解決上述問題的技術,為具有通用流量矩陣和拓撲的大型網(wǎng)絡提供快速性能估計。其中一個關鍵步驟是將問題分解成大量并行獨立的單鏈路模擬,通過仔細結合這些鏈路級模擬可以準確估計整個網(wǎng)絡的端到端流量級性能分布。同時盡可能利用對稱性來獲得額外的加速,但不依賴機器學習,因此沒有訓練延遲。在 ns-3 需要 11到 27 小時來模擬 5 秒的網(wǎng)絡行為的大規(guī)模網(wǎng)絡上,新技術只需 1 到 2 分鐘內便可完成運行,尾流完成時間的準確度在 9% 以內。fba9beb6-fa5a-11ed-90ce-dac502259ad0.png標題:Shockwave: Fair and Efficient Cluster Scheduling for Dynamic Adaptation in Machine Learning

作者:Pengfei Zheng and Rui Pan, University of Wisconsin-Madison; Tarannum Khan, The University of Texas at Austin; Shivaram Venkataraman, University of Wisconsin-Madison; Aditya Akella, The University of Texas at Austin

>摘要動態(tài)自適應已成為加速分布式機器學習 (ML) 訓練的關鍵技術。最近的研究表明,動態(tài)調整模型結構或超參數(shù)可以在不犧牲準確性的情況下顯著加速訓練。然而,現(xiàn)有的 ML 集群調度器并不是為處理動態(tài)適應而設計的。研究表明,當訓練吞吐量在動態(tài)適應下隨時間變化時,現(xiàn)有方案無法提供公平性并降低系統(tǒng)效率。Shockwave是一個基于兩個關鍵思想的未來規(guī)劃調度程序。首先,Shockwave 將經(jīng)典市場理論從靜態(tài)設置擴展到動態(tài)設置,共同優(yōu)化效率和公平性。第二,Shockwave 利用隨機動態(tài)規(guī)劃來處理動態(tài)變化。我們?yōu)?Shockwave 構建了一個系統(tǒng),并通過跟蹤驅動模擬和集群實驗驗證了其性能。結果表明,對于具有動態(tài)適應性的 ML 作業(yè)軌跡,與現(xiàn)有的公平調度方案相比,Shockwave 將 makespan 提高了 1.3 倍,公平性提高了 2 倍。fbe9955e-fa5a-11ed-90ce-dac502259ad0.png標題:Protego: Overload Control for Applications with Unpredictable Lock Contention

作者:Inho Cho, MIT CSAIL; Ahmed Saeed, Georgia Tech; Seo Jin Park, Mohammad Alizadeh, and Adam Belay, MIT CSAIL

>摘要現(xiàn)代數(shù)據(jù)中心應用程序是并發(fā)的,因此它們需要同步來控制對共享數(shù)據(jù)的訪問。本文介紹了Protego系統(tǒng)用于防止鎖爭用問題。Protego提供了一種新的準入控制策略,可以防止出現(xiàn)鎖爭用時的計算擁塞。關鍵思想是在基于信用的準入控制算法中使用觀察到的吞吐量的邊際改進,而不是 CPU 負載或延遲測量,該算法調節(jié)對服務器的傳入請求的速率。Protego還引入了一種新的延遲感知同步抽象,稱為ASQM(Active synchronization Queue Management),允許應用程序在延遲超過延遲目標時中止請求。Protego 目前已經(jīng)應用于兩個真實的應用程序 Lucene 和 Memcached,并表明它在避免擁塞崩潰的同時,比最先進的過載控制系統(tǒng)實現(xiàn)了高達3.3倍的吞吐量和低12.2倍的99%延遲。fc329934-fa5a-11ed-90ce-dac502259ad0.png GPU標題:Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

作者:Bingyang Wu and Zili Zhang, Peking University; Zhihao Bai, Johns Hopkins University; Xuanzhe Liu and Xin Jin, Peking University

>摘要容器廣泛用于數(shù)據(jù)中心的資源管理。在容器云中支持深度學習 (DL) 訓練的一種常見做法是將 GPU 靜態(tài)綁定到整個容器。由于生產(chǎn)中 DL 作業(yè)的資源需求多種多樣,大量 GPU 未得到充分利用。因此,GPU 集群的 GPU 利用率較低,導致作業(yè)完成時間較長,因為需要排隊。TGS(Transparent GPU Sharing)是一個為容器云中的 DL 訓練提供透明 GPU 共享的系統(tǒng)。與最近用于 GPU 共享的應用層解決方案形成鮮明對比的是,TGS 在容器下的操作系統(tǒng)層運行。TGS 利用自適應速率控制和透明統(tǒng)一內存來同時實現(xiàn)高 GPU 利用率和性能隔離。它確保生產(chǎn)作業(yè)不會受到共享 GPU 上的機會作業(yè)的很大影響。我們構建了 TGS 并將其與 Docker 和 Kubernetes 集成。實驗表明 (i) TGS 對生產(chǎn)作業(yè)的吞吐量影響很??;(ii) TGS為機會作業(yè)提供了與最先進的應用層解決方案AntMan相似的吞吐量,并且與現(xiàn)有的操作系統(tǒng)層解決方案MPS相比,其吞吐量提高了15倍。fc6a2002-fa5a-11ed-90ce-dac502259ad0.png ?標題:ARK: GPU-driven Code Execution for Distributed Deep Learning

作者:Changho Hwang, KAIST, Microsoft Research; KyoungSoo Park, KAIST; Ran Shu, Xinyuan Qu, Peng Cheng, and Yongqiang Xiong, Microsoft Research

>摘要目前最先進的深度學習 (DL) 應用程序傾向于橫向擴展到大量并行 GPU。然而,我們觀察到跨 GPU 的集體通信開銷通常是分布式 DL 性能的關鍵限制因素。它通過頻繁傳輸小數(shù)據(jù)塊來充分利用網(wǎng)絡帶寬,這也會在 GPU 上產(chǎn)生大量 I/O 開銷,從而干擾 GPU 上的計算。根本原因在于基于 CPU 的通信事件處理效率低下以及無法通過 GPU 線程控制 GPU 內部的 DMA 引擎。為了解決這個問題,我們提出了一個 GPU 驅動的代碼執(zhí)行系統(tǒng),該系統(tǒng)利用 GPU 控制的硬件 DMA 引擎進行 I/O 卸載。我們的自定義 DMA 引擎流水線處理多個 DMA 請求以支持高效的小型數(shù)據(jù)傳輸,同時消除了 GPU 內核上的 I/O 開銷。與僅由 CPU 啟動的現(xiàn)有 GPU DMA 引擎不同,我們讓 GPU 線程直接控制 DMA 操作,其中 GPU 驅動自己的執(zhí)行流并自主處理通信事件,而無需 CPU 干預,更高效。我們的原型 DMA 引擎從小至 8KB 的消息大?。ㄍ掏铝刻岣?3.9 倍)的線速,通信延遲僅為 4.3 微秒(快 9.1 倍),同時它對 GPU 上的計算幾乎沒有干擾,在實際訓練工作負載中實現(xiàn)了1.8倍的吞吐量。fc8debb8-fa5a-11ed-90ce-dac502259ad0.png標題:BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and Preprocessing

作者:Tianfeng Liu, Tsinghua University, Zhongguancun Laboratory, ByteDance; Yangrui Chen, The University of Hong Kong, ByteDance; Dan Li, Tsinghua University, Zhongguancun Laboratory; Chuan Wu, The University of Hong Kong; Yibo Zhu, Jun He, and Yanghua Peng, ByteDance; Hongzheng Chen, ByteDance, Cornell University; Hongzhi Chen and Chuanxiong Guo, ByteDance

>摘要現(xiàn)有系統(tǒng)在使用 GPU 訓練具有數(shù)十億個節(jié)點和邊的大型圖形時效率低下,主要瓶頸是為 GPU 準備數(shù)據(jù)的過程——子圖采樣和特征檢索。本文提出了 BGL,一種分布式 GNN 訓練系統(tǒng),旨在通過幾個關鍵思想解決瓶頸問題。首先是提出了一個動態(tài)緩存引擎來最小化特征檢索流量。通過共同設計緩存策略和采樣順序,我們找到了低開銷和高緩存命中率的最佳平衡點。其次改進了圖分區(qū)算法,以減少子圖采樣期間的跨分區(qū)通信。最后,仔細的資源隔離減少了不同數(shù)據(jù)預處理階段之間的爭用。在各種 GNN 模型和大型圖形數(shù)據(jù)集上進行的大量實驗表明,BGL 的平均性能明顯優(yōu)于現(xiàn)有 GNN 訓練系統(tǒng) 1.9 倍。fcb52ef8-fa5a-11ed-90ce-dac502259ad0.png ?標題:Zeus: Understanding and Optimizing GPU Energy Consumption of DNN Training

作者:Jie You, Jae-Won Chung, and Mosharaf Chowdhury, University of Michigan

>摘要我們觀察到優(yōu)化深度神經(jīng)網(wǎng)絡((DNN)訓練的常見做法通常會導致能效低下,而能源消耗和性能優(yōu)化之間需要存在權衡。Zeus是一種優(yōu)化框架,可通過自動為重復出現(xiàn)的 DNN 訓練作業(yè)找到最佳作業(yè)和 GPU 級配置來進行權衡。Zeus 將在線探索-開發(fā)方法與實時能量分析相結合,避免了對昂貴的離線測量的需要,同時適應了數(shù)據(jù)隨時間的變化。評估表明,Zeus 可以針對不同的工作負載將 DNN 訓練的能效提高 15.3%–75.8%。fcd97a1a-fa5a-11ed-90ce-dac502259ad0.png

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5035

    瀏覽量

    133736
  • 可編程
    +關注

    關注

    2

    文章

    1185

    瀏覽量

    41138
  • 網(wǎng)絡通信

    關注

    4

    文章

    828

    瀏覽量

    32021

原文標題:NSDI '23熱點論文:可編程、RDMA、數(shù)據(jù)中心、GPU有哪些新動態(tài)?(附下載)

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    當CPU/GPU遭遇數(shù)據(jù)中心功耗天花板,SDAccel來了

    賽靈思在可編程邏輯領域占有領導性地位,此次為了強化數(shù)據(jù)中心競爭實力,進一步地推出了為數(shù)據(jù)中心帶來最佳單位功耗性能的針對OpenCL、C和 C++的軟件開發(fā)環(huán)境SDAccel,可有效解決CPU和
    發(fā)表于 12-03 16:35 ?3652次閱讀

    RDMA簡介1之RDMA開發(fā)必要性

    為了滿足大批量數(shù)據(jù)的采集、存儲與傳輸需求,越來越多的數(shù)據(jù)密集型應用如機器學習、雷達、金融風控、航空航天等選擇使用現(xiàn)場可編程邏輯門陣列作為數(shù)據(jù)采集前端硬件來實現(xiàn)高性能的
    發(fā)表于 06-03 14:38

    數(shù)據(jù)中心是什么

    數(shù)據(jù)中心是什么:數(shù)據(jù)中心是全球協(xié)作的特定設備網(wǎng)絡,用來在因特網(wǎng)絡基礎設施上傳遞、加速、展示、計算、存儲數(shù)據(jù)信息。數(shù)據(jù)中心大部分電子元件都是由低直流電源驅動運行的。
    發(fā)表于 07-12 07:10

    Mali-Valhall系列GPU可編程內核

    本指南介紹了典型的Mali-Valhall系列GPU 可編程內核。Valhall是Mali 的第四代GPU。這個Valhall系列包括Mali-G5x和Mali-G7x系列產(chǎn)品。這些產(chǎn)品已發(fā)布自
    發(fā)表于 08-02 16:38

    基于現(xiàn)場可編程芯片的動態(tài)下載應用研究

    通過對現(xiàn)有可編程芯片下載方案的研究,針對某些用戶對“現(xiàn)場可編程”的要求,本文提出了一種基于FPGA 的數(shù)據(jù)高速動態(tài)下載方案,并簡要介紹了該方案的硬件設計與實現(xiàn)思想。
    發(fā)表于 01-13 15:17 ?13次下載

    如何利用可編程邏輯實現(xiàn)數(shù)據(jù)中心互連 DCI互連盒架構解讀

    隨著實施基于云的服務和機器到機器通信所產(chǎn)生的數(shù)據(jù)呈指數(shù)級增長,數(shù)據(jù)中心面臨重重挑戰(zhàn)。如何使可編程邏輯實現(xiàn)數(shù)據(jù)中心互連至關重要。
    發(fā)表于 03-12 15:47 ?1237次閱讀

    使用Xilinx可編程邏輯實現(xiàn)數(shù)據(jù)中心互連

    隨著實施基于云的服務和機器到機器通信所產(chǎn)生的數(shù)據(jù)呈指數(shù)級增長,數(shù)據(jù)中心面臨重重挑戰(zhàn)。這種增長毫無減緩態(tài)勢,業(yè)界專家預測內部數(shù)據(jù)中心機器對機器流量將會超出所有其他類型流量多個數(shù)量級。
    的頭像 發(fā)表于 03-16 10:17 ?5584次閱讀

    可編程技術在網(wǎng)絡芯片上的應用

    網(wǎng)絡是數(shù)據(jù)中心里的交通樞紐,連接著所有運行應用業(yè)務的設備。沒有網(wǎng)絡,也就沒有數(shù)據(jù)中心,沒有互聯(lián)網(wǎng)的今天,網(wǎng)絡在數(shù)據(jù)中心里發(fā)揮著非常關鍵的作用,所以網(wǎng)絡技術一直是熱點,在不斷發(fā)展進化著,
    發(fā)表于 08-23 17:48 ?1366次閱讀

    可編程時代下網(wǎng)絡芯片如何應用可編程技術

    網(wǎng)絡是數(shù)據(jù)中心里的交通樞紐,連接著所有運行應用業(yè)務的設備。沒有網(wǎng)絡,也就沒有數(shù)據(jù)中心,沒有互聯(lián)網(wǎng)的今天,網(wǎng)絡在數(shù)據(jù)中心里發(fā)揮著非常關鍵的作用,所以網(wǎng)絡技術一直是熱點,在不斷發(fā)展進化著,
    發(fā)表于 12-24 15:27 ?1696次閱讀

    Xilinx可編程芯片設計首次推出自適應計算加速平臺

    半導體公司Xilinx日前揭開旗下數(shù)據(jù)中心軟件可編程芯片設計的面紗,Xilinx稱該數(shù)據(jù)中心軟件可編程芯片設計是全新計算類別的一部分。
    發(fā)表于 12-24 14:38 ?1018次閱讀

    可編程技術在網(wǎng)絡芯片的應用,可增強網(wǎng)絡的靈活性

    沒有網(wǎng)絡,也就沒有數(shù)據(jù)中心,沒有互聯(lián)網(wǎng)的今天,網(wǎng)絡在數(shù)據(jù)中心里發(fā)揮著非常關鍵的作用,所以網(wǎng)絡技術一直是熱點,在不斷發(fā)展進化著,其中就包含可編程技術。
    發(fā)表于 04-13 11:35 ?1346次閱讀

    數(shù)據(jù)中心將進入完全可編程時代

    GPU(默認為GPGPU),一方面其數(shù)以千計的引擎可編程能力不錯,可以覆蓋非常多的領域。也因為CUDA強大生態(tài)的加持,使得GPU這幾年以及未來若干年,在數(shù)據(jù)中心會得到非常大規(guī)模的采用。
    的頭像 發(fā)表于 08-18 11:00 ?1017次閱讀

    數(shù)據(jù)中心以太網(wǎng)和RDMA:超大規(guī)模環(huán)境下的問題

    我們觀察到新興的人工智能、高性能計算和存儲工作負載對大規(guī)模數(shù)據(jù)中心網(wǎng)絡提出了新的挑戰(zhàn)?;谌诤弦蕴W(wǎng)的RDMA協(xié)議(RoCE,RDMA over Converged Ethernet) 是將現(xiàn)代
    的頭像 發(fā)表于 07-14 16:41 ?5949次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>以太網(wǎng)和<b class='flag-5'>RDMA</b>:超大規(guī)模環(huán)境下的問題

    展望2024數(shù)據(jù)中心基礎設施

    前陣子,DeLL&apos;ORO GROUP發(fā)布預測報告,回顧了23數(shù)據(jù)中心基礎設施報告中的突出趨勢,及展望了2024年數(shù)據(jù)中心基礎設施的發(fā)展情況,以下是報告內容。
    的頭像 發(fā)表于 03-25 15:59 ?794次閱讀

    動態(tài)可編程增益放大器

    電子發(fā)燒友網(wǎng)站提供《動態(tài)可編程增益放大器.pdf》資料免費下載
    發(fā)表于 09-07 10:43 ?0次下載
    <b class='flag-5'>動態(tài)</b><b class='flag-5'>可編程</b>增益放大器