chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲網(wǎng)絡性能

NVIDIA英偉達 ? 來源:未知 ? 2023-07-05 18:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著數(shù)據(jù)生成的不斷增加,線性性能擴展已成為橫向擴展存儲的絕對要求。存儲網(wǎng)絡就像汽車道路系統(tǒng):如果道路不是為速度而建造的,那么汽車的潛在速度就無關緊要了。即使是法拉利在充滿障礙的非鋪裝的土路上也會很慢。

連接存儲節(jié)點的以太網(wǎng)網(wǎng)絡架構可能會阻礙橫向擴展存儲性能。NVIDIA 加速以太網(wǎng)可以消除性能瓶頸,從而為一般應用程序,特別是 AI/ML 實現(xiàn)最高的存儲性能。

橫向擴展存儲需要強大的網(wǎng)絡

全球每秒有 54000 張照片被拍攝。當您閱讀本文時,這一數(shù)字將會更高。無論您的業(yè)務是什么,您都有可能擁有大量需要存儲和分析的數(shù)據(jù),而且數(shù)據(jù)量每天都在增長。

以前使用越來越大的存儲文件服務器的縱向擴展方法已被橫向擴展方法所取代,以提供在容量和性能方面線性擴展的存儲。

借助橫向擴展存儲或分布式存儲,可以配置和連接多個較小的節(jié)點,使其成為一個邏輯單元。單個文件或對象可以分布在多個節(jié)點上。

當需要更大的規(guī)模時,可以輕松添加額外的存儲節(jié)點,以提高存儲容量和性能。這既適用于傳統(tǒng)的企業(yè)存儲供應商解決方案,也適用于軟件和硬件獨立采購的軟件定義解決方案。

分布式存儲實現(xiàn)了靈活的擴展和成本效益,但需要高性能網(wǎng)絡來連接存儲節(jié)點。許多數(shù)據(jù)中心交換機不適合存儲的獨特流量特性,實際上可能會削弱橫向擴展存儲解決方案的性能。

存儲流量與傳統(tǒng)流量的區(qū)別

對于許多用例來說,網(wǎng)絡流量是一致且同構的,傳統(tǒng)以太網(wǎng)就足夠了。但是,存儲設備生成的流量可能會導致以下詳述問題。

01

網(wǎng)絡壓力

當前的存儲解決方案受益于更快的 SSD 和存儲接口,如 NVMe 和 PCIe Gen 4(即將推出 PCIe Gen 5),旨在提供更高的性能。

02

擁塞

當存儲網(wǎng)絡架構飽和時,網(wǎng)絡擁塞就不可避免,就像高速公路上交通量過多時造成道路擁堵一樣。網(wǎng)絡擁塞對于橫向擴展存儲來說尤其成問題,因為每個存儲節(jié)點都需要提供快速的數(shù)據(jù)傳輸。但當出現(xiàn)擁塞時,許多數(shù)據(jù)中心交換機都存在公平問題,其中一些節(jié)點的速度會比其他節(jié)點慢得多。單個文件或對象通常分布在多個節(jié)點上,因此任何降低單個節(jié)點速度的操作都會有效地降低整個集群的速度。

03

突發(fā)流量

大多數(shù)存儲工作負載都是突發(fā)的,會產生密集的數(shù)據(jù)傳輸,并在短時間內反復需要大量帶寬。當這種情況發(fā)生時,網(wǎng)絡交換機必須使用其緩沖區(qū)來吸收突發(fā),直到瞬時突發(fā)結束,從而防止數(shù)據(jù)包丟失。否則,數(shù)據(jù)包丟失將需要重新傳輸數(shù)據(jù),從而顯著降低應用程序性能。

04

存儲巨型幀

傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡流量使用的最大數(shù)據(jù)包大小( MTU)為 1.5KB。當橫向擴展存儲節(jié)點可以使用 9KB 的“巨型幀”時,它們的性能會更好,這樣可以在提高吞吐量的同時降低? CPU 處理開銷。許多使用商用交換機 ASIC 構建的數(shù)據(jù)中心交換機在處理巨型幀時表現(xiàn)不佳或不可預測。

05

低延遲

提高存儲 IOP 的方法之一是通過為基于閃存介質中的讀/寫操作實現(xiàn)幾個數(shù)量級延遲降低。?然而,當網(wǎng)絡引入高延遲時,尤其是由于過度緩沖,這些昂貴的性能改進可能會丟失。

訓練和推理都需要足夠的數(shù)據(jù)量和高速訪問,以確保 GPU 處理器足夠快地輸入數(shù)據(jù),使其保持被充分使用。在訓練期間,所有節(jié)點都會執(zhí)行寫操作,以提高模型的準確性。這導致了突發(fā),使得交換機必須有效地處理擁塞。最后,較低的存儲延遲使 GPU 能夠更有效地處理計算任務。

為什么 ASIC 不適合存儲流量

大多數(shù)數(shù)據(jù)中心交換機都是使用商用交換機 ASIC 構建的,這些 ASIC 針對傳統(tǒng)的數(shù)據(jù)流量模式和數(shù)據(jù)包大小進行了成本優(yōu)化。為了在實現(xiàn)帶寬目標的同時保持低成本,以太網(wǎng)交換機芯片供應商通過使用分離緩沖區(qū)架構,這犧牲了公平性。

每個交換機都有一個緩沖區(qū),用于吸收流量突發(fā),并在發(fā)生擁塞時防止數(shù)據(jù)包丟失。常見的方法是擁有一個跨多個端口共享的緩沖區(qū)。然而,并非所有共享緩沖區(qū)都是相同的——存在不同的緩沖區(qū)架構。

商用交換機沒有完全共享的緩沖區(qū),而是使用入口共享緩沖區(qū)或出口共享緩沖區(qū)。

對于入口共享緩沖區(qū),在一組傳入端口和特定內存切片之間存在靜態(tài)映射。這些端口只能使用分配切片中的內存,而不能使用整個緩沖區(qū),即使緩沖區(qū)的其余部分可用并且沒有人在使用它。

對于出口共享緩沖區(qū),在一組輸出端口和特定緩沖區(qū)內存切片之間進行映射。同樣,每組出口只能使用其分配的緩沖區(qū)切片,而不能使用整個緩沖區(qū)。

對于這兩種體系結構,保持在同一內存切片中的流與在內存切片之間傳輸?shù)牧鞔嬖谛袨榈牟煌?。如果許多流使用具有相同緩沖區(qū)的端口,那么這些端口將面臨更高的延遲和更低的吞吐量,而使用緩沖區(qū)其他切片的流量將享受更高的性能。

存儲性能取決于存儲流量(和其他流量)使用的端口以及這些端口緩沖區(qū)切片的繁忙程度。這就是為什么使用分離緩沖區(qū)的交換機經(jīng)常遇到公平性、可預測性和微突發(fā)吸收相關的問題。

為什么深度緩沖區(qū)交換機

在存儲方面未得到優(yōu)化

深度緩沖區(qū)交換機通常指的是提供更多緩沖區(qū)(GB 而不是 MB)的交換機。深度緩沖區(qū)交換機通常被推廣用作路由器,因為如果網(wǎng)絡速度不匹配或出現(xiàn)多對一通信情況,它們可以吸收并保持大量流量突發(fā)。

但在大多數(shù)數(shù)據(jù)中心應用程序(包括橫向擴展存儲)中,深度緩沖區(qū)交換機會對性能產生負面影響,原因如下:

01

作業(yè)完成時間

對于并行文件系統(tǒng),響應速度最慢的存儲節(jié)點決定了獲取文件所需的時間。與具有切片的片上緩沖區(qū)的商用交換機 ASIC 不同,深度緩沖區(qū)交換機同時具有片上和片外緩沖區(qū),并且它們都是切片的,而非完全共享的緩沖區(qū)。

想象一下,在流離開交換機之前,有多少種流進入交換機的方式。它們可以保持在一個片上內存切片內(速度最快),在片上內存切片間傳輸(速度較慢),或在片上和片外內存切片間傳輸(速度非常慢)。

所有這些流的行為都會有所不同,因此會導致存儲流量的公平性和可預測性問題。由于這些問題會降低一個或多個節(jié)點的速度,因此會對作業(yè)完成時間產生負面影響,并降低整個分布式存儲集群的速度。

02

延遲

交換機緩沖區(qū)越大,每個數(shù)據(jù)包必須經(jīng)過的隊列就越長,延遲也就越大。深度緩沖區(qū)交換機的測試平均端口到端口延遲超過 500 微秒。與同代的完全共享緩沖區(qū)交換機相比,NVIDIA Spectrum 1 的延遲僅為 0.3 微秒。而交換/路由數(shù)據(jù)包需要的時間是納秒而不是微秒。

深度緩沖區(qū)延遲高出 1000 倍。您可能想知道,這只是發(fā)生在擁塞的時候嗎?不會。在擁塞的情況下,深度緩沖區(qū)的延遲會高得多;事實上,最高可達 20 毫秒,或高出 50000 倍。對于數(shù)據(jù)中心之間的路由器來說,500 微秒的延遲可能還可以,但在數(shù)據(jù)中心內,這意味著閃存存儲性能的不可用。

03

功率和成本

深緩沖區(qū)交換機即使在空閑時也需要數(shù)百瓦的功率才能運行,這使得其持續(xù)的運營成本更高。深度緩沖區(qū)交換機的初始購買成本也高得多。如果性能更好,這可能是合理的,但實際測試證明恰恰相反。

選擇不合適的網(wǎng)絡交換機會嚴重拖慢存儲工作負載,使昂貴的快速存儲變得像更便宜、更慢的存儲一樣。

借助 NVIDIA Spectrum 可以降低資本支出和運營支出。節(jié)省的電力還可以用于機架內的其他用途。

NVIDIA Spectrum 交換機

針對存儲進行了優(yōu)化

使用商用交換 ASIC,流要么保持在同一個內存切片上,要么在內存切片之間流動。

借助 NVIDIA Spectrum 交換機,由于完全共享的緩沖區(qū),所有流的行為都是相同的。這種架構的價值在于最大的突發(fā)吸收能力以及最佳的公平和可預測的性能。通過交換機的所有流都得到相同的處理,并且通常享有相同的良好性能,無論它們使用哪個入口和出口。

深度緩沖區(qū)交換機和

NVIDIA Spectrum 的基準測試

第一種情況使用一個通用的存儲基準 FIO 工具,在后臺流量運行時從兩個發(fā)起端發(fā)送到一個目標端的寫操作。這是一種典型的存儲場景。

該團隊測量了 FIO 工作完成所需的時間(越短越好)。使用深度緩沖區(qū)交換機,F(xiàn)IO 作業(yè)耗時 87 秒。使用 NVIDIA Spectrum 交換機,作業(yè)運行速度提高 40%,僅需 51 秒即可完成。

d8ce38b8-1b1b-11ee-962d-dac502259ad0.png

圖 1:與深度緩沖區(qū)交換機相比,NVIDIA Spectrum 交換機的存儲寫入操作快 40%

深度緩沖區(qū)交換機大大增加了延遲,從而降低了存儲速度并降低了應用程序性能。但是延遲能有多高?

對于第二種情況,該團隊采用了深度緩沖區(qū)交換機,并測試了在不同的擁塞用例下延遲是如何受到影響的。最大緩沖區(qū)占用率僅為整個緩沖區(qū)大小的 10% 左右。

d8e56e34-1b1b-11ee-962d-dac502259ad0.png

圖 2:與緩沖區(qū)大小和緩沖區(qū)占用率相比的實際和預測延遲

從圖 2 左側的圖表中可以得出兩個有意義的見解。首先,深度緩沖區(qū)交換機延遲比 Spectrum 交換機高 50000 倍(2 – 19 毫秒,而 Spectrum 僅為 300 納秒)。

其次,緩沖區(qū)占用率和延遲之間存在明顯的線性相關性。換句話說,測試證明,占用的緩沖區(qū)越大,延遲就越大。

有了這一理解,圖 2 右側的圖表顯示了每個深度緩沖區(qū) ASIC(如 Jericho 1 、Jericho 2 或 Ramon)的最大延遲。這些非常高的延遲數(shù)通常與數(shù)據(jù)中心應用程序不兼容,尤其與快速存儲解決方案不兼容。

對于第三種情況,該團隊使用了兩臺 Windows 計算機,并同時將每臺計算機中的一個文件復制到同一目標存儲中。

使用深度緩沖區(qū)交換機時,一臺 Windows 計算機的帶寬是另一臺計算機的三倍( 830MBps 與 290MBps 相比)。使用 Spectrum 交換機時,每臺計算機的帶寬均為 584 MBps(如預期的 50%)。

實際測試表明,深度緩沖區(qū)交換機對數(shù)據(jù)中心應用程序(如吸收數(shù)據(jù)包和防止數(shù)據(jù)丟失)沒有積極影響。

長距離或廣域網(wǎng)連接可能需要深度緩沖區(qū)交換機;然而,它們對于數(shù)據(jù)中心應用程序來說不是理想選擇,并且會產生負面影響,特別是當工作負載擴展到僅兩個節(jié)點之外時,如本用例中所示。

d901b7d8-1b1b-11ee-962d-dac502259ad0.png

圖 3 :深度緩沖區(qū)交換機為每個節(jié)點提供了不公平的帶寬(左圖),而 NVIDIA Spectrum 交換機提供了相等的帶寬(右圖)


這三個用例證明了為什么深度緩沖區(qū)交換機會對 AI/ML 和存儲工作負載產生不利影響,而 Spectrum 交換機則提供了最大化的性能。

總結

NVIDIA Spectrum Ethernet switches?是專為 AI/ML 和存儲工作負載而構建的,其性能優(yōu)于具有分離緩沖區(qū)或深度緩沖區(qū)的交換機。它們可以更好地處理擁塞,防止數(shù)據(jù)包丟失,并且在處理巨型幀(首選存儲)方面表現(xiàn)出色。NVIDIA Spectrum 以太網(wǎng)交換機可以提供良好的應用程序性能,網(wǎng)絡延遲也較低。

掃描下方二維碼,查看更多有關 NVIDIA Spectrum Ethernet switches 的信息。

d929fa2c-1b1b-11ee-962d-dac502259ad0.png


d93b62f8-1b1b-11ee-962d-dac502259ad0.gif ?

更多精彩內容 使用 NVIDIA Spectrum-X 網(wǎng)絡平臺加速生成式 AI 工作負載
COMPUTEX2023 | NVIDIA 推出面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺


原文標題:借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲網(wǎng)絡性能

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3953

    瀏覽量

    93830

原文標題:借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲網(wǎng)絡性能

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    以太網(wǎng)入門:從零開始,掌握以太網(wǎng)基礎知識!

    以太網(wǎng)作為現(xiàn)代通信技術的基石,其重要性不言而喻。無論是日常網(wǎng)絡應用,還是AI對高速大帶寬網(wǎng)絡的需求,以太網(wǎng)都扮演著不可或缺的角色。本文將從零開始,帶您了解
    的頭像 發(fā)表于 06-09 14:00 ?2688次閱讀
    <b class='flag-5'>以太網(wǎng)</b>入門:從零開始,掌握<b class='flag-5'>以太網(wǎng)</b>基礎知識!

    加速網(wǎng)絡性能:融合以太網(wǎng) RDMA (RoCE) 的影響

    直接內存訪問 (RDMA) (RoCE)。這項突破性技術促進了系統(tǒng)之間的直接數(shù)據(jù)傳輸,無需 CPU 干預,從而顯著減少延遲并提高整體系統(tǒng)性能。[愛波]一家著名的 FPGA 設計公司處于這一進步的最前沿,通過將 AMD 的 ERNIC IP(
    的頭像 發(fā)表于 01-25 11:50 ?870次閱讀
    加速<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>性能</b>:融合<b class='flag-5'>以太網(wǎng)</b> RDMA (RoCE) 的影響

    以太網(wǎng)與光纖網(wǎng)絡的優(yōu)劣比較

    隨著信息技術的飛速發(fā)展,網(wǎng)絡技術已經(jīng)成為現(xiàn)代社會不可或缺的一部分。以太網(wǎng)和光纖網(wǎng)絡作為兩種主流的網(wǎng)絡技術,它們在不同的應用場景中展現(xiàn)出各自的優(yōu)勢和局限性。
    的頭像 發(fā)表于 11-08 09:19 ?1967次閱讀

    以太網(wǎng)速率對網(wǎng)絡性能的影響

    以太網(wǎng)作為最廣泛使用的局域網(wǎng)技術之一,其速率的提高網(wǎng)絡性能有著直接的影響。從最初的10Mbps發(fā)展到今天的100Gbps甚至更高,以太網(wǎng)
    的頭像 發(fā)表于 11-08 09:11 ?1229次閱讀

    NVIDIA SuperNIC推進現(xiàn)代AI基礎設施發(fā)展

    在生成式 AI 時代,加速網(wǎng)絡對于為大規(guī)模分布式 AI 工作負載構建高性能計算平臺至關重要。NVIDIA 在加速網(wǎng)絡領域繼續(xù)保持領先地位,提供先進的
    的頭像 發(fā)表于 11-06 13:59 ?790次閱讀

    NVIDIA 以太網(wǎng)加速 xAI 構建的全球最大 AI 超級計算機

    市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡平臺,該平臺
    發(fā)表于 10-30 09:33 ?360次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>以太網(wǎng)</b>加速 xAI 構建的全球<b class='flag-5'>最大</b> AI 超級計算機

    最大限度提高MSP430? FRAM的寫入速度

    電子發(fā)燒友網(wǎng)站提供《最大限度提高MSP430? FRAM的寫入速度.pdf》資料免費下載
    發(fā)表于 10-18 10:09 ?1次下載
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>MSP430? FRAM的寫入速度

    最大限度提高GSPS ADC中的SFDR性能:雜散源和Mitigat方法

    電子發(fā)燒友網(wǎng)站提供《最大限度提高GSPS ADC中的SFDR性能:雜散源和Mitigat方法.pdf》資料免費下載
    發(fā)表于 10-10 09:16 ?0次下載
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>GSPS ADC中的SFDR<b class='flag-5'>性能</b>:雜散源和Mitigat方法

    全雙工以太網(wǎng)有哪些特點

    全雙工以太網(wǎng)是一種能夠在同一時刻同時進行數(shù)據(jù)發(fā)送和接收的以太網(wǎng)技術。這種技術顯著提高網(wǎng)絡的吞吐量和效率,是現(xiàn)代網(wǎng)絡通信中的重要組成部分。以
    的頭像 發(fā)表于 10-08 10:18 ?1984次閱讀

    以太網(wǎng)交換模式有哪幾種

    以太網(wǎng)交換模式是指以太網(wǎng)交換機在數(shù)據(jù)傳輸過程中所采用的處理和轉發(fā)數(shù)據(jù)幀的方式。以太網(wǎng)交換機作為局域網(wǎng)中的核心設備,通過不同的交換模式,可以優(yōu)化數(shù)據(jù)傳輸?shù)男?、降低延遲,并
    的頭像 發(fā)表于 10-08 10:12 ?2003次閱讀

    淺析以太網(wǎng)的發(fā)展走勢

    本月,NVIDIA創(chuàng)始人兼CEO黃仁勛在COMPUTEX 2024發(fā)表了主題演講,宣布NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡平臺已被業(yè)界廣泛使用,并且將進一步加快新品發(fā)布計劃。
    的頭像 發(fā)表于 09-19 11:50 ?1143次閱讀

    簡單認識NVIDIA網(wǎng)絡平臺

    NVIDIA Spectrum-X800 平臺是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡平臺,包括了 NVIDIA Spectrum SN5
    的頭像 發(fā)表于 09-09 09:22 ?819次閱讀

    車載以太網(wǎng)線束傳輸性能——汽車線束故障定位實際測試結果分析#車載以太網(wǎng)

    車載以太網(wǎng)
    北匯信息POLELINK
    發(fā)布于 :2024年08月16日 18:13:19

    以太網(wǎng)端口和千兆端口的區(qū)別

    以太網(wǎng)端口和千兆端口在多個方面存在顯著的區(qū)別,這些區(qū)別主要體現(xiàn)在速度、應用范圍、技術規(guī)格以及網(wǎng)絡性能等方面。
    的頭像 發(fā)表于 08-07 15:42 ?2453次閱讀

    以太網(wǎng)端口的類型和特性

    以太網(wǎng)端口,即以太網(wǎng)接口,是網(wǎng)絡中用于連接設備并進行數(shù)據(jù)交換的端口。它基于IEEE 802.3標準,并使用以太網(wǎng)協(xié)議進行數(shù)據(jù)傳輸。以太網(wǎng)端口
    的頭像 發(fā)表于 08-07 15:27 ?3243次閱讀