chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA BlueField-4為推理上下文記憶存儲(chǔ)平臺(tái)提供強(qiáng)大支持

麗臺(tái)科技 ? 來(lái)源:NVIDIA英偉達(dá)網(wǎng)絡(luò) ? 2026-02-02 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)源:NVIDIA英偉達(dá)網(wǎng)絡(luò)

隨著代理式 AI 工作流將上下文窗口擴(kuò)展到數(shù)百萬(wàn)個(gè) token,并將模型規(guī)模擴(kuò)展到數(shù)百萬(wàn)億個(gè)參數(shù),AI 原生企業(yè)正面臨著越來(lái)越多的擴(kuò)展挑戰(zhàn)。這些系統(tǒng)目前依賴于智能體長(zhǎng)期記憶來(lái)存儲(chǔ)跨多輪、工具和會(huì)話持續(xù)保存的上下文,以便智能體能夠基于先前的推理進(jìn)行構(gòu)建,而不是每次請(qǐng)求都從頭開(kāi)始。

隨著上下文窗口的增加,KV 緩存(鍵值緩存)容量需求也相應(yīng)增長(zhǎng),而重新計(jì)算歷史記錄的計(jì)算需求增長(zhǎng)得更快,這使得 KV 緩存復(fù)用和高效存儲(chǔ)對(duì)于性能和效率至關(guān)重要。

這增加了現(xiàn)有內(nèi)存層級(jí)結(jié)構(gòu)的壓力,迫使 AI 提供商在稀缺的 GPU 高帶寬內(nèi)存(HBM)和針對(duì)持久性、數(shù)據(jù)管理和保護(hù)而優(yōu)化的通用存儲(chǔ)層級(jí)之間做出選擇,而不是為短暫的 AI 原生 KV 緩存提供服務(wù),從而推高了功耗,增加了每個(gè) token 的成本,并導(dǎo)致昂貴的 GPU 未得到充分利用。

NVIDIA Rubin 平臺(tái)支持 AI 原生企業(yè)擴(kuò)展推理基礎(chǔ)設(shè)施,滿足智能體時(shí)代的需求。該平臺(tái)將 AI 基礎(chǔ)設(shè)施組織成計(jì)算 Pod,這些 Pod 包括 GPU 的多機(jī)架單元,NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)和存儲(chǔ),是 AI 工廠橫向擴(kuò)展的基礎(chǔ)構(gòu)建模塊。

在每個(gè) Pod 中,NVIDIA 推理上下文記憶存儲(chǔ)(ICMS)平臺(tái)提供了一種專為大規(guī)模推理而設(shè)計(jì)的全新 AI 原生存儲(chǔ)基礎(chǔ)設(shè)施。NVIDIA Spectrum-X 以太網(wǎng)提供可預(yù)測(cè)、低延遲和高帶寬的 RDMA 連接,確保對(duì)大規(guī)模共享 KV 緩存具有一致、低抖動(dòng)的數(shù)據(jù)訪問(wèn)。

在 NVIDIA BlueField-4 數(shù)據(jù)處理器的支持下,Rubin 平臺(tái)構(gòu)建了一個(gè)優(yōu)化的上下文記憶層,通過(guò)保持延遲敏感、可復(fù)用的推理上下文并對(duì)其進(jìn)行預(yù)加載來(lái)提高 GPU 利用率,從而增強(qiáng)現(xiàn)有的網(wǎng)絡(luò)對(duì)象和文件存儲(chǔ)。它提供額外的上下文存儲(chǔ),使每秒 token(TPS)提高了 5 倍,并且比傳統(tǒng)存儲(chǔ)的能效提高了 5 倍。

本文介紹了不斷增長(zhǎng)的代理式 AI 工作負(fù)載和長(zhǎng)上下文推理如何給現(xiàn)有內(nèi)存和存儲(chǔ)層級(jí)帶來(lái)越來(lái)越大的壓力,并介紹了 NVIDIA 推理上下文記憶存儲(chǔ)(ICMS) 平臺(tái)作為 Rubin AI 工廠中的全新上下文層,從而提供更高的吞吐量、更高的能效和可擴(kuò)展的 KV 緩存復(fù)用。

全新的推理范式和上下文存儲(chǔ)挑戰(zhàn)

隨著模型從簡(jiǎn)單的聊天機(jī)器人演變?yōu)閺?fù)雜的多輪智能體工作流,企業(yè)面臨著新的可擴(kuò)展性挑戰(zhàn)。如今,基礎(chǔ)模型的參數(shù)數(shù)量已達(dá)到數(shù)萬(wàn)億,上下文可容納數(shù)百萬(wàn)個(gè) token,三大 AI 擴(kuò)展定律(預(yù)訓(xùn)練、后訓(xùn)練和推理時(shí)擴(kuò)展)正在推動(dòng)計(jì)算密集型推理的激增。智能體不再是無(wú)狀態(tài)的聊天機(jī)器人,而是依賴于對(duì)話、工具和中間結(jié)果的長(zhǎng)期記憶,這些記憶可跨服務(wù)共享,并能隨時(shí)間推移被反復(fù)調(diào)取。

在基于 Transformer 架構(gòu)的模型中,長(zhǎng)期記憶以推理上下文的形式實(shí)現(xiàn),也稱為 KV 緩存。KV 緩存能夠保存推理階段的上下文信息,從而避免模型為生成每個(gè)新 Token 而重復(fù)計(jì)算歷史數(shù)據(jù)。隨著序列長(zhǎng)度的增加,KV 緩存的規(guī)模會(huì)呈線性增長(zhǎng),迫使其在更長(zhǎng)的會(huì)話中持續(xù)保存,并可在多個(gè)推理服務(wù)之間實(shí)現(xiàn)共享。

這種演進(jìn)將 KV 緩存定位為一種由特定二元性定義的獨(dú)特 AI 原生數(shù)據(jù):它對(duì)性能是至關(guān)重要的,但本質(zhì)上又是短暫的。在智能體系統(tǒng)中,KV 緩存已然成為模型的長(zhǎng)期記憶,可以在多個(gè)步驟中被復(fù)用與擴(kuò)展,而不是在單次提示響應(yīng)后即被丟棄。

與不可篡改的企業(yè)記錄不同,推理上下文是派生的且可重新計(jì)算的,因此需要一種存儲(chǔ)架構(gòu),該架構(gòu)更優(yōu)先考慮能效、成本效益以及速度和可擴(kuò)展性,而非傳統(tǒng)的數(shù)據(jù)持久性。在現(xiàn)代 AI 基礎(chǔ)設(shè)施中,這意味著每兆瓦的電力最終都取決于它能提供多少有用的 token。

要滿足這些需求,已經(jīng)使現(xiàn)有的內(nèi)存和存儲(chǔ)層達(dá)到極限。因此,各企業(yè)正在重新思考如何在 GPU 內(nèi)存、主機(jī)內(nèi)存和共享存儲(chǔ)之間保存上下文。

為了厘清這一技術(shù)鴻溝,我們不妨先審視一下推理上下文目前是如何在 G1–G4 層級(jí)結(jié)構(gòu)中的流轉(zhuǎn)機(jī)制(圖 1)。AI 基礎(chǔ)設(shè)施團(tuán)隊(duì)使用各種編排框架,例如 NVIDIA Dynamo 來(lái)幫助管理這些存儲(chǔ)層級(jí)之間的上下文:

G1(GPU HBM):用于正在執(zhí)行生成過(guò)程中的訪問(wèn)頻率較高且延遲敏感的 KV 緩存

G2(系統(tǒng) RAM):用于暫存和緩存從 HBM 移出的 KV 緩存

G3(本地 SSD):用于存儲(chǔ)可短期被復(fù)用的、訪問(wèn)頻率適中的 KV 緩存

G4(共享存儲(chǔ)):用于存儲(chǔ)訪問(wèn)頻率較低的數(shù)據(jù)資產(chǎn)、歷史記錄和運(yùn)算結(jié)果,此類數(shù)據(jù)需滿足持久性要求,但不處于即使關(guān)鍵業(yè)務(wù)路徑上

G1 針對(duì)訪問(wèn)速度進(jìn)行了優(yōu)化,而 G3 和 G4 則針對(duì)持久性進(jìn)行了優(yōu)化。隨著上下文的增長(zhǎng),KV 緩存會(huì)迅速耗盡本地存儲(chǔ)容量(G1-G3),同時(shí)將部分?jǐn)?shù)據(jù)存儲(chǔ)到企業(yè)級(jí)存儲(chǔ)(G4),這會(huì)帶來(lái)難以接受的性能開(kāi)銷,并導(dǎo)致成本和功耗的攀升。

圖 1 展示了這種權(quán)衡關(guān)系,顯示了 KV 緩存在內(nèi)存和存儲(chǔ)層級(jí)中遠(yuǎn)離 GPU 的同時(shí),其使用成本是如何隨之持續(xù)攀升的。

26d5c712-fd85-11f0-92de-92fbcf53809c.png

圖 1. 從 GPU 內(nèi)存(G1)到共享存儲(chǔ)(G4), KV 緩存存儲(chǔ)層級(jí)結(jié)構(gòu)

在整個(gè)存儲(chǔ)層級(jí)架構(gòu)的頂層,GPU HBM(G1)可提供納秒級(jí)訪問(wèn)和超高效率,使其成為直接用于 token 生成的活躍 KV 緩存。隨著上下文超出 HBM 的物理限制,KV 緩存會(huì)擴(kuò)展到系統(tǒng) DRAM(G2)和本地/機(jī)架內(nèi)存儲(chǔ)(G3)中,此時(shí)訪問(wèn)延遲會(huì)增加,每個(gè) token 的能耗和成本開(kāi)始上升。雖然這些層級(jí)擴(kuò)展了有效容量,但每向下遷移一個(gè)層級(jí),都會(huì)產(chǎn)生額外的開(kāi)銷,從而降低整體效率。

在整個(gè)存儲(chǔ)層級(jí)架構(gòu)的底層,共享對(duì)象和文件存儲(chǔ)(G4)可提供持久性和存儲(chǔ)容量,但延遲將達(dá)到毫秒級(jí),推理效率也是最低的。雖然它適用于存儲(chǔ)訪問(wèn)頻率較低的或共享的數(shù)據(jù)資產(chǎn),但將活躍或頻繁復(fù)用的 KV 緩存保存到此層級(jí)會(huì)增加功耗,并直接限制 AI 擴(kuò)展的成本效益。

核心結(jié)論可總結(jié)為——延遲和效率緊密相關(guān):隨著推理上下文遠(yuǎn)離 GPU,訪問(wèn)延遲將增加,能耗和每個(gè) token 的成本將會(huì)上升,整體效率將會(huì)下降。性能優(yōu)化內(nèi)存和容量?jī)?yōu)化存儲(chǔ)之間日益擴(kuò)大的差距,迫使 AI 基礎(chǔ)設(shè)施團(tuán)隊(duì)重新思考如何在整個(gè)系統(tǒng)中存儲(chǔ)、管理和擴(kuò)展不斷增長(zhǎng)的 KV 緩存上下文。

AI 工廠需要一個(gè)互補(bǔ)的、專門(mén)構(gòu)建的上下文層,將 KV 緩存視為其自身的 AI 原生數(shù)據(jù)類型,而不是將其強(qiáng)制存儲(chǔ)于稀缺的 HBM 或通用企業(yè)級(jí)存儲(chǔ)之中。

NVIDIA 推理上下文記憶存儲(chǔ)平臺(tái)

NVIDIA 推理上下文記憶存儲(chǔ)平臺(tái)是一套完全集成的存儲(chǔ)基礎(chǔ)設(shè)施。該平臺(tái)利用 NVIDIA BlueField-4 數(shù)據(jù)處理器(DPU),構(gòu)建在 Pod 級(jí)別運(yùn)行的專用上下文記憶層,以彌合高速 GPU 內(nèi)存和可擴(kuò)展共享存儲(chǔ)之間的性能差距。這可以加速 POD 內(nèi)各節(jié)點(diǎn)之間的 KV 緩存數(shù)據(jù)訪問(wèn)和高速數(shù)據(jù)共享,從而提高性能并優(yōu)化功耗,以滿足日益增長(zhǎng)的大規(guī)模上下文推理需求。

該平臺(tái)創(chuàng)建了一個(gè)新的 G3.5 層級(jí),這是一個(gè)通過(guò)以太網(wǎng)連接的閃存層級(jí),專門(mén)針對(duì) KV 緩存進(jìn)行了優(yōu)化。該層級(jí)可以充當(dāng) AI 基礎(chǔ)設(shè)施 pod 的智能體長(zhǎng)期記憶,其容量足夠大,可以為多個(gè)智能體存儲(chǔ)共享的且不斷演變的上下文,同時(shí)其距離足夠近,可以頻繁地將上下文預(yù)先加載回 GPU 和主機(jī)內(nèi)存,而不會(huì)遲滯 Decode。

該層級(jí)為每個(gè) GPU Pod 提供 PB 級(jí)的共享容量,使長(zhǎng)上下文工作負(fù)載在從 HBM 和 DRAM 中移除后仍能保留歷史記錄。歷史記錄存儲(chǔ)在低功耗的閃存層級(jí)中,該層級(jí)擴(kuò)展了 GPU 和主機(jī)內(nèi)存層級(jí)結(jié)構(gòu)。G3.5 層級(jí)可提供海量聚合帶寬,且效率高于傳統(tǒng)共享存儲(chǔ)。這使得 KV 緩存轉(zhuǎn)變?yōu)楣蚕淼母邘捹Y源,編排器可以跨智能體和服務(wù)進(jìn)行協(xié)作,而無(wú)需在每個(gè)節(jié)點(diǎn)上單獨(dú)重新實(shí)現(xiàn)。

由于 G3.5 層級(jí)現(xiàn)在提供了大部分對(duì)延遲敏感的臨時(shí) KV 緩存服務(wù),因此可以將高持久性的 G4 對(duì)象和文件存儲(chǔ)空間留給真正需要隨著時(shí)間推移而長(zhǎng)期保存的數(shù)據(jù)。其中包括非活躍的多輪 KV 緩存數(shù)據(jù)、查詢歷史記錄、日志以及其他可能在后續(xù)會(huì)話中會(huì)被調(diào)用的多輪推理數(shù)據(jù)。

這減輕了 G4 的容量和帶寬壓力,同時(shí)保留了重要的應(yīng)用級(jí)歷史記錄。隨著推理規(guī)模的擴(kuò)大,G1–G3 KV 緩存容量會(huì)隨著 GPU 數(shù)量的增加而增長(zhǎng),但其容量太小,故仍然無(wú)法滿足所有 KV 緩存的存儲(chǔ)需求。推理上下文存儲(chǔ)平臺(tái)(ICMS)填補(bǔ)了 G1–G3 和 G4 之間缺失的 KV 緩存容量。

NVIDIA Dynamo 等推理框架將其 KV 塊管理器與 NVIDIA 推理傳輸庫(kù)(NIXL)協(xié)同使用,從而編排推理上下文在內(nèi)存和存儲(chǔ)層級(jí)之間的傳輸,并使用 ICMS 作為 KV 緩存的上下文記憶層。這些框架中的 KV 管理器會(huì)預(yù)先加載 KV 塊,并在 Decode 階段之前將它們從 ICMS 傳輸至 G2 或 G1 內(nèi)存。

這種可靠的預(yù)先暫存機(jī)制,得益于 ICMS 具有相較于傳統(tǒng)存儲(chǔ)更高的帶寬和更高的能效,旨在更大限度地減少遲滯和空閑時(shí)間,從而使長(zhǎng)上下文和智能體工作負(fù)載的持續(xù)吞吐量(TPS)提升高達(dá) 5 倍。當(dāng)與運(yùn)行 KV I/O 控制平面的 NVIDIA BlueField-4 處理器結(jié)合使用時(shí),該系統(tǒng)可高效替代 NVMe-oF 和對(duì)象/RDMA 協(xié)議。

下圖顯示了 ICMS 如何融入 NVIDIA Rubin 平臺(tái)和 AI 工廠堆棧。

272ead00-fd85-11f0-92de-92fbcf53809c.png

在推理層,NVIDIA Dynamo 和 NIXL 可管理 Prefill、Decode 和 KV 緩存,同時(shí)協(xié)調(diào)對(duì)共享上下文的訪問(wèn)。在該層下,使用 NVIDIA Grove 的拓?fù)涓兄幣艑訉⒐ぷ髫?fù)載布置于具有 KV 局部性感知的機(jī)架上,從而使工作負(fù)載即使在節(jié)點(diǎn)之間移動(dòng)也可以繼續(xù)復(fù)用上下文。

在計(jì)算節(jié)點(diǎn)層面,KV 分層涵蓋 GPU HBM、主機(jī)內(nèi)存、本地 SSD、ICMS 和網(wǎng)絡(luò)存儲(chǔ),為編排器提供了滿足存儲(chǔ)上下文的連續(xù)容量和延遲。Spectrum-X 以太網(wǎng)將 Rubin 計(jì)算節(jié)點(diǎn)與 BlueField-4 ICMS 目標(biāo)節(jié)點(diǎn)連接起來(lái),提供始終如一的低延遲和高效網(wǎng)絡(luò)連接,并將閃存支持的上下文記憶集成到用于訓(xùn)練和推理的同一 AI 優(yōu)化結(jié)構(gòu)中。

賦能 NVIDIA 推理上下文記憶存儲(chǔ)平臺(tái)

NVIDIA BlueField-4 為 ICMS 提供強(qiáng)大的支持,提供 800Gb/s 的連接速度、64 核 NVIDIA Grace CPU 和高帶寬 LPDDR 內(nèi)存。其專用硬件加速引擎可提供高達(dá) 800Gb/s 的線速加密和 CRC 數(shù)據(jù)保護(hù)。

這些加密和完整性加速器旨在作為 KV 管道的一部分,在不增加主機(jī) CPU 開(kāi)銷的情況下保護(hù)和驗(yàn)證 KV 數(shù)據(jù)流。通過(guò)利用標(biāo)準(zhǔn) NVMe 和 NVMe-oF 傳輸協(xié)議(包括 NVMe KV 擴(kuò)展),ICMS 在保持與標(biāo)準(zhǔn)存儲(chǔ)基礎(chǔ)設(shè)施的互操作性的同時(shí),還提供 KV 緩存所需的專屬性能。

該架構(gòu)采用 BlueField-4 來(lái)加速 KV I/O 和控制平面操作,實(shí)現(xiàn)跨 Rubin 計(jì)算節(jié)點(diǎn)上的和 ICMS 閃存機(jī)箱中控制器上的 DPU 加速,從而減少對(duì)主機(jī) CPU 的依賴,并更大限度地減少序列化操作和主機(jī)內(nèi)存復(fù)制。此外,Spectrum-X 以太網(wǎng)提供經(jīng)過(guò) AI 優(yōu)化的 RDMA 網(wǎng)絡(luò)架構(gòu),通過(guò)可預(yù)測(cè)的低延遲、高帶寬連接將 ICMS 閃存機(jī)箱和 GPU 節(jié)點(diǎn)連接起來(lái)。

此外,NVIDIA DOCA 框架引入了 KV 通信和存儲(chǔ)層,將上下文緩存視為 KV 管理、共享和保存的一級(jí)資源,充分利用 KV 塊和推理模式的獨(dú)特屬性。DOCA 與推理框架對(duì)接,BlueField-4 實(shí)現(xiàn) KV 緩存與底層閃存介質(zhì)的高效傳輸。

這種無(wú)狀態(tài)且可擴(kuò)展的方法符合 AI 原生 KV 緩存策略,并利用 NIXL 和 Dynamo 實(shí)現(xiàn)跨 AI 節(jié)點(diǎn)的高級(jí)共享,并提高推理性能。DOCA 框架支持用于更廣泛編排的開(kāi)放接口,為存儲(chǔ)合作伙伴提供了擴(kuò)展且推理解決方案的靈活性,以涵蓋 G3.5 上下文存儲(chǔ)層。

Spectrum-X 以太網(wǎng)作為高性能網(wǎng)絡(luò)結(jié)構(gòu),支持基于 RDMA 的 AI 原生 KV 緩存訪問(wèn),從而為 NVIDIA 推理上下文記憶存儲(chǔ)平臺(tái)實(shí)現(xiàn)高效的數(shù)據(jù)共享和檢索。Spectrum-X 以太網(wǎng)專為 AI 而構(gòu)建,可大規(guī)模提供可預(yù)測(cè)的低延遲、高帶寬的網(wǎng)絡(luò)連接。它通過(guò)先進(jìn)的擁塞控制、動(dòng)態(tài)路由和優(yōu)化的無(wú)損 RoCE 來(lái)實(shí)現(xiàn)這一點(diǎn),更大限度地降低高負(fù)載下的網(wǎng)絡(luò)抖動(dòng)、尾部延遲和丟包。

憑借超高的有效帶寬、深度遙測(cè)和硬件輔助性能隔離,Spectrum-X 以太網(wǎng)能夠在大規(guī)模多租戶 AI 網(wǎng)絡(luò)架構(gòu)中,實(shí)現(xiàn)一致且可重復(fù)的性能,同時(shí)保持完全基于標(biāo)準(zhǔn)協(xié)議并可與開(kāi)放式網(wǎng)絡(luò)軟件兼容行交互操作。Spectrum-X 以太網(wǎng)使 ICMS 能夠以一致的高性能進(jìn)行擴(kuò)展,從而更大限度地提高多輪智能體推理工作負(fù)載的吞吐量和響應(yīng)速度。

提供高能效、高吞吐量的 KV 緩存存儲(chǔ)

電力是 AI 工廠擴(kuò)展的主要制約因素,因此能效是衡量大規(guī)模推理的關(guān)鍵指標(biāo)。傳統(tǒng)的通用存儲(chǔ)堆棧犧牲了能效,因?yàn)樗鼈冊(cè)诨?x86 的控制器上運(yùn)行,并在元數(shù)據(jù)管理、復(fù)制和后臺(tái)一致性檢查等功能上消耗大量能源,而這些功能對(duì)于暫存和可重構(gòu)的 KV 數(shù)據(jù)來(lái)說(shuō)是不必要的。

KV 緩存與企業(yè)級(jí)數(shù)據(jù)有著本質(zhì)區(qū)別:它是瞬時(shí)的派生數(shù)據(jù),即使丟失了也可以重新計(jì)算。作為推理上下文,它不需要為長(zhǎng)期記錄設(shè)計(jì)的持久性、冗余性或全面的數(shù)據(jù)保護(hù)機(jī)制。將這些高負(fù)載的存儲(chǔ)服務(wù)應(yīng)用于 KV 緩存會(huì)引起不必要的開(kāi)銷,增加延遲和功耗,同時(shí)降低推理效率。通過(guò)將 KV 緩存視為一種獨(dú)特的 AI 原生數(shù)據(jù)類型,ICMS 消除了這種額外的開(kāi)銷,與通用存儲(chǔ)方案相比,能效提高多達(dá) 5 倍。

這種效率提升不僅限于存儲(chǔ)層,還延伸至計(jì)算網(wǎng)絡(luò)結(jié)構(gòu)本身。通過(guò)可靠地預(yù)加載上下文并減少或避免 Decode 停滯停機(jī),ICMS 可防止 GPU 在空閑周期或重復(fù)歷史數(shù)據(jù)計(jì)算上浪費(fèi)能源,從而將吞吐量(TPS)提高達(dá) 5 倍。這種方法可確保將功率直接用于主動(dòng)推理,而不是基礎(chǔ)設(shè)施開(kāi)銷,從而更大限度地提高整個(gè) AI Pod 的有效每瓦 token 數(shù)量。

實(shí)現(xiàn)具有更好性能和 TCO 的大規(guī)模代理式 AI

基于 BlueField-4 的 ICMS, 為 AI 原生企業(yè)提供了一種擴(kuò)展代理式 AI 的新方法:一個(gè) POD 級(jí)上下文層,可擴(kuò)展有效的 GPU 內(nèi)存,并將 KV 緩存轉(zhuǎn)換為跨 NVIDIA Rubin POD 的共享高帶寬長(zhǎng)期記憶資源。通過(guò)卸載 KV 移動(dòng)并將上下文視為可復(fù)用的非持久數(shù)據(jù)類型,ICMS 可減少重新計(jì)算和 Decode 停滯,從而將更高的每秒 token 數(shù)量直接轉(zhuǎn)化為更多的查詢處理、更多的智能體并發(fā)運(yùn)行、更短的大規(guī)模尾部延遲。

綜合上述這些收益可以提高總體擁有成本(TCO),使團(tuán)隊(duì)能夠在一機(jī)架、統(tǒng)一機(jī)柜排或同一數(shù)據(jù)中心內(nèi)部署更多的可用 AI 算力,同時(shí)延長(zhǎng)現(xiàn)有基礎(chǔ)設(shè)施的使用壽命,并圍繞 GPU 算力而非存儲(chǔ)開(kāi)銷來(lái)規(guī)劃未來(lái)的擴(kuò)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5574

    瀏覽量

    109452
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4762

    瀏覽量

    89880
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39270

    瀏覽量

    300124

原文標(biāo)題:NVIDIA BlueField-4 賦能的推理上下文記憶存儲(chǔ)平臺(tái),引領(lǐng) AI 邁向新前沿

文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    堪稱史上最強(qiáng)推理芯片!英偉達(dá)發(fā)布 Rubin CPX,實(shí)現(xiàn)50倍ROI

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)近日,英偉達(dá)在AI infra峰會(huì)上發(fā)布了專為大規(guī)模上下文推理設(shè)計(jì)的全新GPU系列Rubin CPX,性能堪稱炸裂! ? 英偉達(dá)創(chuàng)始人兼CEO黃仁勛表示,“正如 RTX
    的頭像 發(fā)表于 09-11 08:25 ?1w次閱讀
    堪稱史上最強(qiáng)<b class='flag-5'>推理</b>芯片!英偉達(dá)發(fā)布 Rubin CPX,實(shí)現(xiàn)50倍ROI

    NVIDIA DGX SuperPODRubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計(jì)算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA Blackwell
    的頭像 發(fā)表于 01-14 09:14 ?447次閱讀

    NVIDIA BlueField-4數(shù)據(jù)處理器重塑新型AI原生存儲(chǔ)基礎(chǔ)設(shè)施

    NVIDIA 宣布,NVIDIA BlueField?-4 數(shù)據(jù)處理器作為全棧 NVIDIA BlueF
    的頭像 發(fā)表于 01-09 10:33 ?414次閱讀

    NVIDIA在CES 2026發(fā)布新一代Rubin AI平臺(tái)

    通過(guò)跨 NVIDIA Vera CPU、Rubin GPU、NVLink 6 交換機(jī)、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 以太網(wǎng)交換機(jī)的極致協(xié)同設(shè)計(jì),大幅縮短訓(xùn)練時(shí)間,降低
    的頭像 發(fā)表于 01-09 10:23 ?529次閱讀

    大語(yǔ)言模型如何處理上下文窗口中的輸入

    本博客介紹了五個(gè)基本概念,闡述了大語(yǔ)言模型如何處理上下文窗口中的輸入。通過(guò)明確的例子和實(shí)踐中獲得的見(jiàn)解,本文介紹了多個(gè)與上下文窗口有關(guān)的基本概念,如詞元化、序列長(zhǎng)度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?499次閱讀
    大語(yǔ)言模型如何處<b class='flag-5'>理上下文</b>窗口中的輸入

    NVIDIA在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展

    NVIDIA DGX Spark 到 NVIDIA BlueField-4 DPU,新一代網(wǎng)絡(luò)和量子技術(shù)實(shí)現(xiàn)了飛躍。在 SC25 上展示的加速系統(tǒng)突顯了全球超級(jí)計(jì)算和 AI 的進(jìn)展。
    的頭像 發(fā)表于 11-25 10:59 ?782次閱讀
    <b class='flag-5'>NVIDIA</b>在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服務(wù)
    的頭像 發(fā)表于 11-03 14:48 ?882次閱讀

    請(qǐng)問(wèn)riscv中斷還需要軟件保存上下文和恢復(fù)嗎?

    以下是我拷貝的文檔里的說(shuō)明,這個(gè)中斷處理還需要軟件來(lái)寫(xiě)上下文保存和恢復(fù),在使用ARM核的單片機(jī)都不需要考慮這些的,使用過(guò)的小伙伴能解答嗎? 3.8. 進(jìn)出中斷的上下文保存和恢復(fù) RISC-V架構(gòu)
    發(fā)表于 10-20 09:56

    今日看點(diǎn)丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車(chē)出口暴增130%

    緩存加速算法工具,分級(jí)管理推理過(guò)程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理
    發(fā)表于 08-13 09:45 ?4653次閱讀

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級(jí)至16版本(modelVersion5.1.1),多項(xiàng)API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?725次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?

    如果我們?cè)?AUTOSAR 中使用 CAT1 ISR,是否需要執(zhí)行上下文切換?另外,是否需要返回指令才能跳回到作系統(tǒng)?您有沒(méi)有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發(fā)表于 03-27 07:34

    為什么深度學(xué)習(xí)中的Frame per Second高于OpenVINO?演示推理腳本?

    在 DL Workbench 上使用 Microsoft 通用對(duì)象上下文 (MS COCO) 數(shù)據(jù)集運(yùn)行 YOLOv4 對(duì)象檢測(cè)模型,并獲得 50 - 60 FPS。 OpenVINO?演示推理腳本運(yùn)行,并獲得更高的 FP
    發(fā)表于 03-06 07:27

    DeepSeek推出NSA機(jī)制,加速長(zhǎng)上下文訓(xùn)練與推理

    的特性,專為超快速的長(zhǎng)上下文訓(xùn)練和推理而設(shè)計(jì)。 NSA通過(guò)針對(duì)現(xiàn)代硬件的優(yōu)化設(shè)計(jì),顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時(shí)保持了卓越的性能表現(xiàn)。這一機(jī)制在確保效率的同時(shí),并未犧牲模型的準(zhǔn)確性或功能。 在廣泛的基準(zhǔn)測(cè)試、
    的頭像 發(fā)表于 02-19 14:01 ?1073次閱讀

    NVIDIA網(wǎng)絡(luò)安全AI平臺(tái)助力保護(hù)關(guān)鍵基礎(chǔ)設(shè)施

    平臺(tái)集成了 NVIDIA BlueField 和 Morpheus,并為 Armis、Check Point Software Technologies、CrowdStrike、Deloitte 和 WWT 的下一代網(wǎng)絡(luò)防御
    的頭像 發(fā)表于 02-19 10:22 ?1093次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1605次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b><b class='flag-5'>平臺(tái)</b>提高AI<b class='flag-5'>推理</b>性能