chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從英偉達到國產算力:一場必須打贏的“遷移之戰(zhàn)”

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-09-11 13:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在當今數字化時代,人工智能AI)技術正以前所未有的速度改變著我們的生活和工作方式。AI應用的廣泛落地離不開強大的算力支持,而GPU作為AI計算的核心硬件,一直是推動AI發(fā)展的關鍵力量。然而,隨著國際形勢的變化和技術競爭的加劇,依賴單一供應商的GPU芯片已經無法滿足國內AI產業(yè)的長期發(fā)展需求。在這種背景下,將AI應用從英偉達顯卡遷移到國產顯卡,不僅是技術發(fā)展的必然選擇,更是保障我國AI產業(yè)安全和可持續(xù)發(fā)展的緊迫任務。

一、遷移的緊迫性和必要性

(一)國際形勢的挑戰(zhàn)

近年來,美國對中國的高科技產業(yè)實施了一系列限制措施,尤其是對高端AI芯片的出口禁令,嚴重影響了國內AI產業(yè)的正常發(fā)展。2024年12月3日,中國半導體行業(yè)協(xié)會等四大協(xié)會聯(lián)合發(fā)布聲明,呼吁企業(yè)謹慎采購美國芯片,并擴大與其他國家和地區(qū)芯片企業(yè)的合作。這一舉措凸顯了我國在AI芯片領域實現自主可控的緊迫性。

(二)技術自主可控的需求

依賴進口芯片不僅存在供應風險,還可能面臨技術封鎖和安全威脅。國產AI芯片的崛起為我國AI產業(yè)提供了新的選擇。通過將AI應用遷移到國產顯卡,可以有效降低對國外芯片的依賴,確保技術的自主可控,保障國家信息安全。

(三)國內市場的潛力

國內AI市場龐大且應用場景豐富,從智能安防到自動駕駛,從醫(yī)療影像到金融科技,AI技術的應用無處不在。國產顯卡的性能不斷提升,已經具備了替代進口芯片的能力。將AI應用遷移到國產顯卡,不僅可以滿足國內市場的多樣化需求,還能為國產芯片的發(fā)展提供廣闊的市場空間。

二、遷移到底難在哪?

wKgZPGjCQl6AS3liAAPvl9_6Lw8245.png

痛點的核心在于缺乏一套基于國產顯卡的端到端遷移工具鏈和解決方案,支持算法人員無感知地從GPU遷移至國產算力。

三、JoyScale “零感知”遷移棧

京東云JoyScale異構算力管理平臺經過在京東內場和外場萬卡集群打磨,完成了 40+ 主流模型遷移,沉淀出JoyScale 全棧方案,其核心思想是:

零侵入:算法代碼一行不改,僅通過后端切換完成遷移。

可驗證:每一步都有黃金對照(GPU 基線),誤差可量化、可回滾。

可擴展:新增芯片≈插件式接入,核心框架保持不變。

全鏈路:訓練→微調→推理→上線監(jiān)控,端到端覆蓋。

3.1 系統(tǒng)架構

wKgZPGjCQmuANdGHAALlGM2FWUk866.png

3.2 遷移方案

硬件適配

加速卡調度適配針對國產顯卡的卡間互聯(lián)技術,開發(fā)適配的調度插件。例如,昇騰910B的HCCS架構要求同一Pod內的處理器必須在同一HCCS環(huán)內,否則任務會失敗。

算子支持度分析通過工具(如Pytorch Profiler)提取GPU算子,與國產顯卡支持的API清單進行對比,對不支持的算子進行適配開發(fā)。

性能調優(yōu)結合國產顯卡的硬件特性,通過Profile獲取每個算子的執(zhí)行時間,對較慢算子進行精細優(yōu)化,通常要結合底層硬件架構特性進行優(yōu)化,例如數據對齊,轉換為連續(xù)內存等。同時也可以使用廠商API將多個算子進行融合以及轉換為子圖方式提交到加速卡等加速手段。

軟件適配

程序遷移將基于CUDA的代碼遷移到國產顯卡支持的框架。例如,將torch.cuda.xxx()接口替換為torch.npu.xxx()接口。

框架優(yōu)化在框架層為國產顯卡和英偉達GPU提供統(tǒng)一的API接口,實現了一套API下NPU和GPU用戶無感、0成本無縫切換訓練。

模型適配

模型量化通過模型量化技術,減少模型的計算量和存儲需求,提高在國產顯卡上的運行效率。

軟硬協(xié)同深度優(yōu)化:通過Triton編譯和CANN融合等技術對熱點算子(如flash attention、rotary_embedding、npu_matmul_add_fp32等)進行精細調優(yōu),實施鋸齒Attention、動態(tài)輸入拼接、全子圖下發(fā)以及重計算流水線的獨立調度和自適應重計算等深度優(yōu)化措施,實現了百卡 MFU達60%。同時,通過權重更新通信隱藏、CoC計算通信并行、啟發(fā)式自動并行策略搜索、BF16低精度通信和多機間RDMA通信等技術,達到了百卡擴展系數0.93,從而實現了千億至萬億參數模型訓練的近線性橫向擴展。

推理優(yōu)化

通過GE圖編譯優(yōu)化和ATB高性能算子技術對Paged Attention、Flash Attention、Sub_Mul_Concat等操作進行深度優(yōu)化,實現整圖下發(fā)能力,通過算子setup(workspace、tiling)、下發(fā)、計算實現流水線并行,有效隱藏了算子調度開銷。同時支持W8A8 SmoothQuant量化、W4A16 AWQ量化技術,顯著較少了計算量與訪存密度。

模型服務采用雙后端熱備,流量 5% → 30% → 100%逐級灰度上線國產算力,失敗率 > 0.1% 自動回滾英偉達GPU。

統(tǒng)一調度和監(jiān)控

自研基于云原生的萬卡級異構算力統(tǒng)一調度系統(tǒng),自動識別CPU NUMA和網絡拓撲,確保任務被分配到最優(yōu)的計算和網絡資源上,從而最大化任務的執(zhí)行效率。通過Gang調度、算力切分池化等技術提高集群的整體占用率。

支持可視化監(jiān)控體系,統(tǒng)一監(jiān)控異構顯卡的算力利用率、顯存利用率,以及AI負載的服務吞吐、失敗率、延時、token數等服務化指標。

四、典型落地場景

零售場景:利用多模態(tài)模型對商品視頻進行分析,抽取能夠表征視頻的一系列tag。從英偉達GPU無縫遷移到國產NPU,與GPU比對效果無明顯差異。在輸出Token數量一致的前提下,二者平均響應時長基本保持一致。

智能客服基于大模型的客服Agent助手,使用過往沉淀QA數據對模型進行微調,遷移到國產算力進行微調后,與基于英偉達GPU微調的模型分析結果相似,且96%問題分配下游處理路徑相同。

物流場景基于國產算力微調的模型與基于英偉達GPU微調的模型在物流地址解析等任務的訓練結果分別達到了91.03%與91.08%,二者表現基本一致,AI預分揀已上線多個省份,每天識別3萬條以上異常地址。

五、結語

將AI應用從英偉達顯卡遷移到國產顯卡,不僅是技術發(fā)展的必然選擇,更是保障我國AI產業(yè)安全和可持續(xù)發(fā)展的緊迫任務。遷移不是可選項,而是生存項!越早動手,窗口期越長。京東云JoyScale通過完整且成熟的遷移軟件堆棧,幫助客戶有效降低遷移成本,提高遷移效率,確保AI應用在國產顯卡上的高效運行,讓客戶更多地把精力更多放在算法創(chuàng)新上。京東云愿意與更多客戶攜手,一起把國產算力推向極致。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4014

    瀏覽量

    96794
  • 算力
    +關注

    關注

    2

    文章

    1325

    瀏覽量

    16406
  • 京東云
    +關注

    關注

    0

    文章

    189

    瀏覽量

    200
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    “四平臺,芯片國產化率超九成,兼容8種國產AI芯片

    電子發(fā)燒友網報道(文/李彎彎)4月11日消息,由中國移動承建的全國首個“四網絡調度平臺正式投入使用。四
    的頭像 發(fā)表于 04-13 00:03 ?3223次閱讀

    租賃市場爆發(fā),H20遭瘋搶!小心掉坑

    服務器租賃需求也在爆發(fā)式的增長,更出現了“機難求”的盛況。 ? AI 服務器告急,H20 芯片需求大漲 ? 近期,許多上市公司紛紛發(fā)布公告,計劃布局
    的頭像 發(fā)表于 04-04 00:13 ?3084次閱讀

    行業(yè)資訊 I 當中國芯開上無人車 一場AI芯片與智駕的競速

    不迷路“缺芯少魂”到“上車入海”,國產AI芯片正悄悄踩下智駕的“氮氣加速鍵”。但問題是——我們到底是在彎道超車,還是在懸崖飆車?一場三足鼎立+長尾逆襲的暗戰(zhàn)國產AI芯片早已不是“PP
    的頭像 發(fā)表于 09-26 23:32 ?2409次閱讀
    行業(yè)資訊 I 當中國芯開上無人車 <b class='flag-5'>一場</b>AI芯片與智駕的競速

    國產飛騰工控機重大突破:推動國產升級!

    當下,已成為衡量國家綜合實力和產業(yè)競爭的關鍵指標。隨著數字化轉型的加速,各行業(yè)對的需求呈爆發(fā)式增長,
    的頭像 發(fā)表于 08-22 10:07 ?242次閱讀

    壁仞科技聯(lián)合三方打造國產集群落地

    近日,由浙江聯(lián)通、壁仞科技、中興通訊、優(yōu)云科技四方聯(lián)合打造的國產集群,在浙江烏鎮(zhèn)智中心正式點亮。該集群項目的建成,不僅極大地豐富了浙江省的
    的頭像 發(fā)表于 08-01 15:26 ?995次閱讀

    中科曙光超智融合方案助力國產中心建設

    近期,位于魯中南地區(qū)的某大型中心正式啟動建設,標志著國產技術在該區(qū)域數字經濟中的重要突破。該中心采用中科曙光“超智融合”方案,實現
    的頭像 發(fā)表于 07-31 17:13 ?1132次閱讀

    文看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個社會的關注焦點。大家在討論AI的時候,經常會提到AI集群。AI的三要素,是、算法和數據。而AI
    的頭像 發(fā)表于 07-23 12:18 ?555次閱讀
    <b class='flag-5'>一</b>文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    Imagination:軟件定義汽車時代,一場驅動的出行革命

    輛汽車的性能不再由發(fā)動機排量決定,而是取決于車載芯片的與軟件的智能程度,這場由"軟件定義汽車"(SDV)引發(fā)的產業(yè)革命已勢不可擋。在2025年CES展會上,全球科技巨頭
    的頭像 發(fā)表于 03-10 14:00 ?1070次閱讀
    Imagination:軟件定義汽車時代,<b class='flag-5'>一場</b>由<b class='flag-5'>算</b><b class='flag-5'>力</b>驅動的出行革命

    文看懂】什么是端側

    隨著物聯(lián)網(IoT)、人工智能和5G技術的快速發(fā)展,端側正逐漸成為智能設備性能提升和智能化應用實現的關鍵技術。什么是端側,它的應用價值是什么,與云計算、邊緣計算有哪些區(qū)別?本文
    的頭像 發(fā)表于 02-24 12:02 ?2353次閱讀
    【<b class='flag-5'>一</b>文看懂】什么是端側<b class='flag-5'>算</b><b class='flag-5'>力</b>?

    DeepSeek驅動AI市場升溫,智中心利用率望提升

    。 盡管目前這需求尚未對供給造成直接影響,但卡價格已經呈現出上漲趨勢。這變化反映出市場對AI的強烈需求,以及DeepSeek等技術
    的頭像 發(fā)表于 02-19 14:00 ?615次閱讀

    憶阻器存體技術深度解析

    AI領域正在經歷一場顛覆性的變革!DeepSeek,款近期火爆全球的開源AI大模型,正與GPT-4、Sora等模型起,掀起一場前所未有的
    的頭像 發(fā)表于 02-13 17:32 ?1090次閱讀
    憶阻器存<b class='flag-5'>算</b><b class='flag-5'>一</b>體技術深度解析

    中心的如何衡量?

    作為當下科技發(fā)展的重要基礎設施,其的衡量關乎其能否高效支撐人工智能、大數據分析等智能應用的運行。以下是對智中心算衡量的詳細闡述:、
    的頭像 發(fā)表于 01-16 14:03 ?3596次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    北電數智前進·AI異構計算平臺,繪制國產商業(yè)化落地新藍圖

    在當今的數字經濟時代,人工智能已然成為推動科技進步與社會發(fā)展的核心動力。作為助推AI浪潮與數字經濟發(fā)展的基礎設施,AI芯片和相關產業(yè)成為撬動全球智能化、數字化發(fā)展的關鍵錨點,
    的頭像 發(fā)表于 12-24 11:54 ?1056次閱讀

    體架構創(chuàng)新助力國產AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應用論壇》上,億鑄科技高級副總裁徐芳發(fā)表了題為《存體架構創(chuàng)新助力國產
    的頭像 發(fā)表于 10-23 14:48 ?1124次閱讀