chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI大模型競爭白熱化,算力優(yōu)化才是“超車點”?

jf_WZTOguxH ? 來源:AI前線 ? 2023-07-07 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

算力是驅(qū)動人工智能產(chǎn)業(yè)發(fā)展的核心動力。在數(shù)據(jù)、算法和算力三大人工智能要素中,算力是將數(shù)據(jù)和算法真正通過硬件執(zhí)行的基礎(chǔ)單元,并將數(shù)據(jù)、算法轉(zhuǎn)化為最終的生產(chǎn)力。

隨著 AI 技術(shù)的高速發(fā)展,以及 AI 大模型的廣泛應(yīng)用,AI 算力需求正在快速增加,大概每隔 3-4 個月就會增加一倍。如今,對 AI 任務(wù)所需算力總量的度量單位已經(jīng)進入 PD 時代(PetaFlops/s-day),即用每秒千萬億次的計算機完整運行一天消耗的算力總量作為度量單位。比如,特斯拉 FSD自動駕駛系統(tǒng)的融合感知模型訓練消耗的算力當量是 500 個 PD。

可以看到,在 AI 大模型時代,AI 領(lǐng)域的“軍備競賽”正從過去算法和數(shù)據(jù)層面的競爭,轉(zhuǎn)變?yōu)榈讓铀懔Φ母偁帯C遇的背后,如何破解算力困局、實現(xiàn)算力優(yōu)化,也是整個行業(yè)需要解決的課題。近日,InfoQ 采訪了大禹智芯聯(lián)合創(chuàng)始人 /CTO、IEEE 國際頂會 HPCA 名人堂成員蔣曉維博士,英特爾院士、大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán),以期探索 AI 大模型時代下的算力困局破解路徑,尋求算力優(yōu)化最優(yōu)解。

AI 大模型時代,算力需求大爆發(fā)

作為 AI 的重要子領(lǐng)域,機器學習的發(fā)展最早可以追溯至 20 世紀 50 年代。2012 年,AlexNet 首次引起廣泛關(guān)注,使得機器學習分支深度學習的熱度呈指數(shù)級上升。在傳統(tǒng)的機器學習和深度學習技術(shù)中,算力作為底層基礎(chǔ)設(shè)施扮演著至關(guān)重要的角色,不斷推動上層技術(shù)迭代創(chuàng)新。使得這些傳統(tǒng)技術(shù)在圖像識別、圖像分類、自然語言處理、廣告推薦、自動駕駛和圖像生成等領(lǐng)域愈加成熟,并在實踐中得到了廣泛應(yīng)用。

在 AI 領(lǐng)域,大家關(guān)注的焦點主要包括各種各樣的數(shù)據(jù)集,以及諸如 Caffe、TensorFlow、PyTorch 等深度學習框架,還有像 Horovod 這樣的分布式訓練框架。與此同時,底層芯片技術(shù)也在不斷演進發(fā)展。最早企業(yè)使用 CPU 進行訓練;隨后,GPU/GPGPU(通用 GPU)成為訓練和推理的標準設(shè)備;再到后來開始出現(xiàn)一些專用的 AI 芯片,比如谷歌的 TPU 芯片,以及國內(nèi)的寒武紀等等。

2022 年,AIGC 技術(shù)迎來應(yīng)用大爆發(fā),從 OpenAI 文本生成圖像系統(tǒng) Dall-E2 到 AI 繪畫神器 Stable Diffusion,AIGC 迅速火成“頂流”。

戴金權(quán)表示,AIGC 技術(shù)主要涵蓋兩類模型:一類是像 Stable Diffusion 這樣的擴散模型,它可以生成圖片、音頻、視頻等等;另一類是大語言模型,從語言模型角度來生成文本、對話等等。這兩種模型的需求不一樣,擴散模型更多是對計算的需求更高一些,而大語言模型更多是要求內(nèi)存的帶寬和大小能夠支撐。很多時候一個比較大的大語言模型,是無法放到一張顯卡上同時運行的,可能需要更大的內(nèi)存支持。

“從英特爾的角度來看,我們需要對不同的計算、內(nèi)存、Transformer 注意力機制算子的要求,以及對模型進行壓縮,不管是稀疏化還是低精度等等,通過多樣化技術(shù)對它進行更好的支持。多模態(tài)是一個非常重要的方向,最終大模型追求的是這個模型不僅可以追求處理文本,還可以處理圖片、視頻等,不再是一個單一的算子,而是很多算子在模型里同時存在,如何來提供這樣的支持,都是一些技術(shù)上的挑戰(zhàn)。”戴金權(quán)說道。

2022 年 11 月,ChatGPT 橫空出世,成功掀起了 AI 大模型熱潮。隨后,國內(nèi)外陸續(xù)發(fā)布了多款 AI 大模型。

蔣曉維認為,這一波大語言模型熱潮與之前的機器學習和深度學習創(chuàng)新相比,確實存在諸多不同,并不斷刷新大家的認知?!皬?AlexNet、CNN+LSTM、VGG、ResNet,再到后來的 GAN 和最近的 Diffusion Model,以及 AIGC 領(lǐng)域的 Bert、GPT 等,這些模型領(lǐng)域的不斷迭代創(chuàng)新已經(jīng)持續(xù)至少 9 年了。ChatGPT 的出現(xiàn)實際上是過去 9 年各種技術(shù)棧有機結(jié)合后的一個積累和突破的過程?!?/p>

參數(shù)規(guī)模方面,GPT-3 的參數(shù)規(guī)模是 1750 億。近日,“天才黑客”喬治·霍茲在接受采訪時透露,GPT-4 參數(shù)高達 1.76 萬億,是 GPT-3 的 10 倍。算力需求方面,有數(shù)據(jù)顯示,GPT-3 的整個完整訓練需要 3.14E11(TFLOPS)的每秒浮點運算量。OpenAI 首席執(zhí)行官 Sam Altman 曾在接受采訪時指出,GTP-4 需要的計算量為 GTP-3 的 10 倍;GTP-5 需要的計算量為 GTP-3 的 200-400 倍。

大模型的背后離不開龐大算力的支撐,這種支撐通常來自于硬件與軟件兩方面。以英特爾為例,戴金權(quán)在接受采訪時表示,從算力角度來看,英特爾支持生成式 AI 的計算主要做兩方面工作:

一是在硬件層面。得益于英特爾的 XPU 戰(zhàn)略,比如一個筆記本電腦也可以有一個強大的 XPU 平臺,有 CPU、集成顯卡、獨立顯卡,下一代還將有 VPU,利用不同的加速來對生成式 AI 進行運算的支撐。在數(shù)據(jù)中心端也是如此,第四代英特爾至強可擴展處理器內(nèi)置的矩陣運算加速器(英特爾 AMX),還有英特爾數(shù)據(jù)中心 GPU Ponte Vecchio(PVC)、Gaudi 系列專用 AI 加速器。

二是在軟件層面,利用軟件的技術(shù)將硬件的計算能力提供出來,包括與 TensorFlow、PyTorch、Hybrid Bonding 等開源軟件進行了廣泛合作,與 OpenAI 合作的 AI 編譯器 Triton,以及和微軟合作優(yōu)化的做大規(guī)模分布式訓練的軟件棧 DeepSpeed 等等。

如何破解 AI 算力困局?

龐大的算力需求也意味著需要高昂的訓練成本。根據(jù)英偉達的數(shù)據(jù),GPT-3 需要使用 1024 顆 A100 芯片訓練長達一個月的時間,總成本約為 460 萬美元。而 GPT-4 的訓練成本大約在 1 億美元左右,GPT-5 的成本會更高。

毫無疑問,AI 大模型的訓練是一個“非常昂貴的過程”。所以也有觀點認為,算力成本是限制 AI 大模型和生成式 AI 發(fā)展的因素之一。

“除了在軟件、模型和算法層面進行多維度的優(yōu)化之外,CPU 通用計算領(lǐng)域的發(fā)展歷程可以為大模型算力領(lǐng)域的成本優(yōu)化提供一些借鑒意義”。蔣曉維提到。在 CPU 通用計算領(lǐng)域,提升算力存在兩種模型,分別是“Scale up”(水平方向上擴展)和“Scale out”(垂直方向上擴展)?!癝cale up”是指通過各種方式將一臺機器擴展到像小型機甚至大型機的規(guī)模,而“Scale out”是指通過由 CPU、內(nèi)存、存儲等商業(yè)化部件構(gòu)建單臺服務(wù)器,通過復制這些機器,并將這些機器以高性能的數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)起來,再結(jié)合一些系統(tǒng)層面的技術(shù)將其構(gòu)建成類似小型機的解決方案。傳統(tǒng)的小型機是“Scale up”的經(jīng)典案例,以單路和雙路 x86 服務(wù)器構(gòu)建的數(shù)據(jù)中心則是“Scale out”的代表。

從“Scale up”到“Scale out”是通用計算領(lǐng)域經(jīng)歷的一種發(fā)展過程。在國外,谷歌是一個早期的代表案例,而在國內(nèi),阿里是最著名的代表。阿里有一個著名的故事叫做“去 IOE”,即摒棄 IBM 的小型機、Oracle 的數(shù)據(jù)庫以及 EMC 的存儲,通過商用化的 x86 服務(wù)器構(gòu)建“Scale out”的數(shù)據(jù)中心。

蔣曉維認為,這或許是大型模型和 GPU 算力領(lǐng)域未來可能要走的路線?!澳壳拔覀?nèi)匀辉谧咦摺疭cale up’這條路線,單 GPU 服務(wù)器越做越大、也越做越貴。而‘Scale out’的方式,我認為應(yīng)該是維持一個最基本的小單元,可能包含 CPU 、GPU 和高性能互聯(lián)網(wǎng)卡,不同的芯片器件可以由不同的廠家提供。英偉達的 Grace-Hopper superchip 目前是這種基本單元的代表方案。通過分布式方式和高性能、高效的網(wǎng)絡(luò)將計算單元互聯(lián)起來是一種降低成本的可能途徑?,F(xiàn)如今,數(shù)據(jù)中心的網(wǎng)絡(luò)延遲已經(jīng)達到了亞微秒級別,甚至是納秒級別,完全具備了將計算單元高效互聯(lián)的能力。這是從‘Scale up’方式逐漸演變到‘Scale out’方式的一個維度。我們可以借鑒通用計算領(lǐng)域先前的一些經(jīng)驗?!?/p>

此外,通過軟件來承擔一些高可用功能,如容錯等,以及尋找第二供應(yīng)商,都是降低成本的關(guān)鍵手段。

構(gòu)建分布式算力

在降低算力成本之外,如何更好地利用算力、提升算力的效率也是業(yè)界亟待解決的問題。而如何將計算能力分布式化、構(gòu)建分布式計算能力,正是算力優(yōu)化的前提。

在過去,大家對 AI 芯片領(lǐng)域的關(guān)注點主要集中在推理方面,但現(xiàn)在大模型使得人們更關(guān)注分布式訓練,尤其是分布式訓練集群的構(gòu)建。因為單張卡無法滿足需求,所以需要構(gòu)建分布式訓練集群,通過高效的互聯(lián)將大量 GPU 連接起來。

除了提升單個 GPU 芯片的能力之外,另一個核心問題是如何高效地將 GPU 單卡構(gòu)建成分布式訓練能力。這是當前大模型算力構(gòu)建過程中一個非常核心的領(lǐng)域和技術(shù)。這需要超級計算網(wǎng)絡(luò)的能力和高性能網(wǎng)絡(luò),以高效地互聯(lián)單個節(jié)點的 GPU 計算單元,并且還需要更高效的 CPU 與 GPU 協(xié)同能力。最近發(fā)布的英偉達的 DGX GH200 正是這些技術(shù)的巔峰體現(xiàn)。

蔣曉維認為,英偉達不僅僅是一家 GPU 算力公司,同時也是一家高性能網(wǎng)絡(luò)和 CPU 公司?!拔覀兛梢钥聪掠ミ_的核心技術(shù)。首先,它在芯片功能方面往往是采用最先進的制程技術(shù),同時需要在最先進的制程支持下達到單 die 面積以及功耗和散熱的極限。因此,對于芯片設(shè)計領(lǐng)域以及制程的各個環(huán)節(jié),都有非常高的要求。我認為這是第一個基礎(chǔ),就是芯片設(shè)計領(lǐng)域,包括先進的制程技術(shù),高計算能力的單卡芯片。在此基礎(chǔ)上,我們再構(gòu)建多機多卡的訓練,將高效的單卡互聯(lián)起來。這就需要高性能網(wǎng)絡(luò)的能力,通過這種高性能網(wǎng)絡(luò)能力實現(xiàn)單卡性能的‘線性’理想狀況,同時在擴展性方面也有很高的基本要求?!?/p>

在過去的幾十年中,英偉達曾涉足 x86 芯片組領(lǐng)域,并且在退出該業(yè)務(wù)后一直致力于 ARM CPU 的研發(fā)。目前,英偉達已經(jīng)推出了基于 ARM 架構(gòu)的 Grace 芯片產(chǎn)品,并通過 NvLink C2C 能力在最近發(fā)布的 Grace Hopper 超級芯片中實現(xiàn)了高速高效的 GPU 和 CPU 之間的互聯(lián)。通過 NvLink 技術(shù)實現(xiàn)多個 CPU 芯片之間的互聯(lián),以實現(xiàn)雙路甚至多路 CPU 架構(gòu)。除此之外,在完成對 Mellanox 的收購之后,英偉達在高性能網(wǎng)絡(luò)領(lǐng)域的 Infiniband、RDMA、GDR 等技術(shù)也充分支持了多 GPU 服務(wù)器節(jié)點直接的互聯(lián),為“Scale out”的部署奠定了基礎(chǔ)。

此外,英特爾和 AMD 也在同時在 CPU、GPU 和高性能網(wǎng)絡(luò)互聯(lián)技術(shù)領(lǐng)域具備強大能力。在 CPU 領(lǐng)域,英特爾和 AMD 都是行業(yè)領(lǐng)導者。在網(wǎng)絡(luò)領(lǐng)域,英特爾擁有自己的 Mount Evans(IPU),而 AMD 在收購 Pansando 后在 DPU 領(lǐng)域也獲得了強大實力。在帶內(nèi) - 帶間互聯(lián)方面,英特爾通過 QPI 或 UPI 等技術(shù)實現(xiàn)了 CPU 的多插槽互連能力。同時,它還有像 CXL 這樣的技術(shù),可以實現(xiàn)加速器與 CPU 或內(nèi)存與 CPU 之間的高效互連,以及自身功能所擁有的 EMIB(2.5D 封裝技術(shù)),實現(xiàn)芯片之間的互聯(lián)。而 AMD 則擁有 Hyper Transport 以及基于此的 Infinity Fabric 等核心技術(shù),可以實現(xiàn)帶內(nèi) - 帶間芯片之間的高效互連。所有這些技術(shù)都為構(gòu)建分布式算力提供了必要的基礎(chǔ)。

目前,英偉達的 DGX GH200 產(chǎn)品已經(jīng)達到了極致水平,其擁有 1.8 萬個 CPU 核心、256 個 GPU 和 144T 內(nèi)存,它們之間通過各種高速互聯(lián)技術(shù)有機地結(jié)合在一起。這種模式已經(jīng)對分布式訓練框架和模式產(chǎn)生了重大影響。接下來的問題是,如何支持這種設(shè)備類型的操作系統(tǒng)?如何支持如此大規(guī)模的設(shè)備內(nèi)存?這些都是未來技術(shù)發(fā)展的方向和挑戰(zhàn)。

算力優(yōu)化探索與實踐

在具體的算力優(yōu)化探索與實踐中,蔣曉維表示,作為一家 DPU 公司,大禹智芯關(guān)注的是分布式集群算力模型領(lǐng)域的優(yōu)化,主要集中在從單機單卡到多機規(guī)模的優(yōu)化。

在分布式訓練場景中,尤其是訓練大型模型如 GPT 時,通常需要使用成千上萬個 GPU。在這個過程中,大禹智芯將算力或芯片執(zhí)行的計算分為兩個維度:

第一個維度是純計算,即模型的前向傳播和反向傳播過程,主要在 GPU 上完成。

另一個維度是耗費大量算力但不是 GPU 算力的部分,即訓練中的梯度下降過程,在分布式 GPU 中,需要對參數(shù)進行全局約簡操作,以獲得最終的全局約簡結(jié)果??梢詫⑦@部分稱為訓練中的 I/O 部分,它主要消耗芯片的網(wǎng)絡(luò)資源而不是 GPU 算力。這部分也是大禹智芯產(chǎn)品關(guān)注的焦點。

在大型模型訓練中,當達到 2000 個 GPU 時,I/O 部分和計算部分的比例已經(jīng)達到 1:1。隨著 GPU 數(shù)量超過 2000,I/O 部分所花費的時間和算力可能會超過計算部分。因此,大禹智芯專注在分布式訓練中優(yōu)化 I/O 部分,利用核心網(wǎng)絡(luò)技術(shù)能力來進行優(yōu)化。

“在算力優(yōu)化方面,我們有幾個核心技術(shù):首先是我們支持高度靈活且可編程的硬件零擁塞控制技術(shù),用于取代傳統(tǒng)以太網(wǎng)上的 RoCE v2 協(xié)議。傳統(tǒng)協(xié)議在流量控制方面比較簡單單一,存在一些問題。我們的技術(shù)提供了更靈活和可編程的解決方案,解決了這些問題。第二,我們支持超低延遲特性。第三,我們支持用于分布式訓練中的 MPI 消息傳遞這種集體通信。通過對各個維度進行大量硬件優(yōu)化,并結(jié)合 RDMA 和 MPI,在訓練過程中實現(xiàn)與 InfiniBand 相當?shù)男阅?。這些是我們在從單機單卡到分布式訓練的過程中進行的算力網(wǎng)絡(luò)優(yōu)化工作。”蔣曉維介紹道。

據(jù)了解,目前在構(gòu)建 GPU 算力網(wǎng)絡(luò)方面,大多數(shù)公司仍選擇使用 InfiniBand 網(wǎng)卡和交換機,其中主要使用兩種核心技術(shù):一種是 RDMA(遠程直接內(nèi)存訪問) 技術(shù),通過 GPUDirect RDMA 來消除 CPU 在 I/O 層面上的控制角色,從而降低整個訓練過程中的 I/O 消耗。另一種技術(shù)是 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol),這也是 Mellanox 的核心技術(shù),通過 SHARP 技術(shù)來減少在分布式算力過程中對網(wǎng)絡(luò)帶寬的消耗。

目前,大多數(shù)公司在構(gòu)建算力網(wǎng)絡(luò)時仍基于英偉達的解決方案。然而,一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始在以太網(wǎng)上構(gòu)建 GPU 算力網(wǎng)絡(luò),不再完全依賴 InfiniBand 網(wǎng)絡(luò)。在這種情況下,一個核心問題是找到一個能夠完全替代 InfiniBand 上 RDMA 的技術(shù)。

英偉達除了在 InfiniBand 上有 RDMA 技術(shù)之外,也有以太網(wǎng)上的 RDMA 技術(shù),稱為 RoCE v2。然而,在許多頭部互聯(lián)網(wǎng)公司應(yīng)用中,這種技術(shù)仍然存在一些問題,所以國際國內(nèi)一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始研發(fā)自己的技術(shù),用以取代 RoCE v2 以太網(wǎng)上的 RDMA,并通過自研的方式實現(xiàn)更可靠的運行。他們能夠在有丟包的網(wǎng)絡(luò)環(huán)境中穩(wěn)定地運行 RDMA,并將這項技術(shù)應(yīng)用于 GPU 訓練集群中,這是一些行業(yè)內(nèi)領(lǐng)先公司具備的核心能力。

“對于大禹智芯來說,我們的工作完全基于這些頭部公司的實踐和技術(shù)趨勢。我們也在致力于開發(fā)類似的產(chǎn)品,因為我們相信這些頭部公司的核心技術(shù)往往只局限于他們自身的部署。但是,我們認為更廣泛的公司可能并不具備這樣的能力。像大禹智芯這樣的第三方芯片公司的價值就在于通過通用化的技術(shù),為更廣泛的場景提供支持,并通過更普適的方式將這些技術(shù)落地?!笔Y曉維說道。

寫在最后:軟件算法設(shè)計的多樣化亦是關(guān)鍵

在分布式算力構(gòu)建方面,蔣曉維認為,構(gòu)建分布式算力網(wǎng)絡(luò)需要與芯片領(lǐng)域緊密結(jié)合,并且在每個單元上都需要應(yīng)用先進的制程技術(shù),以支持最大規(guī)模的帶寬。未來,需要重點考慮兩方面:

首先是芯片產(chǎn)業(yè)的發(fā)展。這涉及到各種芯片 IP,例如 SerDes、PCIE 控制器等核心 IP,還有 EDA 工具和先進制程技術(shù)。這些都是構(gòu)建各種算力的基本單元能力。

其次是國內(nèi)的各種 xPU 公司。目前,國內(nèi)的 xPU 公司仍處于早期階段,各自為政,發(fā)展還比較零散。

“在國內(nèi),要在相對較短的時間內(nèi)集合整個產(chǎn)業(yè)的力量共同實現(xiàn)目標,而不是通過一家公司逐步發(fā)展各個領(lǐng)域的能力,可能需要采取某種方式來結(jié)合產(chǎn)業(yè)力量共同實現(xiàn)目標。在這方面,我認為有一個關(guān)鍵技術(shù)是芯片領(lǐng)域的芯片模塊化(Chiplet)技術(shù),這是一項非常有潛力的技術(shù)。通過芯片模塊化,我們可以通過成本較低的封裝技術(shù)將不同的芯片模塊集成在一顆芯片上,從而實現(xiàn)讓每個領(lǐng)域的專業(yè)公司專注于其擅長的事情。另外,芯片模塊化本身還是一個相對較新的概念,例如芯片模塊化的標準化組織 UCIe 也剛剛成立不久。因此,在這個領(lǐng)域,國內(nèi)與國外之間肯定存在差距,但差距并不是特別大,仍然有迎頭趕上的機會?!笔Y曉維總結(jié)道。

展望未來,戴金權(quán)希望可以做到“AI 無所不在”,不管是在本地端、云端還是邊緣端。從這個角度來看,從小尺寸設(shè)備擴展到大規(guī)模數(shù)據(jù)中心的 XPU 架構(gòu),是一個非常重要的、且能夠支持未來 AIGC 技術(shù)無所不在的需求的趨勢。從軟件的角度來看,現(xiàn)在的大模型基本上是以 Transformer 架構(gòu)作為基礎(chǔ)構(gòu)件,目前業(yè)界正在做大量的研究工作,探索 Transformer 架構(gòu)對內(nèi)存的需求,包括內(nèi)存帶寬、內(nèi)存容量以及計算需求如何進行更好的加速。從發(fā)展的眼光來看,至少 Transformer 這樣的大模型可能會有更大的尺寸,包括輸入上下文的擴展,將來可能是今天的幾倍、幾十倍甚至更高。這必然會對軟件算法的設(shè)計,比如低精度、低比特、壓縮、稀疏化,包括注意力機制設(shè)計等有不同的需求。

“所以,軟件算法設(shè)計的多樣化,是我們認為未來有助于滿足 AIGC 和大語言模型的算力需求的重要組成部分。這些需求可能會進一步引導我們未來的訓練、推理,以及芯片的架構(gòu)等。此外,大模型還在快速發(fā)展當中,可能在更長的時間段,比如十年、幾十年的時間里有很多的發(fā)展,有不同算法級別的發(fā)展,以及在不同場景適配的發(fā)展,這些都會對 AI 芯片,包括對所有計算的芯片、計算的能力帶來深遠的影響?!贝鹘饳?quán)總結(jié)道。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39269

    瀏覽量

    300122
  • 模塊化
    +關(guān)注

    關(guān)注

    0

    文章

    353

    瀏覽量

    22625
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5594

    瀏覽量

    124216
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3598

    瀏覽量

    5102
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    396

    瀏覽量

    973

原文標題:AI 大模型競爭白熱化,算力優(yōu)化才是“超車點”?

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI送上太空,是終極方案還是瘋狂幻想?評論區(qū)說出你的陣營!

    AI
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月06日 09:43:34

    科技云報到:價值覺醒,存儲行業(yè)從“善存數(shù)據(jù)”向“用好數(shù)據(jù)”智變

    科技云報到原創(chuàng)。 當AI模型的迭代速度進入“每周一更新”的白熱化階段,當企業(yè)為爭奪資源不惜豪擲千金,一個被普遍忽視的核心矛盾正成為
    的頭像 發(fā)表于 12-02 17:27 ?1190次閱讀
    科技云報到:價值覺醒,存儲行業(yè)從“善存數(shù)據(jù)”向“用好數(shù)據(jù)”智變

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    國產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下
    發(fā)表于 10-27 13:12

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:26 ?1415次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進和物聯(lián)網(wǎng)應(yīng)用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:25 ?715次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升還是智力

    持續(xù)發(fā)展體現(xiàn)在: 1、收益遞減 大模型的基礎(chǔ)的需要極大的,這首先源于昂貴的高性能AI芯片,然后是寶貴的電力、水等與環(huán)境相關(guān)的資源。 收益遞減體現(xiàn)在: ①
    發(fā)表于 09-14 14:04

    科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型

    模型輕量化部署方案。用戶通過遠程平臺預置的模型鏡像與AI工具,僅需50%的GPU
    的頭像 發(fā)表于 07-30 21:44 ?846次閱讀

    一文看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個社會的關(guān)注焦點。大家在討論AI的時候,經(jīng)常會提到AI集群。AI
    的頭像 發(fā)表于 07-23 12:18 ?1470次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    動科技戰(zhàn)略聚焦AI,領(lǐng)航服務(wù)新征程

    動科技戰(zhàn)略聚焦,AI領(lǐng)域取得階段性成果 動科技近日宣布完成戰(zhàn)略重心全面轉(zhuǎn)向AI領(lǐng)域,
    的頭像 發(fā)表于 05-07 09:29 ?558次閱讀

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓練中的突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓練對的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶
    的頭像 發(fā)表于 04-24 09:27 ?728次閱讀

    芯片的生態(tài)突圍與革命

    據(jù)的爆發(fā)式增長,大芯片已成為科技競爭的核心領(lǐng)域之一。 ? 大芯片的核心應(yīng)用場景豐富多樣。在人工智能訓練與推理方面,大
    的頭像 發(fā)表于 04-13 00:02 ?3071次閱讀

    DeepSeek推動AI需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務(wù)對
    發(fā)表于 03-25 12:00

    接棒,慧榮科技以主控技術(shù)突破AI存儲極限

    ? 過去的AI模型通常走大磚飛的路子,通過疊加更強的,來推動AI
    的頭像 發(fā)表于 03-19 01:29 ?2651次閱讀
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控技術(shù)突破<b class='flag-5'>AI</b>存儲極限

    “兆瀚”產(chǎn)品強力支持DeepSeek,共筑國產(chǎn)AI新生態(tài)!

    全球人工智能競賽進入白熱化之際,中國AI領(lǐng)域迎來里程碑式突破——誕生于本土的開源大模型DeepSeek,憑借媲美全球頂尖水平的算法精度和極致開放的生態(tài)策略,迅速獲得全球矚目。作為昇騰戰(zhàn)略合作伙伴
    的頭像 發(fā)表于 02-07 19:37 ?1317次閱讀
    “兆瀚”<b class='flag-5'>算</b><b class='flag-5'>力</b>產(chǎn)品強力支持DeepSeek,共筑國產(chǎn)<b class='flag-5'>AI</b>新生態(tài)!