两条腿抬起来,亚洲欧美区综合区

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）周二xAI發(fā)布了Grok3，這個(gè)馬斯克稱之為“地球上最聰明的AI”搶占了所有人的眼球。

為了打造最強(qiáng)AI大模型，xAI投入了20萬塊H100 GPU，計(jì)算資源是上一代Grok2的15倍左右。在Benchmarks中，Grok3毫無懸念成功地領(lǐng)先Deepseek R1、o3 mini等對手。

不過用如此大規(guī)模的算力集群，花費(fèi)上一代15倍的計(jì)算資源投入，業(yè)界認(rèn)為Grok3的性能只是略微提升了大模型能力上限，實(shí)際提升幅度低于算力投入的預(yù)期。這或許也預(yù)示著大模型的Scaling Laws或許已經(jīng)出現(xiàn)邊際效益遞減。

來源：X

就在Grok3發(fā)布的當(dāng)天，DeepSeek團(tuán)隊(duì)也發(fā)表了一篇論文（https://arxiv.org/pdf/2502.11089），介紹了一種新的稀疏注意力機(jī)制（Natively Sparse Attention,NSA），用于提升長文本訓(xùn)練和推理的效率，并具備硬件對齊和端到端訓(xùn)練的特性。

截至19日下午，這篇推文在X上已經(jīng)有超過180萬觀看量。值得一提的是，DeepSeek創(chuàng)始人梁文鋒也出現(xiàn)在這篇論文的作者名單中。下面我們就來看一下這篇論文有哪些創(chuàng)新點(diǎn)。

核心理念：用更少的計(jì)算做更多的事

在大語言模型（LLM）發(fā)展的初期，曾經(jīng)有一段時(shí)間處理長文本是考量不同模型性能的指標(biāo)之一。因?yàn)閭鹘y(tǒng)LLM在處理長文本時(shí)要面臨的一個(gè)問題是，計(jì)算成本過高。

為什么計(jì)算成本高？這主要是因?yàn)長LM此前使用的“全注意力”機(jī)制需要計(jì)算每個(gè)詞與其他所有詞之間的關(guān)系，當(dāng)文本長度增加時(shí)，這種計(jì)算量會(huì)以指數(shù)級別增加，導(dǎo)致高延遲和高能耗，大幅增加了計(jì)算成本。比如要處理一本十萬字的書時(shí)，傳統(tǒng)方法需要計(jì)算這十萬字中所有詞之間的兩兩關(guān)系，這會(huì)讓計(jì)算速度變得極為緩慢，甚至根本無法完成任務(wù)。

為了解決這個(gè)問題，實(shí)際上稀疏注意力（Sparse Attention）機(jī)制一直在LLM中被應(yīng)用。稀疏注意力的核心思想是，不需要計(jì)算所有詞之間的關(guān)系，只需要關(guān)注那些最重要的部分。通過這種方式實(shí)現(xiàn)“偷懶”，可以大大減少計(jì)算量，同時(shí)保持模型性能。

但現(xiàn)有的稀疏注意力機(jī)制也存在一些問題，比如在推理端，盡管理論上計(jì)算量是減少了，但實(shí)際推理速度沒有明顯加快；而在訓(xùn)練端，現(xiàn)有的稀疏注意力機(jī)制在訓(xùn)練端效果都不太好，只適用于推理階段。

所以這次DeepSeek團(tuán)隊(duì)推出的NSA就是為了解決現(xiàn)有稀疏注意力機(jī)制的缺點(diǎn)，提高計(jì)算效率。

具體來看，NSA主要通過對文本的處理和硬件優(yōu)化兩大方面實(shí)現(xiàn)。在文本處理方面，NSA采用分層稀疏策略，首先是將文本進(jìn)行粗粒度壓縮，即將長文本分成多個(gè)塊，比如每32個(gè)詞為一個(gè)塊，然而用機(jī)器學(xué)習(xí)模型提取每個(gè)塊的摘要，減少計(jì)算量。

然后對文本進(jìn)行細(xì)粒度選擇，即動(dòng)態(tài)篩選出對當(dāng)前任務(wù)最關(guān)鍵的幾個(gè)塊，比如通過注意力評分選出16個(gè)塊，只計(jì)算這些塊的詳細(xì)信息。

最后保留局部的上下文，比如最近的512個(gè)詞，來確保模型能夠捕捉到上下文中短期的關(guān)系。

這個(gè)過程可以用閱讀書本來理解。比如你想看一本很厚的書，但沒有時(shí)間逐個(gè)字去看，那么你會(huì)通過哪些方法去了解這本書里的內(nèi)容？上面提到的粗粒度壓縮，就相當(dāng)于是將這本書快速翻閱一下，每頁都只是一眼掃過，大致了解內(nèi)容；而細(xì)粒度選擇，就相當(dāng)于標(biāo)記出書里比較重要的章節(jié)和段落；最后仔細(xì)閱讀標(biāo)記出來的部分，同時(shí)也能簡單看一下標(biāo)記部分的上下文內(nèi)容，這樣對于快速閱讀一本書而言顯然會(huì)是一個(gè)有效的方式。

而在硬件優(yōu)化方面，NSA首先是將數(shù)據(jù)按連續(xù)塊加載到GPU的內(nèi)存中，減少隨機(jī)訪問的開銷，實(shí)現(xiàn)分塊內(nèi)存訪問；在解碼階段，令多個(gè)注意力頭共享相同的鍵值緩存，降低內(nèi)存帶寬需求；在訓(xùn)練階段，直接引入稀疏性，確保模型學(xué)會(huì)如何有效利用稀疏結(jié)構(gòu)，實(shí)現(xiàn)端到端訓(xùn)練。

DeepSeek在使用NSA進(jìn)行驗(yàn)證時(shí)，實(shí)際效果也相當(dāng)喜人。首先是模型的訓(xùn)練和推理速度都有明顯的提升，在64k長度的文本處理中，使用英偉達(dá)A100 GPU，NSA的推理速度比傳統(tǒng)注意力快11.6倍，訓(xùn)練速度提升6-9倍。

同時(shí)在知識問答（MMLU）、代碼生成（HumanEval）、長文本理解（LongBench）等任務(wù)中，NSA的性能與全注意力模型相當(dāng)甚至更好。證明NSA在提高效率的同時(shí)，依然可以保持良好的模型性能。

通過適配GPU的Tensor Core和內(nèi)存架構(gòu)，NSA也能最大化硬件利用率。NSA首次將分層稀疏策略與GPU內(nèi)存層級（HBM→SRAM）對齊，實(shí)現(xiàn)理論計(jì)算節(jié)省與實(shí)際加速的統(tǒng)一。

所以總結(jié)下來，NSA的出現(xiàn)解決了稀疏注意力機(jī)制在實(shí)際應(yīng)用中的兩大難題。在推理效率上，NSA顯著加快長文本處理速度，令大模型能夠處理更多超長文本任務(wù)；在訓(xùn)練上，NSA相比傳統(tǒng)的稀疏注意力機(jī)制，可以更好地支持模型訓(xùn)練。

更重要的是，NSA證明了稀疏注意力不是只能被用于推理，還能在訓(xùn)練上應(yīng)用，這能夠?yàn)橄乱淮凸?、高吞吐的LLM部署提供了關(guān)鍵技術(shù)基礎(chǔ)。

Kimi同步發(fā)布MoBA論文，提高長文本處理效率

來源：X

DeepSeek發(fā)布論文的同一天，Kimi也發(fā)布了與NSA類似的MoBA，同樣采用了稀疏注意力的機(jī)制，旨在解決大語言模型處理長上下文時(shí)計(jì)算成本過高的問題。（論文鏈接https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf）

不過于NSA不同的是，MoBA借鑒了“專家混合”（MoE）的理念，把整個(gè)文本分成多個(gè)“塊”，然后通過一種“選擇機(jī)制”決定每個(gè)查詢應(yīng)該關(guān)注哪些塊。這種方式類似于讓模型自己決定“哪些部分更重要”，而不是預(yù)先設(shè)定固定的規(guī)則。

MoBA的核心是“動(dòng)態(tài)選擇”，即通過一個(gè)“門控機(jī)制”來決定哪些塊需要被關(guān)注。這種方式讓模型可以根據(jù)任務(wù)需求靈活調(diào)整注意力范圍。

同時(shí)在硬件優(yōu)化上，結(jié)合了FlashAttention技術(shù)，進(jìn)一步提升了計(jì)算效率。通過分布式計(jì)算解決了GPU內(nèi)存限制的問題，可以輕松擴(kuò)展到1000萬詞以上的超長序列。超長文本也是MoBA最顯著的特性之一。

小結(jié)：

目前大模型Scaling Laws已經(jīng)開始出現(xiàn)邊際效益遞減的跡象，未來提高算力利用率可能是推動(dòng)大模型應(yīng)用普及的關(guān)鍵方向。但隨著AI應(yīng)用的不斷普及，算力需求整體來看依然是會(huì)繼續(xù)增長，大模型想要繼續(xù)發(fā)展，繼續(xù)投入算力硬件的回報(bào)或許不會(huì)再有顯著提升，各大研究機(jī)構(gòu)和公司還需要尋找更多新的突破。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

DeepSeek

DeepSeek

+關(guān)注

關(guān)注
2

文章
820

瀏覽量
2538

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！

評論

搜索歷史

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！

評論

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！