chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

Hobby觀察 ? 來(lái)源:電子發(fā)燒友 ? 作者:梁浩斌 ? 2025-02-20 11:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)周二xAI發(fā)布了Grok3,這個(gè)馬斯克稱(chēng)之為“地球上最聰明的AI”搶占了所有人的眼球。

為了打造最強(qiáng)AI大模型,xAI投入了20萬(wàn)塊H100 GPU,計(jì)算資源是上一代Grok2的15倍左右。在Benchmarks中,Grok3毫無(wú)懸念成功地領(lǐng)先Deepseek R1、o3 mini等對(duì)手。

不過(guò)用如此大規(guī)模的算力集群,花費(fèi)上一代15倍的計(jì)算資源投入,業(yè)界認(rèn)為Grok3的性能只是略微提升了大模型能力上限,實(shí)際提升幅度低于算力投入的預(yù)期。這或許也預(yù)示著大模型的Scaling Laws或許已經(jīng)出現(xiàn)邊際效益遞減。

wKgZPGe2oNeARzHmAAUy0goVTck826.png
來(lái)源:X

就在Grok3發(fā)布的當(dāng)天,DeepSeek團(tuán)隊(duì)也發(fā)表了一篇論文(https://arxiv.org/pdf/2502.11089),介紹了一種新的稀疏注意力機(jī)制(Natively Sparse Attention,NSA),用于提升長(zhǎng)文本訓(xùn)練和推理的效率,并具備硬件對(duì)齊和端到端訓(xùn)練的特性。

截至19日下午,這篇推文在X上已經(jīng)有超過(guò)180萬(wàn)觀看量。值得一提的是,DeepSeek創(chuàng)始人梁文鋒也出現(xiàn)在這篇論文的作者名單中。下面我們就來(lái)看一下這篇論文有哪些創(chuàng)新點(diǎn)。

核心理念:用更少的計(jì)算做更多的事

在大語(yǔ)言模型(LLM)發(fā)展的初期,曾經(jīng)有一段時(shí)間處理長(zhǎng)文本是考量不同模型性能的指標(biāo)之一。因?yàn)閭鹘y(tǒng)LLM在處理長(zhǎng)文本時(shí)要面臨的一個(gè)問(wèn)題是,計(jì)算成本過(guò)高。

為什么計(jì)算成本高?這主要是因?yàn)長(zhǎng)LM此前使用的“全注意力”機(jī)制需要計(jì)算每個(gè)詞與其他所有詞之間的關(guān)系,當(dāng)文本長(zhǎng)度增加時(shí),這種計(jì)算量會(huì)以指數(shù)級(jí)別增加,導(dǎo)致高延遲和高能耗,大幅增加了計(jì)算成本。比如要處理一本十萬(wàn)字的書(shū)時(shí),傳統(tǒng)方法需要計(jì)算這十萬(wàn)字中所有詞之間的兩兩關(guān)系,這會(huì)讓計(jì)算速度變得極為緩慢,甚至根本無(wú)法完成任務(wù)。

為了解決這個(gè)問(wèn)題,實(shí)際上稀疏注意力(Sparse Attention)機(jī)制一直在LLM中被應(yīng)用。稀疏注意力的核心思想是,不需要計(jì)算所有詞之間的關(guān)系,只需要關(guān)注那些最重要的部分。通過(guò)這種方式實(shí)現(xiàn)“偷懶”,可以大大減少計(jì)算量,同時(shí)保持模型性能。

但現(xiàn)有的稀疏注意力機(jī)制也存在一些問(wèn)題,比如在推理端,盡管理論上計(jì)算量是減少了,但實(shí)際推理速度沒(méi)有明顯加快;而在訓(xùn)練端,現(xiàn)有的稀疏注意力機(jī)制在訓(xùn)練端效果都不太好,只適用于推理階段。

所以這次DeepSeek團(tuán)隊(duì)推出的NSA就是為了解決現(xiàn)有稀疏注意力機(jī)制的缺點(diǎn),提高計(jì)算效率。

具體來(lái)看,NSA主要通過(guò)對(duì)文本的處理和硬件優(yōu)化兩大方面實(shí)現(xiàn)。在文本處理方面,NSA采用分層稀疏策略,首先是將文本進(jìn)行粗粒度壓縮,即將長(zhǎng)文本分成多個(gè)塊,比如每32個(gè)詞為一個(gè)塊,然而用機(jī)器學(xué)習(xí)模型提取每個(gè)塊的摘要,減少計(jì)算量。

然后對(duì)文本進(jìn)行細(xì)粒度選擇,即動(dòng)態(tài)篩選出對(duì)當(dāng)前任務(wù)最關(guān)鍵的幾個(gè)塊,比如通過(guò)注意力評(píng)分選出16個(gè)塊,只計(jì)算這些塊的詳細(xì)信息。

最后保留局部的上下文,比如最近的512個(gè)詞,來(lái)確保模型能夠捕捉到上下文中短期的關(guān)系。

這個(gè)過(guò)程可以用閱讀書(shū)本來(lái)理解。比如你想看一本很厚的書(shū),但沒(méi)有時(shí)間逐個(gè)字去看,那么你會(huì)通過(guò)哪些方法去了解這本書(shū)里的內(nèi)容?上面提到的粗粒度壓縮,就相當(dāng)于是將這本書(shū)快速翻閱一下,每頁(yè)都只是一眼掃過(guò),大致了解內(nèi)容;而細(xì)粒度選擇,就相當(dāng)于標(biāo)記出書(shū)里比較重要的章節(jié)和段落;最后仔細(xì)閱讀標(biāo)記出來(lái)的部分,同時(shí)也能簡(jiǎn)單看一下標(biāo)記部分的上下文內(nèi)容,這樣對(duì)于快速閱讀一本書(shū)而言顯然會(huì)是一個(gè)有效的方式。

而在硬件優(yōu)化方面,NSA首先是將數(shù)據(jù)按連續(xù)塊加載到GPU的內(nèi)存中,減少隨機(jī)訪問(wèn)的開(kāi)銷(xiāo),實(shí)現(xiàn)分塊內(nèi)存訪問(wèn);在解碼階段,令多個(gè)注意力頭共享相同的鍵值緩存,降低內(nèi)存帶寬需求;在訓(xùn)練階段,直接引入稀疏性,確保模型學(xué)會(huì)如何有效利用稀疏結(jié)構(gòu),實(shí)現(xiàn)端到端訓(xùn)練。

DeepSeek在使用NSA進(jìn)行驗(yàn)證時(shí),實(shí)際效果也相當(dāng)喜人。首先是模型的訓(xùn)練和推理速度都有明顯的提升,在64k長(zhǎng)度的文本處理中,使用英偉達(dá)A100 GPU,NSA的推理速度比傳統(tǒng)注意力快11.6倍,訓(xùn)練速度提升6-9倍。

同時(shí)在知識(shí)問(wèn)答(MMLU)、代碼生成(HumanEval)、長(zhǎng)文本理解(LongBench)等任務(wù)中,NSA的性能與全注意力模型相當(dāng)甚至更好。證明NSA在提高效率的同時(shí),依然可以保持良好的模型性能。

通過(guò)適配GPU的Tensor Core和內(nèi)存架構(gòu),NSA也能最大化硬件利用率。NSA首次將分層稀疏策略與GPU內(nèi)存層級(jí)(HBM→SRAM)對(duì)齊,實(shí)現(xiàn)理論計(jì)算節(jié)省與實(shí)際加速的統(tǒng)一。

所以總結(jié)下來(lái),NSA的出現(xiàn)解決了稀疏注意力機(jī)制在實(shí)際應(yīng)用中的兩大難題。在推理效率上,NSA顯著加快長(zhǎng)文本處理速度,令大模型能夠處理更多超長(zhǎng)文本任務(wù);在訓(xùn)練上,NSA相比傳統(tǒng)的稀疏注意力機(jī)制,可以更好地支持模型訓(xùn)練。

更重要的是,NSA證明了稀疏注意力不是只能被用于推理,還能在訓(xùn)練上應(yīng)用,這能夠?yàn)橄乱淮凸?、高吞吐的LLM部署提供了關(guān)鍵技術(shù)基礎(chǔ)。

Kimi同步發(fā)布MoBA論文,提高長(zhǎng)文本處理效率

wKgZO2e2oOaAbuOJAAXLZaK2lxs694.jpg
來(lái)源:X


DeepSeek發(fā)布論文的同一天,Kimi也發(fā)布了與NSA類(lèi)似的MoBA,同樣采用了稀疏注意力的機(jī)制,旨在解決大語(yǔ)言模型處理長(zhǎng)上下文時(shí)計(jì)算成本過(guò)高的問(wèn)題。(論文鏈接https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf)

不過(guò)于NSA不同的是,MoBA借鑒了“專(zhuān)家混合”(MoE)的理念,把整個(gè)文本分成多個(gè)“塊”,然后通過(guò)一種“選擇機(jī)制”決定每個(gè)查詢(xún)應(yīng)該關(guān)注哪些塊。這種方式類(lèi)似于讓模型自己決定“哪些部分更重要”,而不是預(yù)先設(shè)定固定的規(guī)則。

MoBA的核心是“動(dòng)態(tài)選擇”,即通過(guò)一個(gè)“門(mén)控機(jī)制”來(lái)決定哪些塊需要被關(guān)注。這種方式讓模型可以根據(jù)任務(wù)需求靈活調(diào)整注意力范圍。

同時(shí)在硬件優(yōu)化上,結(jié)合了FlashAttention技術(shù),進(jìn)一步提升了計(jì)算效率。通過(guò)分布式計(jì)算解決了GPU內(nèi)存限制的問(wèn)題,可以輕松擴(kuò)展到1000萬(wàn)詞以上的超長(zhǎng)序列。超長(zhǎng)文本也是MoBA最顯著的特性之一。

小結(jié):

目前大模型Scaling Laws已經(jīng)開(kāi)始出現(xiàn)邊際效益遞減的跡象,未來(lái)提高算力利用率可能是推動(dòng)大模型應(yīng)用普及的關(guān)鍵方向。但隨著AI應(yīng)用的不斷普及,算力需求整體來(lái)看依然是會(huì)繼續(xù)增長(zhǎng),大模型想要繼續(xù)發(fā)展,繼續(xù)投入算力硬件的回報(bào)或許不會(huì)再有顯著提升,各大研究機(jī)構(gòu)和公司還需要尋找更多新的突破。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    839

    瀏覽量

    3406
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LPDDR5X在AI數(shù)據(jù)中心多能打?10.7Gbps速率、互連7、推理吞吐高5、延遲低80%!

    廠商們包括三星、美光、SK海力士以及長(zhǎng)鑫存儲(chǔ)等也不斷拉高LPDDR5X的規(guī)格,有望拓展繼智能終端之后AI數(shù)據(jù)中心這類(lèi)新應(yīng)用。 ? 三星電子 ? 三星發(fā)布的比前代1.25、功耗效率提升25%的高端低功耗DRAM LPDDR5X
    的頭像 發(fā)表于 01-27 09:35 ?6439次閱讀
    LPDDR5X在AI數(shù)據(jù)中心多能打?10.7Gbps速率、互連<b class='flag-5'>快</b>7<b class='flag-5'>倍</b>、<b class='flag-5'>推理</b>吞吐高5<b class='flag-5'>倍</b>、延遲低80%!

    北大團(tuán)隊(duì)最新研究:AI芯片算力提升數(shù)倍,能效提升超90

    首次實(shí)現(xiàn)后摩爾新器件異質(zhì)集成的多物理域融合傅里葉變換系統(tǒng)。 ? 這一全新計(jì)算架構(gòu)將傅里葉變換計(jì)算速度從當(dāng)前每秒約1300億次提升至每秒約5000億次,算力提升近4,能效
    的頭像 發(fā)表于 01-15 09:31 ?2236次閱讀

    梁文鋒署名DeepSeek新論文:突破GPU內(nèi)存限制的技術(shù)革命

    電子發(fā)燒友網(wǎng)報(bào)道 DeepSeek團(tuán)隊(duì)發(fā)布了一篇由創(chuàng)始人梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup: A New Axis
    的頭像 發(fā)表于 01-14 11:29 ?5417次閱讀

    新技術(shù)可提升紫外線傳感器響應(yīng)速度

    研究示意圖 澳大利亞麥考瑞大學(xué)科學(xué)家開(kāi)發(fā)了一項(xiàng)新技術(shù),將紫外線傳感器的響應(yīng)速度提高了128000。該成果有望催生更高效、更靈活的可穿戴設(shè)備。相關(guān)論文發(fā)表于新一期《Small》雜志。 研究團(tuán)隊(duì)指出
    的頭像 發(fā)表于 11-07 09:13 ?409次閱讀
    新技術(shù)可<b class='flag-5'>提升</b>紫外線傳感器響應(yīng)<b class='flag-5'>速度</b>

    今日看點(diǎn):谷歌芯片實(shí)現(xiàn)量子計(jì)算比經(jīng)典超算13000;NFC 技術(shù)突破:讀取距離從 5 毫米提升至 20 毫米

    性能甚至超越了最快的經(jīng)典超級(jí)計(jì)算機(jī),速度快 13000 。 ? Willow是谷歌于去年12月宣布推出的量子芯片。當(dāng)時(shí),Willow量子芯片在5分鐘內(nèi)完成了一項(xiàng)傳統(tǒng)超級(jí)計(jì)算機(jī)需要“10的25次方”年的時(shí)間才能完成的標(biāo)準(zhǔn)基準(zhǔn)計(jì)算任務(wù)。而此次谷歌披露量子可驗(yàn)證性
    發(fā)表于 10-23 10:20 ?1739次閱讀

    ?Groq LPU 如何讓萬(wàn)億參數(shù)模型「飛」起來(lái)?揭秘 Kimi K2 40 提速背后的黑科技

    開(kāi)放預(yù)覽,引發(fā)了開(kāi)發(fā)者社區(qū)的瘋狂討論——?為什么 Groq 能跑得這么?? 傳統(tǒng) AI 推理硬件(如 GPU)往往面臨一個(gè)兩難選擇: ? ??(但犧牲精度) ? ?準(zhǔn)?(但延遲高到無(wú)法接受) 而
    的頭像 發(fā)表于 08-07 10:01 ?1337次閱讀

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡(jiǎn)介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。DeepSeek-R1采用
    的頭像 發(fā)表于 07-25 15:22 ?1579次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> R1大模型

    RK3576 yolo11-seg訓(xùn)練部署教程

    1.yolov11-seg簡(jiǎn)介yolov11-seg是YOLO(YouOnlyLookOnce)系列的最新成員,專(zhuān)為實(shí)時(shí)實(shí)例分割任務(wù)設(shè)計(jì)。它在保持YOLO家族高效推理速度的同時(shí),通過(guò)創(chuàng)
    的頭像 發(fā)表于 07-25 15:21 ?2069次閱讀
    RK3576 yolo<b class='flag-5'>11</b>-seg<b class='flag-5'>訓(xùn)練</b>部署教程

    光纖的傳輸速度是多少呢

    料折射率影響,實(shí)際速度約為每秒20.6萬(wàn)公里(即206,856,796米/秒)。這一速度是衛(wèi)星通信的10,互聯(lián)網(wǎng)信號(hào)在光纖中每毫秒可傳播206.9公里。 單模光纖潛力 單模光纖理論傳輸速率可達(dá)100Gbps,且未來(lái)可通過(guò)技術(shù)升
    的頭像 發(fā)表于 07-25 10:24 ?9150次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+混合專(zhuān)家

    -V3的版本區(qū)別, 深入了解Deepseek的技術(shù)細(xì)節(jié),快速掌握大模型領(lǐng)域的前沿知識(shí),洞察對(duì)行業(yè)應(yīng)用的影響,提升自身在該領(lǐng)域的專(zhuān)業(yè)水平和競(jìng)爭(zhēng)力。 本書(shū)流程非常清晰,先認(rèn)識(shí)Deepseek性能,然后講解原理,底層
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】--全書(shū)概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù) 第四章關(guān)于
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書(shū)籍介紹+第一章讀后心得

    這本書(shū)有150多頁(yè),而且是彩色印刷的,圖、表很多而且很有條理性。 書(shū)籍前言介紹如下: 第1章 介紹 DeepSeek 的一系列技術(shù)突破與創(chuàng)新,如架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化、推理與部署優(yōu)化等,讓讀者
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    網(wǎng)絡(luò)智能診斷平臺(tái)。通過(guò)對(duì)私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實(shí)用性。該方案實(shí)現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能推理分析能力的有機(jī)融合
    發(fā)表于 07-16 15:29

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    前將 67 token / 秒 (TPS) 的速度提升至 253 TPS(提速 3.7 ),而目前這一速度已達(dá) 368 TPS(提速 5.5
    的頭像 發(fā)表于 07-02 19:31 ?3561次閱讀
    NVIDIA Blackwell GPU優(yōu)化<b class='flag-5'>DeepSeek</b>-R1性能 打破<b class='flag-5'>DeepSeek</b>-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.62】一本書(shū)讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    )和解碼(Decoding)分離的策略 ,以及冗余專(zhuān)家策略,在提高推理速度的同時(shí)確保了系統(tǒng)的穩(wěn)定性和可靠性。 DeepSeek 架構(gòu)圖 DeepSeek-R1技術(shù)突破 01. 純強(qiáng)化
    發(fā)表于 06-09 14:38