chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek發(fā)表重磅論文!推出NSA技術,讓AI模型降本增效

章鷹觀察 ? 來源:電子發(fā)燒友原創(chuàng) ? 作者:章鷹 ? 2025-02-19 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(電子發(fā)燒友報道 文/章鷹)2月18日,在馬斯克的xAI公司發(fā)布了Grok3大模型后,中國公司深度探索公司推出了用于超快速長文本訓練訓練與推理的“原生稀疏注意力”(Native Sparse Attention,簡稱 NSA)。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓練的稀疏注意力機制,它將算法創(chuàng)新與硬件對齊的優(yōu)化相結合,以實現(xiàn)高效的長上下文建模?!?/p>

論文稱,NSA 在通用基準檢驗、長文本任務和基于指令的推理中均能達到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

實驗顯示,NSA 不僅在通用任務和長上下文任務中表現(xiàn)出色,還在例如鏈式推理等復雜任務中展現(xiàn)強大的潛力,且推理速度加快。

在通用基準檢驗、長文本處理以及基于指令的推理任務中,NSA 的表現(xiàn)均能達到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,以性價比極高的方式,罕見地在訓練階段應用稀疏性,在訓練推理場景中顯著提升速度,特別是在譯碼階段實現(xiàn)高達 11.6 倍的提升。

透過高效的長序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫或多輪對話(如千輪客服場景),擴展大語言模型在文文件分析、代碼生成、復雜推理等領域的應用邊界。例如,Gemini 1.5 Pro 已展示長上下文的潛力,NSA 能進一步降低這類模型的訓練與推理成本。

在這篇名題為「原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創(chuàng)始人梁文鋒也是共同作者。

中國人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長田鋒表示,隨著全球人工智能競爭持續(xù)升溫,不同的公司在不同領域展示了競爭優(yōu)勢。據(jù)田鋒介紹,DeepSeek 開發(fā)的資源高效的開源模型在數(shù)學推理和軟件工程任務方面表現(xiàn)出色,而 OpenAI 的 o1 在一般知識和解決問題方面表現(xiàn)更佳。

我們看到,來自中國人工智能公司還展示了各種優(yōu)勢,包括競爭性能和成本效益。田鋒強調:“通過利用替代數(shù)據(jù)源、開發(fā)自主技術以及促進國內(nèi)技術生態(tài)系統(tǒng)內(nèi)的合作,DeepSeek 和其他中國人工智能公司能夠創(chuàng)造出不僅滿足國內(nèi)需求而且能夠提高全球競爭力的解決方案,”

這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來,DeepSeek首次發(fā)布的技術動態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI大模型
    +關注

    關注

    0

    文章

    398

    瀏覽量

    999
  • DeepSeek
    +關注

    關注

    2

    文章

    835

    瀏覽量

    3269
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    千方集團持續(xù)推動公路貨運實現(xiàn)降本增效

    公路貨運作為我國物流體系的支柱,是推動全社會物流降本增效的關鍵領域。千方集團通過整合“車、路、貨、能、運”等關鍵要素資源,構建了完整的產(chǎn)業(yè)生態(tài),并通過智能化升級與全局優(yōu)化,持續(xù)推動公路貨運實現(xiàn)降本增效。
    的頭像 發(fā)表于 01-26 10:18 ?477次閱讀

    ERP上云 = 降本增效?一文讀懂ERP云業(yè)務應用&遷移核心優(yōu)勢

    云ERP企業(yè)轉型更輕盈:無需自建服務器,專業(yè)團隊保障數(shù)據(jù)安全,按需擴展隨業(yè)務增長。SNP的Kyano平臺提供一站式遷移方案,全球3000+企業(yè)驗證,助力快速實現(xiàn)降本增效與業(yè)務創(chuàng)新。
    的頭像 發(fā)表于 01-14 14:03 ?156次閱讀

    停車場照明煥新記:晶映節(jié)能改造的降本增效實踐?

    晶映節(jié)能停車場照明改造以技術創(chuàng)新破傳統(tǒng)困境,通過智能感應與數(shù)字化管理,實現(xiàn)電費大降、維護成本銳減,同步提升安全與用戶體驗,彰顯降本增效深層價值。
    的頭像 發(fā)表于 08-21 16:18 ?769次閱讀
    停車場照明煥新記:晶映節(jié)能改造的<b class='flag-5'>降本增效</b>實踐?

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    -V3的版本區(qū)別, 深入了解Deepseek技術細節(jié),快速掌握大模型領域的前沿知識,洞察對行業(yè)應用的影響,提升自身在該領域的專業(yè)水平和競爭力。 本書流程非常清晰,先認識Deepseek
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    量化 細粒度量化的講解,我接觸到 AI 模型在精度和效率間尋求平衡的關鍵技術。不同量化方法,如 per tensor、per token 等,針對數(shù)據(jù)不同部分采用精細策略,就像給
    發(fā)表于 07-20 15:07

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    實現(xiàn)三重超越;而對開源生態(tài)、技術趨勢的前瞻探討,則印證了DeepSeek“用開源擊穿技術壁壘”的初心。 當DeepSeek-R1以60TPS的生成速度刷新認知,當蒸餾
    發(fā)表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術DeepSeek 核心技術揭秘

    析和前瞻性的行業(yè)洞察,為技術人員、研究人員和大模型相關技術愛好者提供了寶貴的學習資料。 本書目錄結構 第1章介紹 DeepSeek 的一系列技術
    發(fā)表于 06-09 14:38

    IBM探索AI驅動的降本增效新路徑

    AI 驅動已成為企業(yè)降本增效的戰(zhàn)略級引擎,其價值實現(xiàn)不在于技術本身,而在于與業(yè)務場景的深度融合。IBM 咨詢提出的"戰(zhàn)略規(guī)劃+運營管理"雙軌并行模式,突破傳統(tǒng)單點優(yōu)化的局限,構建
    的頭像 發(fā)表于 05-22 15:29 ?962次閱讀

    福田歐曼銀河5助力物流運輸行業(yè)降本增效

    在物流運輸行業(yè)競爭日趨白熱化的當下,每一分成本削減與效率提升都直接關乎用戶的生存空間,而運輸效率與運營效益已成為檢驗重卡性能的核心指標。面對行業(yè)降本增效的迫切需求,歐曼銀河5精準錨定用戶痛點,從動
    的頭像 發(fā)表于 05-20 09:23 ?934次閱讀

    PLC遠程維護上下載,降本增效減少出差的利器

    PLC(可編程邏輯控制器)遠程維護上下載技術已成為現(xiàn)代工業(yè)領域降本增效、減少出差的核心工具,尤其在工業(yè)4.0與物聯(lián)網(wǎng)技術推動下,價值愈發(fā)凸顯。對此,數(shù)之能提供PLC遠程編程調試和遠程上下載程序等
    的頭像 發(fā)表于 05-19 11:17 ?601次閱讀
    PLC遠程維護上下載,<b class='flag-5'>降本增效</b>減少出差的利器

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    的訓練樣本和訓練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務器+多路安防監(jiān)控IPC,差異化AI視頻系統(tǒng), 成本控制極具市場競爭力。 海思SD3403邊緣計算
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構,天璣AI開發(fā)套件端側AI模型接入得心應手

    的端側部署,Token產(chǎn)生速度提升了40%,端側大模型擁有更高的計算效率和推理性能,使端側AI交互響應更及時,用戶體驗更貼心。 聯(lián)發(fā)科還與vivo和全民K歌攜手,借助天璣AI人聲萃
    發(fā)表于 04-13 19:52

    科通技術推出DeepSeek+AI芯片全場景方案

    股份有限公司(以下簡稱“科通技術”)作為AI算力供應鏈的核心供應商,憑借深厚的技術積累與產(chǎn)業(yè)資源,推出DeepSeek
    的頭像 發(fā)表于 03-24 10:33 ?1280次閱讀

    鑫金暉亮相【2025年行家說LED顯示屏及MLED產(chǎn)業(yè)鏈峰會】賦能COB/LED自動化烘烤工藝改革-開啟降本增效的新引擎

    )作為行業(yè)智庫專家受邀出席發(fā)表《COB/LED智能自動化烘烤工藝改革降本增效的新引擎》主題分享。聚焦COB、LED烘烤工藝痛點與技術創(chuàng)新助力改革升級降本增效現(xiàn)場,鐘瑞
    的頭像 發(fā)表于 03-13 14:17 ?1028次閱讀
    鑫金暉亮相【2025年行家說LED顯示屏及MLED產(chǎn)業(yè)鏈峰會】賦能COB/LED自動化烘烤工藝改革-開啟<b class='flag-5'>降本增效</b>的新引擎